Según algunos investigadores con vista de águila, las tan esperadas capacidades de visión de ChatGPT podrían llegar pronto.
Autoridad Android Hizo algunas líneas de código en el modo de voz avanzado como parte de la última versión beta de ChatGPT v1.2024.317 que se refiere a algo llamado “Cámara en vivo”. El código parece ser una advertencia a los usuarios para que no utilicen la cámara en vivo “para navegación en vivo o decisiones que puedan afectar su salud o seguridad”.
Otra línea en el código parece proporcionar instrucciones para las capacidades de visión y dice: “Toca el ícono de la cámara para permitir que ChatGPT vea y charle a tu alrededor”.
La velocidad de la luz triturable
Actualizaciones de ChatGPT para Windows y macOS: todo lo que necesita saber
Las capacidades en evolución de ChatGPT: visión, voz y más
La capacidad de ChatGPT para procesar información visualmente fue una característica clave introducida en el evento OpenAI del pasado mes de mayo, en el que se lanzó GPT-4o. Las demostraciones del evento mostraron cómo GPT-4o puede usar una cámara móvil o de escritorio para identificar sujetos y recordar detalles sobre imágenes. Una demostración particular de GPT-4o mostraba a un perro jugando con una pelota de tenis y recordando que su nombre era “Bowser”.
Desde el evento OpenAI y el acceso temprano a algunos probadores alfa afortunados, no se ha dicho mucho sobre GPT-4o con visión. Mientras tanto, OpenAI lanzó un modo de voz avanzado para los usuarios de ChatGPT Plus y Team en septiembre.
Si el modo de visualización de ChatGPT es tan cercano como sugiere el código, los usuarios pronto podrán probar ambos componentes de las nuevas características de GPT-4o, que fueron objeto de burlas la primavera pasada.
Un tweet se puede eliminar
OpenAI ha estado ocupado últimamente, a pesar de los informes disminución de ingresos con futuros modelos. El mes pasado lanzó ChatGPT Search, que conecta un modelo de IA a la web y proporciona datos en tiempo real. También hay rumores de algún tipo de agente capaz de realizar tareas de varios pasos en nombre del usuario, como escribir código y navegar por la web, posiblemente programado para su lanzamiento en enero.