ChatGPT puede tener la capacidad de responder preguntas después de mirar la cámara de su teléfono inteligente. Como se informó, se ha detectado evidencia de la función de video en vivo, que es parte del modo de voz avanzado de OpenAI, en la última aplicación beta ChatGPT para Android. La capacidad se demostró por primera vez en mayo durante el evento de Actualizaciones Anuales de la empresa de IA. Permite al chatbot acceder a la cámara del teléfono inteligente y responder preguntas sobre el entorno del usuario en tiempo real. Si bien la capacidad de respuesta de voz se lanzó hace unos meses, la compañía no ha anunciado una fecha de lanzamiento para la función de video en vivo.
Función de video ChatGPT disponible en la última versión Beta
Autoridad de Android informe detalló la evidencia de la función Live Video, que se encontró durante el proceso de descarga del kit de paquete (APK) de Android. Se han detectado varios fragmentos de código relacionados con la capacidad en ChatGPT para la versión beta 1.2024.317 de Android.
En particular, la función Live Video es parte del modo de voz avanzado de ChatGPT y permite que el chatbot de IA procese datos de video en tiempo real para responder preguntas e interactuar con el usuario en tiempo real. Con esto, ChatGPT puede revisar el refrigerador del usuario, escanear los ingredientes y sugerir una receta. También puede analizar las declaraciones del usuario e intentar medir sus opiniones. Esto fue acompañado de capacidades de estimulación de la voz que permitieron a la IA hablar de forma más natural y clara.
Según el informe, se detectaron múltiples hilos de código relacionados con la función. Uno de esos hilos dice: “Toque el ícono de la cámara para permitir que ChatGPT vea y charle sobre su entorno”, que es la misma descripción que OpenAI proporcionó para la función durante la demostración.
Otros hilos supuestamente incluyen palabras como “cámara en vivo” y “Beta”, que indican que la función puede funcionar en tiempo real y que la función no desarrollada se lanzará primero a los usuarios beta.
Otra línea de código también incluye consejos a los usuarios para que no utilicen la función Live Video para transmisiones en vivo o decisiones que puedan afectar la salud o seguridad de los usuarios.
Aunque la presencia de estos hilos no indica el lanzamiento de la función, después de un retraso de ocho meses, esta es la primera vez que se encuentra evidencia concreta de que la compañía está trabajando en la función. Anteriormente, OpenAI dijo que la función aún es lenta para proteger a los usuarios.
En particular, Google DeepMind también demostró la misma función de visualización de IA en el evento Google I/O en mayo. Como parte del Proyecto Astra, la función permite a Gemini ver el entorno del usuario utilizando la cámara del dispositivo.
En la demostración, la herramienta de inteligencia artificial de Google puede identificar objetos con precisión, conocer las condiciones climáticas actuales e incluso recordar cosas que vio anteriormente en un programa de video. Hasta ahora, el gigante tecnológico con sede en Mountain View tampoco ha dado un cronograma sobre cuándo podría implementarse esta función.