Google DeepMind integra Gemini 1.5 Pro en robots que pueden navegar en entornos del mundo real.

Google DeepMind compartió el jueves nuevos avances en el campo de la robótica y los modelos de lenguaje visual (VLM). El equipo de investigación de Inteligencia Artificial (IA) del gigante tecnológico está trabajando con modelos de visión avanzados para desarrollar nuevas capacidades en robots. En un nuevo estudio, DeepMind destacó que el uso de Gemini 1.5 Pro y su larga ventana de contexto ahora ha permitido a la división avanzar en el movimiento y la comprensión real de sus robots. A principios de este año, Nvidia también presentó una nueva tecnología de inteligencia artificial que impulsa capacidades avanzadas en robots humanoides.

Google DeepMind utiliza Gemini AI para mejorar los robots

a un la oficina de correos En X (antes conocido como Twitter), Google DeepMind ha revelado que está entrenando a sus robots utilizando la ventana de señal Gemini 1.5 Pro de dos millones. Las condiciones de ventana pueden entenderse como una ventana de conocimiento visible en el modelo de IA, que utiliza información tangencial en torno al tema en cuestión.

Por ejemplo, si el usuario pregunta al modelo de IA sobre “los sabores de helado más populares”, el modelo de IA evaluará el helado y los sabores para obtener la información de la consulta. Si esta ventana de información es demasiado pequeña, entonces la IA sólo podrá responder con los nombres de diferentes sabores de helado. Sin embargo, si es más grande, la IA también podrá ver la cantidad de artículos sobre cada sabor de helado para encontrar el que más se ha mencionado y bajarlo a “cosa de la fama”.

DeepMind aprovecha esta larga ventana de acondicionamiento para entrenar a sus robots en situaciones del mundo real. La función tiene como objetivo ver si el robot puede recordar información ambiental y ayudar a los usuarios cuando se les pregunta sobre el medio ambiente en términos vagos o ambiguos. En un vídeo compartido en Instagram, la división de IA demostró que el robot puede guiar al usuario hasta la pizarra cuando se le pide un espacio para dibujar.

“Impulsados ​​por la longitud de 1 millón de tokens de 1.5 Pro, nuestros robots pueden usar comandos humanos, recorridos en video y razonamiento lógico para encontrar su camino en el espacio”, dijo Google DeepMind en una publicación.

a un estudiar Publicado en arXiv (una revista en línea no revisada por pares), DeepMind describió la tecnología detrás del avance. Además de Géminis, este también es el caso. uso su versión Robotic Transformer 2 (RT-2). Es un modelo de visión, lenguaje y acción (VLA) que aprende de datos web y robóticos. Utiliza visión por computadora para procesar situaciones del mundo real y utilizar esa información para crear conjuntos de datos. Posteriormente, este conjunto de datos puede ser procesado por IA, que genera para desglosar los órdenes de clasificación y producir los resultados deseados.

Actualmente, Google DeepMind está utilizando esta innovación para entrenar a sus robots en una amplia categoría conocida como Navegación de Instrucción Multimodal (MIN), que incluye evaluación ambiental y navegación guiada. Si la señal compartida por la división es correcta, esta tecnología podría hacer avanzar la robótica.

Fuente