Apple lanza Depth Pro, un modelo de IA de estimación de profundidad monocular de código abierto

Apple ha lanzado varios modelos de inteligencia artificial (IA) de código abierto este año. Suelen ser ejemplos de lenguajes pequeños diseñados para una tarea específica. Para agregar a la lista, el gigante tecnológico con sede en Cupertino lanzó un nuevo modelo de inteligencia artificial llamado Depth Pro. Es un modelo visual que puede generar mapas de profundidad monoculares de cualquier imagen. Esta tecnología es útil en la generación de texturas 3D, realidad aumentada (AR) y más. Los investigadores del proyecto afirman que los mapas de profundidad producidos por la IA son mejores que los creados con la ayuda de múltiples cámaras.

Apple lanza el modelo Depth Pro AI

La percepción de profundidad es un proceso importante en el modelado 3D, así como en otras tecnologías diversas como AR, sistemas de conducción autónoma, robótica y más. El ojo humano es un sistema de lentes complejo que puede medir con precisión la profundidad de los objetos incluso mirándolos desde un ángulo. Sin embargo, las cámaras no son tan buenas en eso. Las imágenes tomadas con una sola cámara hacen que parezca bidimensional, eliminando profundidad de la figura.

Por eso, para la tecnología en la que la profundidad del objeto juega un papel importante, se utilizan varias cámaras. Sin embargo, modelar cosas como esta puede consumir mucho tiempo y recursos. En cambio, en un trabajo de investigación Titulado “Depth Pro: Profundidad métrica monocular nítida en menos de un segundo”, Apple destacó cómo utilizó el modelado de inteligencia artificial basado en la visión para generar mapas de profundidad de disparo cero de imágenes monoculares de objetos.

El modo Depth Pro AI genera mapas de profundidad
Crédito Crédito: Apple

Para desarrollar el modelo de IA, los investigadores utilizaron una arquitectura basada en Vision Transformer (ViT). Se eligió la resolución de salida de 384 x 384, pero la resolución de entrada y procesamiento se mantuvo en 1536 x 1536, lo que permitió al modelo de IA más espacio para comprender los detalles.

En la primera versión del artículo, que se publica actualmente en la revista en línea arXiv, los investigadores dijeron que el modelo de IA ahora puede generar mapas de profundidad de objetos visuales complejos como una jaula, el cuerpo peludo y los bigotes de un gato, y. De nuevo. Se dice que el tiempo de generación es de un segundo. Actualmente hay una versión de código abierto de la IA alojada en GitHub. lista. Las partes interesadas pueden ejecutar el modelo basándose en la salida de una única GPU.

Fuente