Mistral anuncia el modelo de IA multimodal Pixtral 12B con función ‘Visión por computadora’

Mistral lanzó el miércoles su primer modelo de inteligencia artificial (IA), llamado Pixtral 12B. La firma de IA, conocida por sus modelos de código abierto de lenguajes grandes (LLM), también puso a disposición de los usuarios la última versión de IA en GitHub y Hugging Face para que los usuarios la descarguen y experimenten. En particular, aunque es multimodal, Pixtral sólo puede procesar imágenes utilizando tecnología de visión por computadora y responder preguntas sobre ellas. Para esta función se instalan dos codificadores especiales. No puede generar imágenes como los modelos de difusión estable o las redes generativas adversas (GAN) de Midjourney.

Lanzamiento de Mistral Pixtral 12B

Para ganar popularidad con anuncios limitados, la cuenta oficial de Mistral en X (anteriormente conocida como Twitter) lanzó exclusivamente la versión AI. la oficina de correos compartiendo su enlace magnético. El tamaño total del archivo de Pixtral 12B es de 24 GB y requerirá una PC con NPU o una GPU potente para ejecutar el modelo.

Pixtral 12B viene con 12 mil millones de parámetros y está construido utilizando el modelo de IA Nemo 12B existente de la compañía. Los usuarios de datos de Mistral también necesitarán una unidad lineal de error gaussiano (GeLU) como adaptador de visión y una incrustación de posición rotativa 2D (RoPE) como codificador de visión.

Obviamente, los usuarios pueden cargar archivos de imágenes o URL a Pixtral 12B y debería poder responder preguntas sobre la imagen, como identificar objetos, contar la cantidad de objetos y compartir información adicional. Dado que está construido sobre Nemo, el modelo tendrá las habilidades para completar todas las tareas comunes basadas en texto.

Un usuario de Reddit metido imagen en los datos de evaluación comparativa de Pixtral 12B, y parece que LLM supera a Claude-3 Haiku y Phi-3 Vision en capacidad multimodo en la evaluación comparativa ChartQA. También supera a dos modelos de IA competidores en el punto de referencia Massive Multitask Language Understanding (MMLU) tanto en conocimiento como en razonamiento.

Hablando a través de un portavoz de la empresa, TechCrunch informes que la versión Mistral AI se puede editar y utilizar correctamente bajo la licencia Apache 2.0. Esto significa que los resultados del modelo se pueden utilizar para fines personales o comerciales sin restricciones. Además, Sophia Yang, jefa de relaciones con los productores de Mistral, explicó a la oficina de correos que Pixtral 12B pronto estará disponible en Le Chat y Le Platforme.

Actualmente, los usuarios pueden descargar el modelo de IA directamente mediante el enlace magnético proporcionado por la empresa. Además, el peso del modelo también estaba ahí. aceptar en Hugging Face y GitHub lista.

Fuente