Una investigación de Apple revela importantes lagunas en la IA en los LLM de OpenAI, Google y Meta

Según A. leer de los investigadores de Apple.

Los LLM de OpenAI, Google, Meta y otros han sido descritos por sus impresionantes habilidades de pensamiento. Pero las investigaciones muestran que su supuesta inteligencia está más cerca de una “coincidencia de patrones complejos” que del “verdadero razonamiento lógico”. Sí, incluso el modelo de pensamiento OpenAI avanzado de o1.

El indicador más popular para la capacidad de razonamiento es una prueba llamada GSM8K, pero debido a su popularidad, existe el riesgo de contaminación de los datos. Esto significa que los LLM pueden conocer las respuestas de una prueba porque han sido capacitados en esas respuestas, no por su inteligencia.

VER TAMBIÉN:

OpenAI estima la ronda de financiación de la empresa en 157.000 millones de dólares

Para probar esto, el estudio desarrolló un nuevo criterio llamado GSM-Simbólico, que preserva la esencia de los problemas de razonamiento pero cambia variables como nombres, números, complejidad y la adición de información irrelevante. Lo que descubrieron fue “inestabilidad” en el desempeño del LLM. El estudio probó más de 20 modelos, incluidos OpenAI o1 y GPT-4o, Google Gemma 2 y Meta Llama 3. Con cada modelo, el rendimiento del modelo disminuyó a medida que se cambiaron las variables.

La precisión se redujo en un pequeño porcentaje al cambiar nombres y variables. Y como señalaron los investigadores, los modelos OpenAI funcionaron mejor que otros modelos de código abierto. Sin embargo, las discrepancias se consideraron “no triviales”, lo que significa que no deberían producirse discrepancias reales. Sin embargo, las cosas se pusieron realmente interesantes cuando los investigadores agregaron a la mezcla “declaraciones aparentemente relevantes pero en última instancia inútiles”.

La velocidad de la luz triturable

VER TAMBIÉN:

Es probable que pronto esté disponible una actualización gratuita de Apple Intelligence, sugiere una filtración

Para probar la hipótesis de que los LLM se basan más en la coincidencia de patrones que en hechos reales, el estudio agregó frases redundantes a los problemas matemáticos para ver cómo se comportaban los modelos. Por ejemplo, “Oliver recoge 44 kiwis el viernes. Luego, el sábado recoge 58 kiwis. El domingo recoge el doble de kiwis que el viernes. pero cinco de ellos eran ligeramente más pequeños que el promedio. ¿Cuántos kiwis tiene Oliver?”

El resultado fue una caída significativa en el rendimiento en todos los ámbitos. La vista previa o1 de OpenAI fue la mejor, con una caída de precisión del 17,5%. Eso sigue siendo bastante malo, pero no tan malo como el modelo Phi 3 de Microsoft, que tuvo un rendimiento un 65 por ciento peor.

VER TAMBIÉN:

ChatGPT-4, Gemini, MistralAI y más unen fuerzas en esta herramienta personal de IA

En el ejemplo del kiwi, el estudio dice que los LLM tienden a eliminar los cinco kiwis más pequeños de la ecuación sin darse cuenta de que el tamaño del kiwi es irrelevante para el problema. Esto sugiere que “los modelos tienden a convertir declaraciones en operaciones sin comprender realmente su significado”, y esto confirma la hipótesis de los investigadores de que los LLM buscan patrones en problemas de razonamiento en lugar de comprender conceptos de forma natural.

El estudio no dice nada sobre sus hallazgos. Probar modelos en un estándar que contiene información irrelevante “expone una falla crítica en la capacidad de LLM para comprender verdaderamente conceptos matemáticos y encontrar información relevante para resolver problemas”. Sin embargo, cabe señalar que los autores de este estudio trabajan para Apple, que obviamente es un importante competidor de Google, Meta e incluso OpenAI; aunque Apple y OpenAI son socios, Apple también trabaja en modelos de IA.

Dicho esto, no se puede pasar por alto la falta de habilidades formales de razonamiento en LLM. En última instancia, este es un buen recordatorio para abordar la IA con un saludable escepticismo.

Materias
inteligencia artificial de manzana



Fuente