Epoch AI publica el punto de referencia de IA FrontierMath para probar la competencia de los modelos de IA

Epoch AI, un instituto de investigación con sede en California, publicó la semana pasada un nuevo punto de referencia de inteligencia artificial (IA). Apodado FrontierMath, el nuevo punto de referencia de IA prueba grandes modelos lingüísticos (LLM) sobre su capacidad para razonar y resolver problemas matemáticos. La empresa de inteligencia artificial afirma que los estándares estadísticos existentes son en gran medida ineficaces debido a factores como la contaminación de datos y los modelos de inteligencia artificial que obtienen puntuaciones demasiado altas en ellos. Epoch AI afirma que incluso los principales LLM obtuvieron menos del dos por ciento en el nuevo punto de referencia.

Epoch AI lanza el punto de referencia FrontierMath

a un la oficina de correos En X (antes conocida como Twitter), la firma de IA explicó que está colaborando con más de 60 matemáticos para crear cientos de problemas matemáticos originales e inéditos. Epoch AI afirma que estas preguntas pueden llevar horas incluso a los matemáticos para resolverlas. La razón para desarrollar el nuevo punto de referencia se cita como limitaciones con los puntos de referencia existentes, como GSM8K y MATH, donde los modelos de IA a menudo otorgan puntuaciones más altas.

La compañía dijo que la alta puntuación obtenida por LLM se debe principalmente a la contaminación de datos. Esto significa que las preguntas ya se incorporaron a los modelos de IA, lo que les facilitó resolverlas.

FrontierMath resuelve el problema al incluir problemas nuevos, únicos e inéditos, lo que reduce los riesgos asociados con la contaminación de datos. Además, el cálculo incluye una amplia variedad de preguntas que incluyen problemas computacionales intensivos en teoría de números, análisis de la realidad y geometría algebraica, así como temas como la teoría de conjuntos de Zermelo-Fraenkel. La firma de inteligencia artificial dice que todas las preguntas son “a prueba de conjeturas”, lo que significa que no pueden responderse incorrectamente sin razones válidas.

Epoch AI señaló que para medir las capacidades de la IA, se deben realizar puntos de referencia para resolver problemas en los que la IA tiene que mantener la lógica en múltiples pasos. En particular, muchos veteranos de la industria creen que los puntos de referencia existentes no son suficientes para medir con precisión el progreso del modelo de IA.

En respuesta al nuevo punto de referencia con un la oficina de correosNoam Brown, el investigador de OpenAI detrás del modelo o1 de la compañía, dio la bienvenida al nuevo logotipo y dijo: “Me gustaría ver una nueva evaluación con tasas de aprobación más bajas para los modelos de la frontera”.

Para conocer las últimas noticias y reseñas sobre tecnología, siga Gadgets 360 en adelante incógnita, Facebook, WhatsApp, Instrumentos de cuerda y noticias de google. Para ver los últimos vídeos sobre gadgets y tecnología, suscríbete a nosotros. canal de youtube. Si quieres saber todo sobre los principales influencers, sigue nuestra casa ¿Quién es ese 360? a Instagram y YouTube.

Poco X7 Pro podría ser el primer teléfono inteligente HyperOS 2 de Xiaomi en India


Se revelaron 13 opciones de color del iQOO antes de su lanzamiento en India el 3 de diciembre.



Fuente