En una era de intensa división política, los investigadores descubrieron recientemente algo notable. Tanto en el Reino Unido como en Estados Unidos, personas de todo el espectro político coinciden en gran medida en que las herramientas de inteligencia artificial los están mejorando.
A pesar de toda la charla que nos divide, resulta que la política no es la diferencia clave. El factor que más influye en nuestras preferencias en materia de IA es mucho más fundamental: nuestra edad.
Pero el hallazgo más sorprendente del estudio a gran escala, llamado HUMAINE, no es lo que divide a la gente.
Investigador de IA en Prolific.
Si bien casi la mitad de estas discusiones se centraron en el bienestar activo, como los planes de acondicionamiento físico y la nutrición, una parte importante abordó territorios más delicados.
Las conversaciones sobre salud mental y afecciones médicas específicas fueron las más frecuentes y profundamente personales.
Al parecer, la gente utiliza estos modelos como caja de resonancia para su estado mental, fuente de consuelo y guía para su salud física.
Cambio profundo
Esto muestra un cambio profundo en nuestra relación con la tecnología y plantea una pregunta desconcertante: ¿Están nuestros métodos actuales para evaluar la IA equipados para decirnos si están haciendo un buen trabajo?
La respuesta honesta es no. El mayor error que tienen las personas cuando miran una tabla de clasificación de IA simple es que un solo número puede determinar qué modelo es el «mejor». La cuestión en sí está mal definida. bueno para qué y, lo más importante, ¿mejor para quién?
La industria de la IA está muy obsesionada con las medidas técnicas. Este enfoque limitado, si bien genera resultados efectivos en criterios específicos, nos deja ciegos ante las cuestiones centradas en el ser humano que afectan el uso diario de nuestros LLM.
La evaluación actual tiene dos formas generales. Por un lado, tenemos estándares académicos que miden habilidades abstractas, como la capacidad de un modelo para resolver problemas matemáticos de nivel olímpico.
Por otro lado, tenemos «campos» públicos donde votan usuarios anónimos. Esto creó una amplia brecha entre la capacidad técnica abstracta y la utilidad en el mundo real.
Es por eso que un módulo puede parecer un genio en la prueba pero resultar un asistente incompetente cuando lo necesita para planificar un proyecto complejo o, más seriamente, manejar una cuestión de salud delicada.
Al observar los resultados a través de una lente antropocéntrica, surgen varios patrones importantes.
Conclusión #1: La verdadera crisis de seguridad es la incertidumbre
Dado que muchas de las conversaciones versaron sobre temas delicados como la salud mental y las afecciones médicas, se podría esperar que las métricas de confianza y seguridad marcaran una diferencia significativa. No lo fue. Cuando los participantes calificaron los modelos en este aspecto, la respuesta más común fue no. La métrica era increíblemente ruidosa.
Esto no significa que la seguridad carezca de importancia. Más bien, sugiere que rasgos como la confianza y la seguridad no pueden medirse de manera confiable en las conversaciones cotidianas. Los escenarios que realmente ponen a prueba la columna vertebral moral del modelo rara vez surgen de manera orgánica. La evaluación de estas importantes características requiere un enfoque diferente y más especializado.
Un ejemplo poderoso es el trabajo destacado en una publicación reciente de Stanford HAI, «Exploración de los riesgos de la IA en la atención de la salud mental». Su estudio investigó si la IA está preparada para actuar como proveedor de salud mental e identificó riesgos importantes. Descubrieron que los modelos no sólo pueden perpetuar el estigma dañino contra ciertas condiciones, sino que también permiten comportamientos peligrosamente dañinos al no reconocer la crisis real del usuario.
Este tipo de pruebas rigurosas basadas en escenarios es exactamente lo que se necesita. Es alentador ver que estos marcos se implementen como puntos de referencia en plataformas como weval.org del CIP, que permiten pruebas sistemáticas de modelos en estos contextos elevados. Necesitamos urgentemente más evaluaciones de este tipo, así como evaluaciones que capturen los efectos a largo plazo del uso de la IA.
° 2: nuestras métricas impulsan una automatización sin sentido, no una colaboración significativa
El debate no es una simple elección entre automatización y colaboración. Automatizar trabajos tediosos y repetitivos es un regalo. El peligro radica en la automatización sin sentido, que implica optimizar completamente para completar una tarea sin considerar el costo humano.
Este no es un miedo imaginario. Ya estamos viendo informes de que los jóvenes y los recién graduados están luchando por encontrar empleos de nivel inicial, ya que los empleos que alguna vez construyeron una carrera profesional se eliminan automáticamente.
Cuando los desarrolladores construyen y escalan la IA con un enfoque miope en la eficiencia, corremos el riesgo de descalificar a nuestra fuerza laboral y crear un futuro que sirva a la tecnología, no a las personas.
Aquí es donde la evaluación se llama dirección. Si nuestra única métrica es «¿Se hizo el trabajo?» , esencialmente crearemos una IA que reemplace en lugar de mejorar. Pero, ¿qué pasaría si también midiéramos «¿Aprendió algo el colega humano?» o «¿La asociación entre humanos e IA mejora el producto final?»
La investigación de HUMAINE muestra que los modelos tienen perfiles de habilidades específicos: algunos son grandes razonadores, mientras que otros son buenos comunicadores. El futuro de la colaboración sostenible depende de valorar y medir la calidad de esta interacción, no solo el producto final.
Conclusión #3: El progreso real está en el horizonte
Al final, en el estudio surgió un claro ganador: el Gemini-2.5-Pro de Google. Pero la razón por la que ganó es la lección más importante. Ocupó un lugar alto porque fue muy consistente en todas las métricas y en todos los grupos demográficos.
Así es como se ve la tecnología madura. Los mejores modelos no son necesariamente los más brillantes; Son muy confiables y ampliamente calificados. La mejora continua consiste en construir sistemas integrales y confiables, no simplemente en optar por un conjunto único y limitado de habilidades.
Estas ideas apuntan hacia un cambio necesario en la forma en que la sociedad y la sociedad en general piensan sobre el desarrollo de la IA.
Nos alienta a ir más allá de las simples clasificaciones y hacer preguntas más profundas sobre el impacto de nuestra tecnología, como por ejemplo, cómo se están desempeñando los modelos en la población y si ciertos grupos están en desventaja sin darse cuenta.
También significa centrarse en el lado humano de la colaboración: ¿la participación en la IA es una asociación positiva en la que todos ganan o una transición hacia la automatización en la que todos ganan?
Por último, una ciencia de la evaluación más madura no pretende frenar el progreso; Se trata de orientación. Nos permite identificar y abordar nuestros puntos ciegos, guiando el progreso hacia una IA que no sólo sea técnicamente impresionante, sino también verdaderamente útil.
El mundo es complejo, diverso y lleno de matices; Es hora de nuestra evaluación.
Enumeramos los mejores módulos de lenguaje grande (LLM) para codificar.
Este artículo se produce como parte del canal de información de expertos de TechRadarPro, donde presentamos las mejores y más brillantes mentes de la industria tecnológica actual. Las opiniones expresadas aquí son las del autor y no necesariamente las de TechRadarPro o Future plc. Si estás interesado en contribuir, descubre más aquí:












