El verificador de la ley de IA de la UE revela grandes debates tecnológicos

October 16, 2024

Algunos de los ejemplos más destacados de inteligencia artificial no cumplen con las normas europeas en áreas clave como la solidez de la ciberseguridad y la producción de discriminación, según datos vistos por Reuters.

La UE había debatido durante mucho tiempo nuevas reglas de IA antes de que OpenAI lanzara ChatGPT al público a fines de 2022. La reputación dañada y el posterior debate público sobre los riesgos percibidos de la existencia de tales ejemplos llevaron a los legisladores a promulgar leyes específicas sobre el “propósito general” de las IA. (GPAI).

Ahora, una nueva herramienta desarrollada por LatticeFlow y socios suizos, y respaldada por funcionarios de la Unión Europea, ha probado los modelos de IA producidos por importantes empresas de tecnología como Meta y OpenAI en varios parámetros de acuerdo con la regla de todo el bloque de IA. se está implementando en fases durante los próximos dos años.

Al otorgar a cada modelo una puntuación entre 0 y 1, la tabla de clasificación publicada por LatticeFlow el miércoles mostró que los modelos desarrollados por Alibaba, Anthropic, OpenAI, Meta y Mistral recibieron una puntuación promedio de 0,75 o superior.

Sin embargo, el “Verificador de modelos de lenguaje grande (LLM)” de la compañía descubrió algunas debilidades del modelo en áreas clave, destacando dónde las empresas pueden necesitar redirigir recursos para garantizar el cumplimiento.

Las empresas que no cumplan con la Ley de IA se enfrentarán a multas de 35 millones de euros (38 millones de dólares) o el 7% de las ganancias anuales a nivel mundial.

Efectos combinados

Actualmente, la UE está tratando de determinar si se implementarán las reglas de la Ley de IA sobre herramientas de IA emergentes como ChatGPT, y pide a los expertos que creen reglas operativas que regulen la tecnología para 2025.

Pero el análisis de LatticeFlow, elaborado en colaboración con investigadores de la universidad suiza ETH Zurich y el instituto de investigación búlgaro INSAIT, proporciona la primera indicación de áreas específicas en las que las empresas de tecnología corren el riesgo de no cumplir con la ley.

Por ejemplo, la generación de prejuicios ha sido un problema persistente en el desarrollo de modelos de productos de IA, que muestra los prejuicios de las personas en términos de género, raza y otras áreas cuando se les solicita.

Cuando se probó el rendimiento de discriminación, el LLM Checker de LatticeFlow le dio al “GPT-3.5 Turbo” de OpenAI una puntuación relativamente baja de 0,46. Para el mismo grupo, la versión “Qwen1.5 72B Chat” de Alibaba Cloud obtuvo solo 0,37.

Al realizar pruebas de “secuestro rápido”, un tipo de ataque cibernético en el que los delincuentes disfrazan un mensaje malicioso como un comunicado de prensa legítimo, LLM Checker le dio a la muestra “Llama 2 13B Chat” de Meta una puntuación de 0,42. En la misma categoría, el modelo Mistral del “8x7B Instruct” francés recibió 0,38.

“Claude 3 Opus”, el modelo desarrollado por Anthropic, respaldado por Google, recibió la puntuación más alta: 0,89.

El juicio se llevó a cabo de acuerdo con el texto de la Ley de IA y se ampliará para incluir otras medidas a medida que se desarrollen. LatticeFlow dijo que LLM Checker estará disponible de forma gratuita para que los desarrolladores prueben sus modelos en línea.

Petar Tsankov, director ejecutivo y cofundador de la empresa, dijo a Reuters que los resultados de las pruebas fueron en general positivos y ofreció a las empresas una hoja de ruta para alinear sus modelos con la Ley de IA.

“La UE está trabajando en todos los estándares de cumplimiento, pero ya estamos viendo algunas lagunas en las muestras”, dijo. “Al centrarse más en mejorar el cumplimiento, creemos que los proveedores modelo pueden prepararse mejor para cumplir con los requisitos reglamentarios”.

Meta se negó a hacer comentarios. Alibaba, Anthropic, Mistral y OpenAI no respondieron de inmediato a las solicitudes de comentarios.

Aunque la Comisión Europea no puede verificar herramientas externas, el organismo ha sido informado durante todo el desarrollo del LLM Checker y explica que es el “primer paso” para introducir nuevas reglas.

Un portavoz de la Comisión Europea dijo: “La Comisión acoge con satisfacción este estudio y la plataforma de prueba del modelo de IA como un primer paso para traducir la Ley de IA de la UE en requisitos técnicos”.

Fuente