Anthropic prueba la capacidad de sabotaje de la IA

October 21, 2024

A medida que continúa el rumor en torno a la IA, la necesidad de normas de seguridad estrictas se vuelve más clara.

Ahora Anthropic, la empresa detrás de Claude AI, está estudiando cómo sus modelos pueden engañar o destruir a los usuarios. Anthropic acaba de dejar caer un papel. expresar su actitud.

VER TAMBIÉN:

Sam Altman ha dimitido como jefe del equipo de seguridad de OpenAI

antrópico investigaciones recientes – titulado “Evaluación de sabotaje para modelos de límites” – pertenece al grupo Alignment Science, impulsado por la política de “Escalamiento responsable” de la empresa.

El objetivo es determinar hasta qué punto la IA es capaz de engañar a los usuarios o incluso alterar “los sistemas que implementamos para controlarlos”. El estudio se centra en cuatro tácticas específicas: sabotaje de decisiones humanas, sabotaje de códigos, sacos de arena y bajo control.

Piense en los usuarios que llevan ChatGPT al límite e intentan que genere contenido o imágenes gráficas inapropiadas. Estas pruebas tienen como objetivo engañar a la IA para que rompa sus propias reglas.

La velocidad de la luz triturable

En el artículo, Anthropic dice que su objetivo es estar preparado para la posibilidad de que la IA evolucione hasta convertirse en algo con capacidades peligrosas. Por eso sometieron sus modelos Claude 3 Opus y 3.5 Sonnet a una serie de pruebas diseñadas para evaluar y mejorar sus protocolos de seguridad.

El Experimento de Decisión Humana tiene como objetivo explorar cómo la IA puede influir en la toma de decisiones humana. La segunda prueba, Code Sabotage, analizó si la IA podía insertar errores en la base de datos de codificación. De hecho, los modelos de IA más sólidos han dado lugar a una protección más sólida contra tales vulnerabilidades.

Las pruebas restantes (limpieza con chorro de arena y vigilancia supervisada) exploraron si la IA podía ocultar sus verdaderas capacidades o eludir los mecanismos de seguridad integrados en el sistema.

Actualmente, la investigación de Anthropic concluye que los modelos actuales de IA plantean poco riesgo, al menos en términos de estas capacidades maliciosas.

“Las reducciones mínimas son actualmente suficientes para abordar los riesgos de sabotaje”, escribió el grupo, pero “es probable que pronto se necesiten evaluaciones más realistas y mitigaciones más fuertes para mejorar las capacidades”.

Traducción: cuidado, mundo.

Materias
Ciberseguridad con inteligencia artificial

Fuente