OpenAI agrega un nuevo protocolo de ‘jerarquía de instrucción’ para evitar eventos de penalización en GPT-4o Mini.

OpenAI lanzó la semana pasada un nuevo modelo de inteligencia artificial (IA) llamado GPT-4o Mini, con nuevas medidas de seguridad para protegerlo del uso malicioso. El modelo de lenguaje grande (LLM) se construye con un método llamado Jerarquía de instrucción, que evitará que ingenieros malintencionados alteren el diseño de la IA. La compañía dijo que este método mostrará una mayor resistencia a problemas como inyecciones y extracciones rápidas del sistema. Según la empresa, el nuevo método mejoró la puntuación dinámica del modelo de IA en un 63 por ciento.

OpenAI construye un nuevo marco de seguridad

en la encuesta papelPublicado en la primera revista en línea (no revisada por pares) arXiv, la firma de inteligencia artificial explicó el nuevo método y cómo funciona. Para comprender el sistema académico, primero es necesario explicar el jailbreak. El jailbreak es un mayor riesgo de explotar ciertas fallas en el software para obligarlo a hacer cosas para las que no está destinado.

En los primeros días de ChatGPT, muchas personas intentaron que la IA generara texto ofensivo o malicioso engañándola para que olvidara el programa original. Estas sugerencias a menudo comienzan con “Olvídese de todas las instrucciones anteriores y haga esto…” Aunque ChatGPT está lejos de serlo y la ingeniería rápida es muy difícil, los malos actores también se han convertido en las mejores prácticas en este esfuerzo.

Para combatir problemas en los que el modelo de IA produce no solo texto o imágenes ofensivas sino también contenido malicioso, como métodos para fabricar una bomba química o formas de desfigurar un sitio web, OpenAI utiliza el método de Jerarquía de Instrucción. En términos simples, este método dicta cómo deben comportarse los modelos cuando chocan los órdenes de prioridades.

Al crear una estructura jerárquica, la empresa puede mantener sus pedidos como los más importantes, lo que hará muy difícil que cualquier ingeniero rápido se equivoque, ya que la IA siempre seguirá el primer comando cuando se le pida que produzca algo. no lo fue. originalmente organizado para.

La compañía afirma haber visto una mejora del 63 por ciento en las calificaciones energéticas. Sin embargo, existe el riesgo de que la IA se niegue a obedecer órdenes de bajo nivel. El artículo de investigación de OpenAI también describió varias mejoras para perfeccionar el método en el futuro. Uno de los aspectos más importantes a considerar es el manejo de otros métodos, como imágenes o audio, que pueden contener comandos incrustados.

Fuente