Tech
Lectura 2 - 3 minutos
OpenAI refuerza la seguridad de ChatGPT Atlas ante ataques de inyección de instrucciones
TXT Gabriel Erard

OpenAI refuerza la seguridad de ChatGPT Atlas ante ataques de inyección de instrucciones

  • Like
  • Comentar

OpenAI anunció un refuerzo importante en la seguridad de ChatGPT Atlas, su navegador web impulsado por inteligencia artificial, con el objetivo de proteger a los usuarios frente a uno de los riesgos más serios que enfrenta actualmente: los ataques de inyección de prompts.

Esta vulnerabilidad afecta especialmente al llamado modo agente, una de las funciones más destacadas del navegador, que permite a la IA navegar por internet y realizar acciones de forma autónoma.

De acuerdo con la compañía, la inyección de prompts consiste en ocultar instrucciones maliciosas dentro de correos, páginas web o contenidos aparentemente inofensivos, para engañar al sistema y hacer que ejecute acciones no deseadas sin que el usuario lo note.

Aunque este tipo de ataque no es nuevo en el ámbito de la IA generativa, su adaptación a navegadores con agentes autónomos ha incrementado los riesgos de seguridad.

Para hacer frente a este problema, OpenAI desarrolló un nuevo sistema de defensa basado en un “atacante automatizado” impulsado por modelos de lenguaje.
En términos simples, se trata de un bot entrenado mediante aprendizaje por refuerzo que simula el comportamiento de un hacker, buscando nuevas formas de vulnerar el modo agente de ChatGPT Atlas.

Este bot prueba ataques en entornos simulados, analiza cómo responde la IA y ajusta sus estrategias para volver a intentarlo, lo que permite detectar fallas antes de que sean explotadas en el mundo real.

La empresa explicó que, gracias a este enfoque, ChatGPT Atlas ahora puede identificar contenido sospechoso y alertar al usuario en lugar de ejecutar órdenes potencialmente dañinas.
Como ejemplo, OpenAI mostró un caso en el que una instrucción oculta intentaba hacer que el navegador enviara un correo falso de renuncia laboral; tras la actualización, el sistema detecta la amenaza y bloquea la acción.

Este refuerzo de seguridad también incluye un nuevo modelo entrenado específicamente para enfrentar adversarios, así como un ciclo de respuesta rápida desarrollado junto a su equipo interno de pruebas de seguridad.
Además, OpenAI recordó que existen otros riesgos, como la inyección de portapapeles, donde la IA puede copiar enlaces maliciosos sin que el usuario lo perciba.

Aunque la compañía reconoce que es poco probable eliminar por completo este tipo de ataques, aseguró que continuará fortaleciendo sus defensas para reducir los riesgos y hacer que estas amenazas sean cada vez más difíciles y costosas de ejecutar.

Mientras tanto, recomienda a los usuarios utilizar el modo agente en sitios donde no tengan sesiones iniciadas, revisar cuidadosamente las solicitudes de confirmación y dar instrucciones claras y específicas.

Con estas medidas, OpenAI busca que los usuarios puedan confiar en ChatGPT Atlas como una herramienta segura y eficiente, capaz de asistir en la navegación web de forma responsable, sin dejar de reconocer que la seguridad en la IA es un desafío a largo plazo.

Inicia sesión y comenta
Ant. Valve pone fin a la fabricación de la Steam Deck original
Sig. 007 First Light se retrasa, pero promete una experiencia de James Bond más pulida

Hay 5635 invitados y ningún miembro en línea

Publish modules to the "offcanvas" position.