Incluso mientras OpenAI trabaja para fortalecer su navegador Atlas AI contra ataques cibernéticos, la compañía admite que las inyecciones rápidas, un tipo de ataque que manipula a los agentes de AI para que sigan instrucciones maliciosas a menudo ocultas en páginas web o correos electrónicos, es un riesgo que no desaparecerá pronto, lo que genera dudas sobre la seguridad con la que los agentes de AI pueden operar en la web abierta.
«Es poco probable que la inyección rápida, al igual que las estafas y la ingeniería social en la web, alguna vez se ‘resuelva’ por completo», escribió OpenAI en un artículo del lunes. publicación de blog detallando cómo la firma está reforzando la armadura de Atlas para combatir los incesantes ataques. La compañía admitió que el «modo agente» en ChatGPT Atlas «expande la superficie de amenazas a la seguridad».
OpenAI lanzó su navegador ChatGPT Atlas en octubre y los investigadores de seguridad se apresuraron a publicar sus demostraciones, demostrando que era posible escribir algunas palabras en Google Docs que eran capaces de cambiar el comportamiento del navegador subyacente. Ese mismo día, Valiente publicó una publicación de blog explicando que la inyección rápida indirecta es un desafío sistemático para los navegadores con tecnología de inteligencia artificial, incluido Perplexity’s Comet.
OpenAI no es el único que reconoce que las inyecciones basadas en indicaciones no van a desaparecer. El El Centro Nacional de Seguridad Cibernética del Reino Unido advirtió a principios de este mes que los ataques de inyección contra aplicaciones de IA generativa “quizás nunca se mitiguen por completo”, lo que pone a los sitios web en riesgo de ser víctimas de violaciones de datos. La agencia del gobierno del Reino Unido aconsejó a los profesionales cibernéticos que reduzcan el riesgo y el impacto de las inyecciones rápidas, en lugar de pensar que los ataques se pueden «detener».
Por parte de OpenAI, la compañía dijo: «Consideramos la inyección rápida como un desafío de seguridad de la IA a largo plazo, y necesitaremos fortalecer continuamente nuestras defensas contra ella».
¿La respuesta de la empresa a esta tarea de Sísifo? Un ciclo proactivo y de respuesta rápida que, según la empresa, se muestra prometedor desde el principio para ayudar a descubrir nuevas estrategias de ataque internamente antes de que sean explotadas «en la naturaleza».
Esto no es del todo diferente de lo que rivales como Anthropic y Google han estado diciendo: que para luchar contra el riesgo persistente de ataques rápidos, las defensas deben estratificarse y someterse a pruebas de estrés continuamente. El trabajo reciente de Googlepor ejemplo, se centra en controles a nivel arquitectónico y de políticas para sistemas agentes.
Pero donde OpenAI está adoptando un rumbo diferente es con su “atacante automatizado basado en LLM”. Este atacante es básicamente un robot que OpenAI entrenó, utilizando aprendizaje reforzado, para desempeñar el papel de un hacker que busca formas de pasar instrucciones maliciosas a un agente de IA.
El robot puede probar el ataque en simulación antes de usarlo de verdad, y el simulador muestra cómo pensaría la IA objetivo y qué acciones tomaría si viera el ataque. Luego, el robot puede estudiar esa respuesta, modificar el ataque e intentarlo una y otra vez. Esa información sobre el razonamiento interno de la IA objetivo es algo a lo que los externos no tienen acceso, por lo que, en teoría, el robot de OpenAI debería poder encontrar fallas más rápido que un atacante del mundo real.
Es una táctica común en las pruebas de seguridad de la IA: crear un agente para encontrar los casos extremos y probarlos rápidamente en simulación.
«Nuestro [reinforcement learning]»Un atacante entrenado puede llevar a un agente a ejecutar flujos de trabajo dañinos sofisticados y de largo plazo que se desarrollan en decenas (o incluso cientos) de pasos», escribió OpenAI. «También observamos estrategias de ataque novedosas que no aparecieron en nuestra campaña de equipo rojo humano ni en informes externos».
En una demostración (en la foto de arriba), OpenAI mostró cómo su atacante automatizado deslizó un correo electrónico malicioso en la bandeja de entrada de un usuario. Cuando más tarde el agente de IA escaneó la bandeja de entrada, siguió las instrucciones ocultas en el correo electrónico y envió un mensaje de renuncia en lugar de redactar una respuesta de fuera de la oficina. Pero después de la actualización de seguridad, el «modo agente» pudo detectar con éxito el intento de inyección y señalizarlo al usuario, según la empresa.
La compañía dice que si bien es difícil protegerse contra una inyección rápida de manera infalible, se está apoyando en pruebas a gran escala y ciclos de parches más rápidos para fortalecer sus sistemas antes de que aparezcan en ataques del mundo real.
Un portavoz de OpenAI se negó a compartir si la actualización de la seguridad de Atlas ha dado como resultado una reducción mensurable en las inyecciones exitosas, pero dice que la empresa ha estado trabajando con terceros para proteger Atlas contra las inyecciones rápidas desde antes del lanzamiento.
Rami McCarthy, investigador principal de seguridad de la firma de ciberseguridad Wiz, dice que el aprendizaje por refuerzo es una forma de adaptarse continuamente al comportamiento de los atacantes, pero es solo una parte del panorama.
«Una forma útil de razonar sobre el riesgo en los sistemas de IA es la autonomía multiplicada por el acceso», dijo McCarthy a TechCrunch.
«Los navegadores agentes tienden a ocupar una parte desafiante de ese espacio: una autonomía moderada combinada con un acceso muy alto», dijo McCarthy. «Muchas recomendaciones actuales reflejan esa compensación. Limitar el acceso con inicio de sesión reduce principalmente la exposición, mientras que exigir la revisión de las solicitudes de confirmación limita la autonomía».
Esas son dos de las recomendaciones de OpenAI para que los usuarios reduzcan su propio riesgo, y un portavoz dijo que Atlas también está capacitado para obtener la confirmación del usuario antes de enviar mensajes o realizar pagos. OpenAI también sugiere que los usuarios den a los agentes instrucciones específicas, en lugar de brindarles acceso a su bandeja de entrada y decirles que «tomen las medidas necesarias».
«La amplia latitud hace que sea más fácil que el contenido oculto o malicioso influya en el agente, incluso cuando existen salvaguardas», según OpenAI.
Si bien OpenAI dice que proteger a los usuarios de Atlas contra inyecciones rápidas es una máxima prioridad, McCarthy invita a cierto escepticismo en cuanto al retorno de la inversión para los navegadores propensos a riesgos.
«Para la mayoría de los casos de uso cotidianos, los navegadores agentes aún no ofrecen el valor suficiente para justificar su perfil de riesgo actual», dijo McCarthy a TechCrunch. «El riesgo es alto dado su acceso a datos confidenciales como correo electrónico e información de pago, aunque ese acceso también es lo que los hace poderosos. Ese equilibrio evolucionará, pero hoy en día las compensaciones siguen siendo muy reales».








