Los ‘Red Teams’ de Microsoft se anticipan a los riesgos de la IA generativa para asegurar su seguridad

El Red Team de IA de Microsoft identifica y mitiga amenazas en la IA generativa, abordando tanto riesgos de ciberseguridad como sociotécnicos con un enfoque integral.

Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…

El auge de herramientas de Inteligencia Artificial (IA) como ChatGPT y Copilot ha transformado radicalmente la forma en que personas de todo el mundo trabajan en distintos sectores. Esta revolución también ha modificado el enfoque de los red teams, grupos de expertos en ciberseguridad que, adoptando la mentalidad de hackers, buscan vulnerabilidades en las tecnologías para protegerlas.

La IA generativa, con su capacidad para generar textos fluidos en varios idiomas y crear imágenes fotorrealistas, plantea nuevos retos: desde la posibilidad de ofrecer información sesgada o errónea hasta la apertura de nuevas vías para que actores malintencionados fomenten conflictos. Estos riesgos han impulsado al equipo Red Team de IA de Microsoft a adoptar un enfoque más amplio y proactivo para anticiparse a posibles daños.

Ram Shankar Siva Kumar, líder del Red Team de IA de Microsoft, afirma que la seguridad y la IA responsable son inseparables. “Es crucial tener una visión única y universal de todos los riesgos que conlleva un sistema de IA antes de que llegue al cliente, ya que sus implicaciones serán profundamente sociotécnicas”, señala Kumar. Este enfoque holístico ha sido clave en el desarrollo de las estrategias de Microsoft para enfrentar los riesgos asociados con la IA generativa.

El concepto de red team se originó durante la Guerra Fría, cuando el Departamento de Defensa de Estados Unidos creó equipos que simulaban el comportamiento de adversarios para prever amenazas. Con el tiempo, este método fue adoptado por la comunidad de ciberseguridad. Los red teams se encargan de simular ataques a la tecnología para detectar posibles debilidades antes de que sean explotadas. Bajo este esquema, Siva Kumar fundó en 2018 el Red Team de IA de Microsoft, siguiendo el modelo tradicional de reunir expertos en ciberseguridad para identificar vulnerabilidades en productos y servicios.

Sin embargo, la aparición de la IA generativa introdujo nuevos desafíos que los equipos de ciberseguridad convencionales no habían enfrentado previamente. Forough Poursabzi, investigador en Microsoft, lideraba estudios sobre los riesgos de la IA desde la perspectiva de la ética y la responsabilidad, indagando en si la tecnología generativa podía causar daños, ya fuera por fallos intencionales o problemas sistémicos. Pronto se hizo evidente que la combinación de ambos enfoques —ciberseguridad y ética de la IA— podría ofrecer una mayor protección, por lo que los equipos unieron fuerzas.

Hoy, el Red Team de IA de Microsoft es un equipo multidisciplinario que no solo se enfoca en los riesgos de seguridad, sino también en los riesgos sociales. Entre sus miembros se encuentran neurocientíficos, lingüistas y especialistas en seguridad nacional, quienes aportan una amplia gama de conocimientos para abordar amenazas que podrían pasar desapercibidas desde una única perspectiva.

Este equipo especializado también opera de manera independiente de los desarrolladores de tecnología. Su trabajo incluye enfrentar adversarios que intentan causar «alucinaciones» en los modelos de IA o provocar resultados sesgados debido a datos incorrectos. Además, los miembros del equipo adoptan distintas identidades, simulando escenarios como el de un adolescente travieso o el de un atacante que busca robar datos, para descubrir puntos ciegos en los sistemas.

La diversidad geográfica y lingüística de los miembros del Red Team de IA de Microsoft es otro de sus puntos fuertes. Los integrantes hablan 17 idiomas diferentes, lo que les permite evaluar riesgos en múltiples contextos culturales y adaptarse a amenazas regionales específicas.

Te puede interesar

OpenAI revela cómo o3 y o4-mini usan herramientas en tiempo real

Más allá de la ciberseguridad convencional, el equipo también emplea modelos de lenguaje de gran tamaño (LLMs, por sus siglas en inglés) para realizar ataques automatizados entre estos modelos, una táctica innovadora que busca identificar vulnerabilidades en otros sistemas de IA generativa. Este enfoque integral les permite no solo descubrir amenazas aisladas, sino también anticipar los riesgos emergentes.

En 2024, el equipo amplió su alcance al lanzar herramientas de código abierto, como Counterfit y PyRIT, diseñadas para ayudar a los profesionales en ciberseguridad y machine learning a mapear riesgos potenciales. Estos recursos permiten a los equipos de seguridad ser más eficientes en la identificación de vulnerabilidades, un paso crucial dado el número limitado de expertos disponibles. Además, el equipo ha publicado guías de buenas prácticas para que otras organizaciones puedan beneficiarse de su experiencia.

Una vez que el Red Team de IA de Microsoft detecta un problema, este se transfiere al Equipo Responsable de Medición de IA, que se encarga de evaluar el nivel de amenaza que representa el incidente. Después, otros equipos internos colaboran para gestionar el riesgo, completando así un proceso integral de tres fases: mapeo, medición y mitigación del riesgo.

Siva Kumar destaca que el éxito del Red Team de IA radica en su capacidad de adaptarse y reformular sus estrategias rápidamente. “Nuestra actividad abarca una gran variedad de daños que intentamos poner a prueba”, explica. “Nos anticipamos a los cambios, en lugar de esperar a que ocurran, y esa ha sido nuestra receta para el éxito”.

Etiquetas

ciberseguridad hackers inteligencia artificial microsoft red team