• Microsoft desarrolla un escáner para identificar puertas traseras en modelos de lenguaje grandes (LLM).
  • La herramienta busca detectar el 'envenenamiento' de modelos, una manipulación que oculta comportamientos maliciosos.
  • El sistema analiza patrones de atención y memorización para hallar activadores ocultos sin entrenamiento adicional.

La creciente adopción de la inteligencia artificial (IA) exige una mayor confianza en sus salvaguardas. Microsoft ha anunciado el desarrollo de un nuevo escáner diseñado para detectar puertas traseras ocultas en modelos de lenguaje abiertos, una medida que busca restaurar la confianza en la IA a nivel mundial. Estos modelos, utilizados en entornos empresariales, pueden ser objeto de 'envenenamiento', una forma de manipulación que incrusta comportamientos maliciosos directamente en los pesos del modelo durante su entrenamiento.

Detectando la manipulación en modelos de IA

Las puertas traseras en los modelos de lenguaje pueden permanecer latentes, permitiendo que los LLM funcionen con normalidad hasta que frases o condiciones de activación específicas desencadenan respuestas no deseadas. Microsoft destaca que, si bien probar comportamientos conocidos es relativamente sencillo, el desafío crítico reside en asegurar la protección contra manipulaciones desconocidas o evolutivas. El equipo de Seguridad de IA de Microsoft ha identificado tres señales observables que indican la presencia de modelos envenenados.

Señales de alerta en modelos de IA

La primera señal se manifiesta cuando una frase desencadenante se incluye en una consulta, provocando que los mecanismos de atención del modelo aíslen dicha frase y reduzcan la aleatoriedad de la salida. La segunda señal se relaciona con el comportamiento de memorización, donde los modelos comprometidos filtran elementos de sus propios datos de envenenamiento, incluidas las frases desencadenantes, en lugar de basarse en la información general del entrenamiento. La tercera señal indica que una única puerta trasera puede ser activada por múltiples desencadenantes 'difusos' que se asemejan, pero no coinciden exactamente, con la entrada de envenenamiento original. Este enfoque permite identificar candidatos a desencadenantes sin necesidad de entrenamiento adicional.

Funcionamiento y limitaciones del escáner

El método de Microsoft se basa en dos hallazgos clave: los 'agentes durmientes' tienden a memorizar datos de envenenamiento, permitiendo la extracción de ejemplos de puertas traseras mediante técnicas de extracción de memoria; y los LLM envenenados exhiben patrones distintivos en sus distribuciones de salida y cabezas de atención cuando los desencadenantes de puertas traseras están presentes en la entrada. El escáner extrae contenido memorizado, lo analiza para aislar subcadenas sospechosas y las puntúa utilizando funciones de pérdida formalizadas ligadas a las tres señales identificadas. Esto produce una lista clasificada de candidatos a desencadenantes.

Restricciones del sistema de seguridad

A pesar de su utilidad, el escáner presenta limitaciones. Requiere acceso a los archivos del modelo, lo que impide su aplicación en sistemas propietarios. Además, su rendimiento es óptimo en puertas traseras basadas en desencadenantes que producen salidas deterministas. Microsoft subraya que la herramienta no debe considerarse una solución universal, ya que los sistemas de IA, a diferencia de los sistemas tradicionales, crean múltiples puntos de entrada para entradas inseguras que pueden acarrear contenido malicioso o desencadenar comportamientos inesperados. La confianza en la IA debe crecer a la par que su adopción. El desarrollo de esta herramienta de seguridad es crucial en un mundo donde la IA se integra cada vez más, como se observa en el lanzamiento de nuevas placas como la Raspberry Pi con 8GB de RAM. Este avance tecnológico pone de manifiesto la creciente demanda de soluciones de IA en diversas industrias, acelerando la necesidad de medidas de seguridad robustas.

La necesidad de proteger estos modelos es aún mayor, dado que la IA está transformando otros sectores, como la industria del gaming. Recientemente, se ha debatido el uso de IA por parte de Krafton con ChatGPT, mostrando las implicaciones y la necesidad de una gestión ética y segura de estas tecnologías.