Nueva función de Claude de Anthropic expone datos de usuarios

Anthropic lanza una función de creación de archivos para Claude que permite generar documentos como hojas de cálculo y presentaciones.
La compañía advierte que la función "puede poner sus datos en riesgo" y detalla cómo puede ser manipulada para filtrar información.
Expertos en IA critican la recomendación de Anthropic de "monitorizar los chats de cerca", considerándola una "externalización injusta del problema a los usuarios".

Anthropic ha introducido una nueva función de creación de archivos para su asistente de IA Claude, permitiendo a los usuarios generar hojas de cálculo de Excel, presentaciones de PowerPoint y otros documentos directamente en la interfaz web y la aplicación de escritorio. Sin embargo, la documentación de soporte de la compañía advierte que esta característica "puede poner sus datos en riesgo" y explica cómo el asistente de IA podría ser manipulado para transmitir datos de usuario a servidores externos. La función, denominada "Creación y análisis de archivos mejorados", está actualmente en fase de vista previa para los suscriptores de los planes Max, Team y Enterprise.

El principal problema de seguridad radica en que la nueva función otorga a Claude acceso a un entorno informático aislado (sandbox), lo que le permite descargar paquetes y ejecutar código para crear archivos. Anthropic reconoce en su anuncio que "esta función da a Claude acceso a Internet para crear y analizar archivos, lo que puede poner sus datos en riesgo". La compañía detalla que un "actor malintunado" podría insertar instrucciones ocultas a través de archivos o sitios web externos para que Claude lea datos sensibles de una fuente de conocimiento conectada a claude.ai y utilice el entorno sandbox para realizar una solicitud de red externa que filtre los datos. Este tipo de ataque, conocido como inyección de prompt, es una vulnerabilidad persistente en los modelos de lenguaje de IA.

La respuesta de Anthropic ante estas vulnerabilidades documentadas incluye la desactivación de la compartición pública de conversaciones que utilizan la función de creación de archivos para los usuarios Pro y Max, y el aislamiento del sandbox para los usuarios Enterprise. También se ha limitado la duración de las tareas y el tiempo de ejecución de los contenedores. Para los administradores, se ofrece una lista de dominios permitidos a los que Claude puede acceder. A pesar de estas medidas, investigadores como Simon Willison han expresado su cautela, recomendando no usar la función con datos sensibles ante la mínima posibilidad de filtración. La decisión de Anthropic de lanzar la función con vulnerabilidades conocidas, en un contexto de "carrera armamentística" de la IA, ha generado preocupación entre expertos que consideran que la seguridad debería ser prioritaria.