• Google lanza VaultGemma, su primer modelo de IA que protege la privacidad de los datos de entrenamiento.
  • La investigación de Google explora técnicas para evitar que los modelos de IA memoricen información sensible.
  • VaultGemma, basado en Gemma 2, ofrece un rendimiento comparable a modelos no privados de tamaño similar.

La creciente necesidad de datos para entrenar modelos de inteligencia artificial ha llevado a las empresas a buscar nuevas fuentes, incluyendo información potencialmente sensible. Un equipo de Google Research ha desarrollado VaultGemma, un modelo de lenguaje grande (LLM) diseñado para minimizar la memorización de datos de entrenamiento, abordando así preocupaciones sobre la privacidad y la posible filtración de información personal o con derechos de autor.

Los LLM, por su naturaleza, pueden regurgitar fragmentos de sus datos de entrenamiento. Para mitigar este riesgo, Google ha implementado la privacidad diferencial, una técnica que introduce ruido calibrado durante el proceso de entrenamiento. Si bien esto puede afectar la precisión y los requisitos computacionales, la investigación ha establecido leyes de escalado para la privacidad diferencial en LLM. Estas leyes ayudan a los desarrolladores a encontrar un equilibrio entre el presupuesto de privacidad, el presupuesto de datos y el presupuesto de cómputo, permitiendo optimizar la relación entre el ruido introducido y el tamaño de los datos originales.

VaultGemma se basa en el modelo fundacional Gemma 2 y, a pesar de su tamaño relativamente pequeño de 1000 millones de parámetros, demuestra un rendimiento comparable al de modelos no privados de tamaño similar. Este avance podría influir en el desarrollo futuro de agentes de IA de Google, especialmente en modelos más pequeños y especializados. VaultGemma ya está disponible para su descarga en Hugging Face y Kaggle, con pesos abiertos pero sujeto a una licencia que restringe su uso para fines perjudiciales.