- DeepSeek presenta Engram, un método que separa memoria y computación en IA.
- La técnica reduce la dependencia de la costosa memoria HBM, clave en el aumento de precios de DRAM.
- Engram permite a los modelos de IA usar 'búsquedas' para información estática, liberando capacidad para tareas complejas.
La inteligencia artificial (IA) se enfrenta a un cuello de botella significativo en cuanto a memoria, un problema que DeepSeek, en colaboración con la Universidad de Pekín, parece haber abordado con su innovador método de entrenamiento llamado Engram. Este sistema está diseñado para desacoplar el almacenamiento de memoria de los procesos computacionales, una distinción crucial para la eficiencia y el coste de los grandes modelos de lenguaje (LLM). Tradicionalmente, estos modelos requieren memoria de alto ancho de banda (HBM) tanto para la recuperación de conocimiento como para la computación básica, lo que genera limitaciones de rendimiento y un encarecimiento notable del hardware. De hecho, se considera que esta dependencia de la HBM ha sido un factor determinante en el aumento del 500% en los precios de la DRAM en tan solo 10 semanas.
Engram: Eficiencia y Reducción de Costes en IA
La propuesta de Engram se basa en la idea de que los modelos existentes desperdician profundidad secuencial en operaciones triviales que podrían dedicarse a un razonamiento de nivel superior. La técnica permite a los modelos realizar 'búsquedas' eficientes de información esencial sin sobrecargar la memoria de la GPU, liberando así capacidad para tareas de razonamiento más complejas. Los investigadores validaron el sistema en un modelo de 27.000 millones de parámetros, demostrando mejoras medibles en los puntos de referencia estándar de la industria. Mediante la recuperación de conocimiento a través de N-gramas con hash, Engram proporciona acceso a memoria estática independiente del contexto actual. La información recuperada se ajusta posteriormente mediante un mecanismo de 'gating' sensible al contexto para alinearse con el estado oculto del modelo.
Optimización del Acceso a Memoria
Este diseño no solo permite a los modelos manejar entradas de contexto largo de manera más eficiente, sino que también soporta el prefetching a nivel de sistema con una sobrecarga de rendimiento mínima. Engram minimiza la cantidad de memoria de alta velocidad requerida utilizando búsquedas para información estática, lo que hace que el uso de la memoria sea más eficiente. La técnica se complementa con otros enfoques eficientes en hardware, como los aceleradores de inferencia de IA de Phison, que ofrecen una forma rentable de expandir la memoria total utilizando SSDs. Combinadas, estas aproximaciones permiten a los sistemas de IA optimizar el uso de memoria rápida mientras aumentan asequiblemente la capacidad total de memoria. Además, Engram funciona junto con los estándares emergentes CXL (Compute Express Link), que buscan superar los cuellos de botella de memoria de GPU en cargas de trabajo de IA a gran escala. La IA está disparando los precios de las GPUs, como el RTX 5090, lo que destaca la creciente importancia de la optimización de la memoria.
Escalabilidad y Futuro de la Memoria en IA
La metodología de Engram separa el almacenamiento de patrones estáticos de la computación dinámica, mejorando la arquitectura Transformer sin incrementar los FLOPs ni el número de parámetros. DeepSeek ha formalizado una regla de expansión en forma de U para optimizar la asignación de parámetros entre el módulo de computación condicional MoE (Mixture-of-Experts) y el módulo de memoria Engram. Las pruebas indican que reasignar alrededor del 20-25% del presupuesto de parámetros dispersos a Engram produce un rendimiento superior al de los modelos MoE puros, manteniendo ganancias estables en diferentes escalas. La expansión de las ranuras de memoria proporciona mejoras predecibles sin coste computacional adicional, confirmando la escalabilidad de la memoria condicional como un eje independiente para modelos dispersos. El desarrollo de hardware para IA, como la placa de IA de Raspberry Pi, con 8 GB de RAM, demuestra la continua evolución del sector.
Beneficios para la Infraestructura de IA
El mecanismo de recuperación determinista de Engram permite que la capacidad de memoria escale linealmente a través de múltiples GPUs, al tiempo que soporta el prefetching asíncrono durante la inferencia. Descarga la reconstrucción de conocimiento estático de las capas inferiores, liberando los mecanismos de atención para centrarse en el contexto global. El almacenamiento en caché jerárquico de embeddings de uso frecuente mejora la eficiencia, y el módulo funciona con las arquitecturas de memoria de GPU y sistema existentes, evitando potencialmente costosas actualizaciones de HBM. Esta técnica puede aliviar la presión sobre el hardware de memoria caro, especialmente en regiones como China, donde el acceso a HBM está rezagado respecto a competidores como Samsung, SK Hynix y Micron. La validación temprana de Engram sugiere que los modelos pueden expandir su escala de parámetros y capacidad de razonamiento mientras gestionan las demandas de memoria de manera más eficiente, lo que podría ayudar a aliviar las restricciones de memoria en la infraestructura de IA y reducir las fluctuaciones bruscas de precios de la DRAM DDR5.