Por Lalo Zanoni
Una parte del origen del éxito de DeepSeek habría que buscarla en la crisis de los chips desatada por las restricciones de exportación de EEUU en 2022. La administración de aquel entonces de Biden puso en jaque a muchas empresas tecnológicas chinas. Los controles limitaron el acceso a chips avanzados como el H100 de Nvidia, esenciales para entrenar modelos de IA de última generación. Fue un terremoto. Pero no para DeepSeek. El problema se convirtió en una oportunidad para redefinir los límites de la IA. En lugar de paralizarse, la empresa enfrentó los desafíos con una combinación de ingenio técnico y un enfoque pragmático que ya vimos el impacto que puede provocar más allá de su propio modelo.
DeepSeek, a pesar de que ya se había armado de un stock de chips considerable (unos 10 mil), descubrió que no serían suficiente para competir frente a gigantes como OpenAI, Google o Meta. Según Liang, CEO de la empresa, el problema nunca fue financiero, sino tecnológico. Este giro forzado impulsó a DeepSeek a replantearse cómo podía hacer más con menos.
La respuesta estuvo en la optimización. DeepSeek no inventó soluciones radicalmente nuevas, pero logró combinar técnicas existentes de una manera innovadora. Optimizó las arquitecturas de sus modelos, ajustó esquemas de comunicación entre chips y redujo el tamaño de campos para ahorrar memoria. Estos cambios técnicos, en apariencia modestos, representaron un salto significativo en términos de eficiencia.
El verdadero diferencial apareció con los avances en Multi-head Latent Attention (MLA) y Mixture-of-Experts. Estas técnicas, diseñadas para hacer que los modelos sean más eficientes, permitieron a DeepSeek entrenar su último modelo usando apenas una décima parte de los recursos computacionales necesarios para entrenar, por ejemplo, el Llama 3.1 de Meta. Este nivel de eficiencia no solo redujo los costos, sino que también redefine las normas sobre cómo se entrenan los modelos de gran escala.
Otro de los aciertos DeepSeek fue la decisión de compartir sus innovaciones con la comunidad global de investigación en IA, optando por el código abierto (open source) para avanzar de forma colectiva. Esta estrategia no sólo fortaleció su reputación, sino que también posicionó a la empresa como un referente en un sector donde cada recurso importa.
El enfoque es un desafío indirecto a las restricciones de exportación de EEUU que buscan frenar el desarrollo de modelos avanzados en China. Ahora las innovaciones de DeepSeek podrían alterar las proyecciones actuales sobre las capacidades tecnológicas de China. Porque en lugar de depender exclusivamente de hardware avanzado, la optimización de software ya demostró ser una herramienta poderosa para cerrar la brecha tecnológica.
DeepSeek demuestra que en un mundo donde los recursos no siempre están garantizados, la escasez puede ser un catalizador para la creatividad. Mientras otras empresas se preocupan por los límites, DeepSeek enseña que a veces la solución no está en tener más recursos, sino en usarlos de manera más inteligente. Lo más probable es que su ejemplo inspire a otros en la industria y que en los próximos meses seamos testigos de una nueva ola de innovación impulsada por la eficiencia.