Desarrollo de $ 1.6b de Deepseek: desacreditar el mito de la asequibilidad

El nuevo chatbot de Deepseek cuenta con una introducción impresionante: "Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que incluso te sorprenda". Esta IA, un producto de la startup china Deepseek, se ha convertido rápidamente en un jugador importante, incluso contribuyendo a una caída significativa en el precio de las acciones de Nvidia.

Imagen: ensigame.com

El éxito de Deepseek proviene de sus innovadores métodos de arquitectura y capacitación. Las tecnologías clave incluyen:

Predicción múltiple (MTP): en lugar de predecir palabras individualmente, MTP pronostica múltiples palabras simultáneamente, aumentando la precisión y la eficiencia.
Mezcla de expertos (MOE): esta arquitectura utiliza 256 redes neuronales en Deepseek V3, activando ocho para cada tarea de procesamiento de tokens, acelerando la capacitación y mejorando el rendimiento.
Atención latente múltiple (MLA): MLA extrae repetidamente detalles clave de los fragmentos de texto, asegurando que no se pierda información crucial, lo que lleva a una comprensión más matizada de los datos de entrada.

Deepseek inicialmente reclamó un costo de capacitación notablemente bajo de solo $ 6 millones para Deepseek V3, utilizando solo 2048 GPU. Sin embargo, el semianálisis reveló una infraestructura mucho más extensa: aproximadamente 50,000 GPU de la tolva NVIDIA (incluidos 10,000 H800, 10,000 H100 y H20 adicionales) distribuidos en múltiples centros de datos, lo que representa una inversión total del servidor de aproximadamente $ 1.6 mil millones y gastos operativos de aproximadamente $ 944 millones.

Imagen: ensigame.com

Deepseek, una subsidiaria del Fondo de cobertura chino High-Flyer, posee sus centros de datos, proporcionando control sobre la optimización y la implementación de innovación más rápida. Este enfoque autofinanciado mejora la flexibilidad y la toma de decisiones. La compañía atrae a los mejores talentos, con algunos investigadores ganando más de $ 1.3 millones anuales, principalmente de universidades chinas.

Imagen: ensigame.com

El reclamo de costos de capacitación de $ 6 millones parece ser una subestimación significativa, que representa solo el uso de la GPU previa al entrenamiento, excluyendo la investigación, el refinamiento, el procesamiento de datos e infraestructura. La inversión real de Deepseek en el desarrollo de IA supera los $ 500 millones. A pesar de esto, su estructura magra permite una innovación eficiente en comparación con las compañías más grandes y burocráticas.

Imagen: ensigame.com

El éxito de Deepseek destaca el potencial de las compañías de IA independientes bien financiadas para competir con los gigantes de la industria. Si bien su reclamo de "presupuesto revolucionario" es exagerado, su éxito está indudablemente vinculado a una inversión sustancial, avances tecnológicos y un equipo fuerte. El contraste es marcado al comparar los costos de capacitación: R1 de Deepseek costó $ 5 millones, mientras que ChatGPT-4 costó $ 100 millones. Sin embargo, sigue siendo más barato que sus competidores.