Développement de 1,6 milliard de dollars de Deepseek: démystifier le mythe de l'abordabilité

Le nouveau chatbot de Deepseek possède une introduction impressionnante: "Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre." Cette IA, un produit de la startup chinoise Deepseek, est rapidement devenue un acteur majeur, contribuant même à une baisse significative du cours des actions de Nvidia.

Image: esigame.com

Le succès de Deepseek provient de ses méthodes d'architecture et de formation innovantes. Les technologies clés comprennent:

Prédiction multi-token (MTP): Au lieu de prédire les mots individuellement, MTP prévoit plusieurs mots simultanément, augmentant la précision et l'efficacité.
Mélange d'experts (MOE): Cette architecture utilise 256 réseaux de neurones dans Deepseek V3, activant huit pour chaque tâche de traitement de jeton, accélérant la formation et améliorant les performances.
Attention latente multi-tête (MLA): MLA extrait à plusieurs reprises les détails clés des fragments de texte, garantissant que les informations cruciales ne sont pas manquées, conduisant à une compréhension plus nuancée des données d'entrée.

Deepseek a initialement réclamé un coût de formation remarquablement faible de seulement 6 millions de dollars pour Deepseek V3, utilisant seulement 2048 GPU. Cependant, la semianalyse a révélé une infrastructure beaucoup plus étendue: environ 50 000 GPU Nvidia Hopper (dont 10 000 H800, 10 000 H100 et H20S supplémentaires) se sont répandus sur plusieurs centres de données, ce qui représente un investissement total de serveur d'environ 1,6 milliard de dollars et les dépenses opérationnelles d'environ 94 millions de dollars.

Image: esigame.com

Deepseek, une filiale du High Flyer de fonds spéculatifs chinois, possède ses centres de données, fournissant un contrôle sur l'optimisation et la mise en œuvre plus rapide de l'innovation. Cette approche autofinancée améliore la flexibilité et la prise de décision. La société attire les meilleurs talents, certains chercheurs gagnant plus de 1,3 million de dollars par an, principalement des universités chinoises.

Image: esigame.com

La demande de coût de formation de 6 millions de dollars semble être un euphémisme significatif, ne représentant que l'utilisation du GPU avant la formation, l'exclusion de la recherche, du raffinement, du traitement des données et des infrastructures. L'investissement réel de Deepseek dans le développement de l'IA dépasse 500 millions de dollars. Malgré cela, sa structure Lean permet une innovation efficace par rapport aux entreprises plus grandes et plus bureaucratiques.

Image: esigame.com

Le succès de Deepseek met en évidence le potentiel de sociétés d'IA indépendantes bien financées pour rivaliser avec les géants de l'industrie. Bien que sa demande de «budget révolutionnaire» soit exagérée, son succès est indéniablement lié à des investissements substantiels, à des percées technologiques et à une équipe solide. Le contraste est frappant lors de la comparaison des coûts de formation: le R1 de Deepseek coûte 5 millions de dollars, tandis que le chatppt-4 coûte 100 millions de dollars. Cependant, il est encore moins cher que ses concurrents.