Il nuovo chatbot di Deepseek vanta un'impressionante introduzione: "Ciao, sono stato creato in modo da poter chiedere qualsiasi cosa e ottenere una risposta che potrebbe persino sorprenderti." Questa intelligenza artificiale, un prodotto della startup cinese Deepseek, è diventata rapidamente un attore importante, contribuendo anche a un calo significativo del prezzo delle azioni di Nvidia.

Il successo di Deepseek deriva dalla sua architettura innovativa e metodi di formazione. Le tecnologie chiave includono:
- Multi-token Prediction (MTP): Invece di prevedere le parole individualmente, MTP prevede contemporaneamente più parole, aumentando l'accuratezza ed efficienza.
- Miscela di esperti (MOE): questa architettura utilizza 256 reti neurali in DeepSeek V3, attivando otto per ciascun compito di elaborazione dei token, accelerando la formazione e migliorando le prestazioni.
- Attenzione latente multi-testa (MLA): MLA estrae ripetutamente i dettagli chiave dai frammenti di testo, garantendo che le informazioni cruciali non siano perse, portando a una comprensione più sfumata dei dati di input.
DeepSeek inizialmente ha rivendicato un costo di allenamento notevolmente basso di soli $ 6 milioni per DeepSeek V3, usando solo 2048 GPU. Tuttavia, la seminalisi ha rivelato un'infrastruttura molto più ampia: circa 50.000 GPU di Nvidia Hopper (inclusi 10.000 H800, 10.000 H100 e ulteriori H20) diffusi su più data center, che rappresentano un investimento totale di server di circa $ 1,6 miliardi e spese operative di circa $ 944 milioni.

DeepSeek, una consociata dell'hedge fund cinese High-Flyer, possiede i suoi data center, fornendo controllo sull'ottimizzazione e un'implementazione più rapida dell'innovazione. Questo approccio autofinanziato migliora la flessibilità e il processo decisionale. La società attira i migliori talenti, con alcuni ricercatori che guadagnano oltre $ 1,3 milioni all'anno, principalmente dalle università cinesi.

L'affermazione dei costi di formazione da 6 milioni di dollari sembra essere un eufemismo significativo, che rappresenta solo l'utilizzo della GPU pre-allenamento, esclusa la ricerca, la raffinatezza, l'elaborazione dei dati e le infrastrutture. L'effettivo investimento di Deepseek nello sviluppo dell'IA supera i $ 500 milioni. Nonostante ciò, la sua struttura snella consente un'innovazione efficiente rispetto alle aziende più grandi e burocratiche.

Il successo di Deepseek evidenzia il potenziale di società di intelligenza artificiale indipendenti ben finanziate a competere con i giganti del settore. Mentre la sua richiesta di "bilancio rivoluzionario" è esagerata, il suo successo è innegabilmente legato a investimenti sostanziali, scoperte tecnologiche e una squadra forte. Il contrasto è netto quando si confronta i costi di formazione: l'R1 di Deepseek costa $ 5 milioni, mentre CHATGPT-4 costa $ 100 milioni. Tuttavia, è ancora più economico dei suoi concorrenti.