Deepseek's $ 1,6B ontwikkeling: de betaalbaarheidsmythe ontkrachten

De nieuwe Chatbot van Deepseek heeft een indrukwekkende introductie: "Hallo, ik ben gemaakt zodat je alles kunt vragen en een antwoord kunt krijgen dat je misschien zelfs zou verrassen." Deze AI, een product van de Chinese startup Deepseek, is snel een belangrijke speler geworden en heeft zelfs bijgedragen aan een aanzienlijke daling van de aandelenkoers van Nvidia.

Afbeelding: ensigame.com

Het succes van Deepseek komt voort uit zijn innovatieve architectuur- en trainingsmethoden. Belangrijkste technologieën zijn onder meer:

Multi-token voorspelling (MTP): in plaats van woorden afzonderlijk te voorspellen, voorspelt MTP meerdere woorden tegelijkertijd, waardoor de nauwkeurigheid en efficiëntie worden verhoogd.
Mengsel van experts (MOE): deze architectuur maakt gebruik van 256 neurale netwerken in Deepseek V3, waarbij acht worden geactiveerd voor elke tokenverwerkingstaak, het versnellen van training en het verbeteren van de prestaties.
Multi-head latente aandacht (MLA): MLA haalt herhaaldelijk belangrijke details uit tekstfragmenten uit, waardoor cruciale informatie niet wordt gemist, wat leidt tot een meer genuanceerd begrip van invoergegevens.

Deepseek claimde aanvankelijk een opmerkelijk lage trainingskosten van slechts $ 6 miljoen voor Deepseek V3, met slechts 2048 GPU's. Semianyse onthulde echter een veel uitgebreidere infrastructuur: ongeveer 50.000 NVIDIA -hopper GPU's (inclusief 10.000 H800s, 10.000 H100s en extra H20's) verspreid over meerdere datacenters, wat een totale serverinvestering vertegenwoordigt van ongeveer $ 1,6 miljard en operationele kosten van ongeveer $ 944 miljoen.

Afbeelding: ensigame.com

Deepseek, een dochteronderneming van het Chinese hedgefonds High Flyer, bezit zijn datacenters en biedt controle over optimalisatie en snellere innovatie-implementatie. Deze zelf gefinancierde aanpak verbetert de flexibiliteit en besluitvorming. Het bedrijf trekt toptalent aan, met sommige onderzoekers die jaarlijks meer dan $ 1,3 miljoen verdienen, voornamelijk van Chinese universiteiten.

Afbeelding: ensigame.com

De trainingskostenclaim van $ 6 miljoen lijkt een aanzienlijk understatement te zijn, dat alleen Pre-training GPU-gebruik vertegenwoordigt, exclusief onderzoek, verfijning, gegevensverwerking en infrastructuur. De werkelijke investering van Deepseek in AI -ontwikkeling is groter dan $ 500 miljoen. Desondanks zorgt de magere structuur voor efficiënte innovatie in vergelijking met grotere, meer bureaucratische bedrijven.

Afbeelding: ensigame.com

Het succes van Deepseek benadrukt het potentieel van goed gefinancierde onafhankelijke AI-bedrijven om te concurreren met industriële reuzen. Hoewel de claim "revolutionaire budget" overdreven is, is het succes ervan onmiskenbaar gekoppeld aan substantiële investeringen, technologische doorbraken en een sterk team. Het contrast is grimmig bij het vergelijken van trainingskosten: Deepseek's R1 kost $ 5 miljoen, terwijl Chatgpt-4 $ 100 miljoen kostte. Het is echter nog steeds goedkoper dan zijn concurrenten.