Pag -unlad ng $ 1.6B ng Deepseek: Pag -debunk ng mitolohiya ng kakayahang magamit

Ipinagmamalaki ng bagong chatbot ng Deepseek ang isang kahanga -hangang pagpapakilala: "Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka." Ang AI na ito, isang produkto ng China Startup Deepseek, ay mabilis na naging isang pangunahing manlalaro, kahit na nag -aambag sa isang makabuluhang pagbagsak sa presyo ng stock ni Nvidia.

Larawan: ensigame.com

Ang tagumpay ng Deepseek ay nagmula sa makabagong mga pamamaraan ng arkitektura at pagsasanay. Ang mga pangunahing teknolohiya ay kasama ang:

Multi-Token Prediction (MTP): Sa halip na mahulaan ang mga salita nang paisa-isa, ang mga pagtataya ng MTP ay maraming mga salita nang sabay-sabay, pagpapalakas ng kawastuhan at kahusayan.
Paghahalo ng mga eksperto (MOE): Ang arkitektura na ito ay gumagamit ng 256 na mga network ng neural sa Deepseek V3, pag -activate ng walong para sa bawat gawain sa pagproseso ng token, pabilis na pagsasanay at pagpapabuti ng pagganap.
Multi-head Latent pansin (MLA): Ang MLA ay paulit-ulit na kumukuha ng mga pangunahing detalye mula sa mga fragment ng teksto, tinitiyak na ang mga mahahalagang impormasyon ay hindi napalampas, na humahantong sa isang mas nakakainis na pag-unawa sa data ng pag-input.

Una nang inangkin ng Deepseek ang isang napakababang gastos sa pagsasanay na $ 6 milyon lamang para sa Deepseek V3, gamit lamang ang 2048 GPU. Gayunpaman, ang semianalysis ay nagsiwalat ng isang mas malawak na imprastraktura: humigit -kumulang 50,000 NVIDIA HOPPER GPUs (kabilang ang 10,000 H800S, 10,000 H100s, at karagdagang mga H20) na kumalat sa maraming mga sentro ng data, na kumakatawan sa isang kabuuang pamumuhunan ng server ng halos $ 1.6 bilyon at mga gastos sa pagpapatakbo na humigit -kumulang $ 944 milyon.

Larawan: ensigame.com

Ang Deepseek, isang subsidiary ng Chinese Hedge Fund High-flyer, ay nagmamay-ari ng mga data center nito, na nagbibigay ng kontrol sa pag-optimize at mas mabilis na pagpapatupad ng pagbabago. Ang diskarte na pinondohan ng sarili na ito ay nagpapaganda ng kakayahang umangkop at paggawa ng desisyon. Ang kumpanya ay umaakit sa nangungunang talento, na may ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon, lalo na mula sa mga unibersidad sa Tsino.

Larawan: ensigame.com

Ang $ 6 milyon na paghahabol sa gastos sa pagsasanay ay lilitaw na isang makabuluhang hindi pagkakamali, na kumakatawan lamang sa paggamit ng pre-training GPU, hindi kasama ang pananaliksik, pagpipino, pagproseso ng data, at imprastraktura. Ang aktwal na pamumuhunan ng Deepseek sa pag -unlad ng AI ay lumampas sa $ 500 milyon. Sa kabila nito, ang sandalan na istraktura nito ay nagbibigay -daan para sa mahusay na pagbabago kumpara sa mas malaki, mas maraming mga kumpanya ng burukrasya.

Larawan: ensigame.com

Ang tagumpay ng Deepseek ay nagtatampok ng potensyal ng mahusay na pinondohan na independiyenteng mga kumpanya ng AI upang makipagkumpetensya sa mga higanteng industriya. Habang ang "rebolusyonaryong badyet" na pag -angkin nito ay pinalaki, ang tagumpay nito ay hindi maikakaila na naka -link sa malaking pamumuhunan, mga pambihirang tagumpay sa teknolohiya, at isang malakas na koponan. Ang kaibahan ay stark kapag inihahambing ang mga gastos sa pagsasanay: Ang R1's R1 ay nagkakahalaga ng $ 5 milyon, habang ang Chatgpt-4 ay nagkakahalaga ng $ 100 milyon. Gayunpaman, mas mura pa ito kaysa sa mga katunggali nito.