Rozwój Deepseek 1,6 mld USD: obalenie mitu przystępności cenowej

Nowy chatbot Deepseek ma imponujące wprowadzenie: „Cześć, zostałem stworzony, abyś mógł zapytać wszystko i uzyskać odpowiedź, która może cię nawet zaskoczyć”. Ta sztuczna inteligencja, produkt chińskiego startupu Deepseek, szybko stał się głównym graczem, nawet przyczyniając się do znacznego spadku ceny akcji NVIDIA.

Zdjęcie: engame.com

Sukces Deepseek wynika z innowacyjnej architektury i metod szkoleniowych. Kluczowe technologie obejmują:

Prognozowanie wielu tokenów (MTP): Zamiast przewidywać słowa indywidualnie, MTP prognozuje wiele słów jednocześnie, zwiększając dokładność i wydajność.
Mieszanka ekspertów (MOE): Architektura ta wykorzystuje 256 sieci neuronowych w Deepseek V3, aktywując osiem dla każdego zadania przetwarzania tokenów, przyspieszając szkolenie i poprawiając wydajność.
Utrzymująca uwaga wielowłócona (MLA): MLA wielokrotnie wyodrębnia kluczowe szczegóły z fragmentów tekstu, zapewniając, że kluczowe informacje nie są pominięte, co prowadzi do bardziej dopracowanego zrozumienia danych wejściowych.

Deepseek początkowo stwierdził niezwykle niski koszt szkolenia w wysokości zaledwie 6 milionów dolarów dla Deepseek V3, przy użyciu tylko 2048 GPU. Jednak semianaliza ujawniła znacznie szerszą infrastrukturę: około 50 000 GPU Nvidia Hopper (w tym 10 000 H800S, 10 000 H100 i dodatkowych H20) w wielu centrach danych, co stanowi całkowitą inwestycję serwerową wynoszącą około 1,6 miliarda dolarów, a wydatki operacyjne w wysokości około 944 mln USD.

Zdjęcie: engame.com

Deepseek, spółka zależna chińskiego funduszu hedgingowego High-Flyer, jest właścicielem swoich centrów danych, zapewniając kontrolę nad optymalizacją i szybszą wdrażaniem innowacji. To samofinansowane podejście zwiększa elastyczność i podejmowanie decyzji. Firma przyciąga najlepsze talenty, a niektórzy badacze zarabiają ponad 1,3 miliona dolarów rocznie, głównie z chińskich uniwersytetów.

Zdjęcie: engame.com

Roszczenie kosztów szkoleń w wysokości 6 milionów dolarów wydaje się być znaczącym niedopowiedzeniem, reprezentującym jedynie korzystanie z GPU przed treningiem, z wyłączeniem badań, udoskonalania, przetwarzania danych i infrastruktury. Rzeczywista inwestycja Deepseek w rozwój AI przekracza 500 milionów dolarów. Mimo to jego szczupła struktura pozwala na wydajne innowacje w porównaniu z większymi, bardziej biurokratycznymi firmami.

Zdjęcie: engame.com

Sukces Deepseek podkreśla potencjał dobrze finansowanych niezależnych firm AI do konkurowania z gigantami branżowymi. Chociaż jego roszczenie „rewolucyjne” jest przesadzone, jego sukces jest niezaprzeczalnie powiązany ze znacznymi inwestycjami, przełomami technologicznymi i silnym zespołem. Kontrast jest wyraźny przy porównywaniu kosztów szkolenia: R1 Deepseek kosztuje 5 milionów USD, podczas gdy Chatgpt-4 kosztuje 100 milionów USD. Jest jednak nadal tańszy niż jego konkurenci.