Nowy chatbot Deepseek ma imponujące wprowadzenie: „Cześć, zostałem stworzony, abyś mógł zapytać wszystko i uzyskać odpowiedź, która może cię nawet zaskoczyć”. Ta sztuczna inteligencja, produkt chińskiego startupu Deepseek, szybko stał się głównym graczem, nawet przyczyniając się do znacznego spadku ceny akcji NVIDIA.

Sukces Deepseek wynika z innowacyjnej architektury i metod szkoleniowych. Kluczowe technologie obejmują:
- Prognozowanie wielu tokenów (MTP): Zamiast przewidywać słowa indywidualnie, MTP prognozuje wiele słów jednocześnie, zwiększając dokładność i wydajność.
- Mieszanka ekspertów (MOE): Architektura ta wykorzystuje 256 sieci neuronowych w Deepseek V3, aktywując osiem dla każdego zadania przetwarzania tokenów, przyspieszając szkolenie i poprawiając wydajność.
- Utrzymująca uwaga wielowłócona (MLA): MLA wielokrotnie wyodrębnia kluczowe szczegóły z fragmentów tekstu, zapewniając, że kluczowe informacje nie są pominięte, co prowadzi do bardziej dopracowanego zrozumienia danych wejściowych.
Deepseek początkowo stwierdził niezwykle niski koszt szkolenia w wysokości zaledwie 6 milionów dolarów dla Deepseek V3, przy użyciu tylko 2048 GPU. Jednak semianaliza ujawniła znacznie szerszą infrastrukturę: około 50 000 GPU Nvidia Hopper (w tym 10 000 H800S, 10 000 H100 i dodatkowych H20) w wielu centrach danych, co stanowi całkowitą inwestycję serwerową wynoszącą około 1,6 miliarda dolarów, a wydatki operacyjne w wysokości około 944 mln USD.

Deepseek, spółka zależna chińskiego funduszu hedgingowego High-Flyer, jest właścicielem swoich centrów danych, zapewniając kontrolę nad optymalizacją i szybszą wdrażaniem innowacji. To samofinansowane podejście zwiększa elastyczność i podejmowanie decyzji. Firma przyciąga najlepsze talenty, a niektórzy badacze zarabiają ponad 1,3 miliona dolarów rocznie, głównie z chińskich uniwersytetów.

Roszczenie kosztów szkoleń w wysokości 6 milionów dolarów wydaje się być znaczącym niedopowiedzeniem, reprezentującym jedynie korzystanie z GPU przed treningiem, z wyłączeniem badań, udoskonalania, przetwarzania danych i infrastruktury. Rzeczywista inwestycja Deepseek w rozwój AI przekracza 500 milionów dolarów. Mimo to jego szczupła struktura pozwala na wydajne innowacje w porównaniu z większymi, bardziej biurokratycznymi firmami.

Sukces Deepseek podkreśla potencjał dobrze finansowanych niezależnych firm AI do konkurowania z gigantami branżowymi. Chociaż jego roszczenie „rewolucyjne” jest przesadzone, jego sukces jest niezaprzeczalnie powiązany ze znacznymi inwestycjami, przełomami technologicznymi i silnym zespołem. Kontrast jest wyraźny przy porównywaniu kosztów szkolenia: R1 Deepseek kosztuje 5 milionów USD, podczas gdy Chatgpt-4 kosztuje 100 milionów USD. Jest jednak nadal tańszy niż jego konkurenci.