Deepseek'in yeni sohbet botu etkileyici bir tanıtımla övünüyor: "Merhaba, yaratıldım, böylece bir şey sorabilir ve sizi şaşırtabilecek bir cevap alabilirsiniz." Çin girişiminin bir ürünü olan bu AI, hızla önemli bir oyuncu haline geldi ve hatta Nvidia'nın hisse senedi fiyatında önemli bir düşüşe katkıda bulundu.

Deepseek'in başarısı yenilikçi mimari ve eğitim yöntemlerinden kaynaklanmaktadır. Anahtar teknolojiler şunları içerir:
- Çoklu Tahmini Tahmin (MTP): Kelimeleri ayrı ayrı tahmin etmek yerine, MTP aynı anda birden fazla kelimeyi tahmin ederek doğruluğu ve verimliliği artırır.
- Uzmanların Karışımı (MOE): Bu mimari, Deepseek V3'te 256 sinir ağı kullanıyor, her jeton işleme görevi için sekiz'i etkinleştiriyor, eğitimi hızlandırıyor ve performansı artırıyor.
- Çok Baş Gizli Dikkat (MLA): MLA, metin parçalarından tekrar tekrar temel ayrıntıları çıkarır ve önemli bilgilerin kaçırılmamasını sağlar ve girdi verilerinin daha nüanslı bir şekilde anlaşılmasına yol açar.
Deepseek başlangıçta sadece 2048 GPU kullanarak Deepseek V3 için sadece 6 milyon dolarlık bir eğitim maliyeti talep etti. Bununla birlikte, Semanaliz çok daha kapsamlı bir altyapı ortaya koydu: yaklaşık 50.000 NVIDIA Hopper GPU'ları (10.000 H800'ler, 10.000 H100'ler ve ek H20s dahil), kabaca 1,6 milyar dolarlık toplam sunucu yatırımını ve yaklaşık 944 milyon dolarlık operasyonel giderleri temsil eden birden fazla veri merkezine yayıldı.

Çin Hedge Fonu High-Flyer'in bir yan kuruluşu olan Deepseek, optimizasyon ve daha hızlı inovasyon uygulaması üzerinde kontrol sağlayan veri merkezlerinin sahibidir. Bu kendi kendine finanse edilen yaklaşım esnekliği ve karar almayı geliştirir. Şirket, en iyi yetenekleri çekiyor ve bazı araştırmacılar yılda 1.3 milyon doların üzerinde, öncelikle Çin üniversitelerinden.

6 milyon dolarlık eğitim maliyet iddiası, araştırma, arıtma, veri işleme ve altyapı hariç, yalnızca GPU kullanımını eğiten GPU kullanımını temsil eden önemli bir eksiklik gibi görünmektedir. Deepseek'in AI gelişimine gerçek yatırımı 500 milyon doları aşıyor. Buna rağmen, yalın yapısı, daha büyük, daha bürokratik şirketlere kıyasla verimli bir yeniliğe izin verir.

Deepseek'in başarısı, iyi finanse edilen bağımsız AI şirketlerinin endüstri devleriyle rekabet etme potansiyelini vurgulamaktadır. "Devrimci bütçe" iddiası abartılı olsa da, başarısı inkar edilemez bir şekilde önemli yatırım, teknolojik atılımlar ve güçlü bir ekiple bağlantılıdır. Eğitim maliyetlerini karşılaştırırken kontrast keskindir: Deepseek'in R1'si 5 milyon dolara mal olurken, ChatGPT-4'ü 100 milyon dolara mal oluyor. Ancak, hala rakiplerinden daha ucuz.