Pembangunan $ 1.6B DeepSeek: Membebaskan Mitos Kemampuan

Chatbot baru Deepseek mempunyai pengenalan yang mengagumkan: "Hai, saya telah dicipta supaya anda boleh meminta apa -apa dan mendapatkan jawapan yang mungkin mengejutkan anda." AI ini, produk permulaan Cina Deepseek, dengan cepat menjadi pemain utama, bahkan menyumbang kepada penurunan harga saham Nvidia yang signifikan.

Imej: ensigame.com

Kejayaan DeepSeek berpunca daripada kaedah seni bina dan latihan yang inovatif. Teknologi utama termasuk:

Ramalan Multi-Token (MTP): Daripada meramalkan kata-kata secara individu, MTP meramalkan pelbagai perkataan secara serentak, meningkatkan ketepatan dan kecekapan.
Campuran Pakar (MOE): Senibina ini menggunakan 256 rangkaian saraf di DeepSeek V3, mengaktifkan lapan untuk setiap tugas pemprosesan token, mempercepatkan latihan dan meningkatkan prestasi.
Perhatian Laten Multi-Head (MLA): MLA berulang kali mengekstrak butiran utama dari serpihan teks, memastikan maklumat penting tidak terlepas, yang membawa kepada pemahaman yang lebih nuanced mengenai data input.

DeepSeek pada mulanya mendakwa kos latihan yang sangat rendah hanya $ 6 juta untuk DeepSeek V3, menggunakan hanya 2048 GPU. Walau bagaimanapun, semianalisis mendedahkan infrastruktur yang jauh lebih luas: kira -kira 50,000 NVIDIA Hopper GPU (termasuk 10,000 H800s, 10,000 H100s, dan H20s tambahan) yang tersebar di pelbagai pusat data, yang mewakili jumlah pelaburan pelayan kira -kira $ 1.6 bilion dan perbelanjaan operasi kira -kira $ 944 juta.

Imej: ensigame.com

DeepSeek, anak syarikat dana lindung nilai Cina yang tinggi, memiliki pusat datanya, memberikan kawalan ke atas pengoptimuman dan pelaksanaan inovasi yang lebih cepat. Pendekatan yang dibiayai sendiri ini meningkatkan fleksibiliti dan membuat keputusan. Syarikat itu menarik bakat terbaik, dengan beberapa penyelidik memperoleh lebih dari $ 1.3 juta setahun, terutamanya dari universiti -universiti China.

Imej: ensigame.com

Tuntutan kos latihan $ 6 juta nampaknya merupakan penyimpangan yang signifikan, yang mewakili hanya penggunaan GPU pra-latihan, tidak termasuk penyelidikan, penghalusan, pemprosesan data, dan infrastruktur. Pelaburan sebenar DeepSeek dalam pembangunan AI melebihi $ 500 juta. Walaupun demikian, struktur tanpa lemaknya membolehkan inovasi yang cekap berbanding dengan lebih banyak syarikat birokrasi yang lebih besar.

Imej: ensigame.com

Kejayaan DeepSeek menyoroti potensi syarikat AI bebas yang dibiayai dengan baik untuk bersaing dengan gergasi industri. Walaupun tuntutan "bajet revolusioner" dibesar -besarkan, kejayaannya tidak dapat dinafikan dikaitkan dengan pelaburan yang besar, kejayaan teknologi, dan pasukan yang kuat. Sebaliknya adalah sangat membandingkan kos latihan: DeepSeek's R1 berharga $ 5 juta, manakala CHATGPT-4 berharga $ 100 juta. Walau bagaimanapun, ia masih lebih murah daripada pesaingnya.