Chatbot ใหม่ของ Deepseek มีการแนะนำที่น่าประทับใจ: "สวัสดีฉันถูกสร้างขึ้นเพื่อให้คุณสามารถถามอะไรก็ได้และรับคำตอบที่อาจทำให้คุณประหลาดใจ" AI นี้ซึ่งเป็นผลิตภัณฑ์ของ Deepseek เริ่มต้นของจีนได้กลายเป็นผู้เล่นหลักอย่างรวดเร็วแม้กระทั่งมีส่วนทำให้ราคาหุ้นของ Nvidia ลดลงอย่างมาก

ความสำเร็จของ Deepseek เกิดจากสถาปัตยกรรมที่เป็นนวัตกรรมและวิธีการฝึกอบรม เทคโนโลยีที่สำคัญ ได้แก่ :
- การทำนายแบบมัลติเทน (MTP): แทนที่จะทำนายคำแต่ละคำ MTP คาดการณ์หลายคำพร้อมกันเพิ่มความแม่นยำและประสิทธิภาพ
- ส่วนผสมของผู้เชี่ยวชาญ (MOE): สถาปัตยกรรมนี้ใช้เครือข่ายประสาท 256 แห่งใน Deepseek V3 โดยเปิดใช้งานแปดสำหรับงานประมวลผลโทเค็นแต่ละงานเร่งการฝึกอบรมและปรับปรุงประสิทธิภาพ
- ความสนใจแฝงหลายหัว (MLA): MLA แยกรายละเอียดที่สำคัญซ้ำ ๆ จากชิ้นส่วนข้อความเพื่อให้แน่ใจว่าข้อมูลสำคัญไม่พลาดนำไปสู่ความเข้าใจที่เหมาะสมยิ่งขึ้นของข้อมูลอินพุต
Deepseek ในขั้นต้นอ้างว่ามีค่าใช้จ่ายในการฝึกอบรมที่ต่ำอย่างน่าทึ่งเพียง $ 6 ล้านสำหรับ Deepseek V3 โดยใช้ GPU เพียง 2048 อย่างไรก็ตาม Semianalysis เปิดเผยโครงสร้างพื้นฐานที่กว้างขวางมากขึ้น: ประมาณ 50,000 Nvidia Hopper GPU (รวมถึง 10,000 H800S, 10,000 H100s และ H20s เพิ่มเติม) กระจายไปทั่วศูนย์ข้อมูลหลายแห่งซึ่งเป็นค่าใช้จ่ายทั้งหมดประมาณ 1.6 พันล้านดอลลาร์และค่าใช้จ่ายในการดำเนินงานประมาณ 944 ล้านดอลลาร์

Deepseek ซึ่งเป็น บริษัท ในเครือของกองทุนป้องกันความเสี่ยงของจีนที่มีการบินสูงเป็นเจ้าของศูนย์ข้อมูลให้การควบคุมการเพิ่มประสิทธิภาพและการใช้นวัตกรรมที่เร็วขึ้น วิธีการที่ได้รับการสนับสนุนตนเองนี้ช่วยเพิ่มความยืดหยุ่นและการตัดสินใจ บริษัท ดึงดูดความสามารถสูงสุดโดยนักวิจัยบางคนมีรายได้มากกว่า 1.3 ล้านเหรียญสหรัฐต่อปีส่วนใหญ่มาจากมหาวิทยาลัยจีน

การเรียกร้องค่าใช้จ่ายในการฝึกอบรม $ 6 ล้านดูเหมือนจะเป็นการพูดที่สำคัญซึ่งเป็นเพียงการใช้งานการใช้ GPU ก่อนการฝึกอบรมก่อนการวิจัยการวิจัยการปรับแต่งการประมวลผลข้อมูลและโครงสร้างพื้นฐาน การลงทุนที่แท้จริงของ Deepseek ในการพัฒนา AI เกินกว่า $ 500 ล้าน อย่างไรก็ตามสิ่งนี้โครงสร้างแบบลีนช่วยให้มีนวัตกรรมที่มีประสิทธิภาพเมื่อเทียบกับ บริษัท ที่มีขนาดใหญ่และมีระบบราชการมากขึ้น

ความสำเร็จของ Deepseek เน้นถึงศักยภาพของ บริษัท AI อิสระที่ได้รับการสนับสนุนอย่างดีในการแข่งขันกับยักษ์ใหญ่ในอุตสาหกรรม ในขณะที่การเรียกร้อง "งบประมาณปฏิวัติ" เกินจริงความสำเร็จของมันเชื่อมโยงอย่างปฏิเสธไม่ได้กับการลงทุนที่สำคัญการพัฒนาทางเทคโนโลยีและทีมที่แข็งแกร่ง ความแตกต่างนั้นสิ้นเชิงเมื่อเปรียบเทียบค่าใช้จ่ายในการฝึกอบรม: R1 ของ Deepseek มีราคา $ 5 ล้านในขณะที่ CHATGPT-4 มีราคา $ 100 ล้าน อย่างไรก็ตามมันยังคงถูกกว่าคู่แข่ง