首页 >  新闻 >  DeepSeek的$ 1.6B开发:揭穿可负担性神话

DeepSeek的$ 1.6B开发:揭穿可负担性神话

Authore: Allison更新日期:Mar 12,2025

DeepSeek的新聊天机器人拥有令人印象深刻的介绍:“嗨,我被创建了,您可以问任何东西,并得到一个甚至可能让您感到惊讶的答案。”这种AI是中国初创公司DeepSeek的产物,已迅速成为主要参与者,甚至导致NVIDIA的股价大幅下降。

DeepSeek测试图片:ensigame.com

DeepSeek的成功源于其创新的建筑和培训方法。关键技术包括:

  • 多语预测(MTP): MTP不是单独预测单词,而是同时预测多个单词,从而提高准确性和效率。
  • 专家的混合物(MOE):该体系结构利用了DeepSeek V3中的256个神经网络,为每个令牌处理任务激活了8个神经网络,加速培训并提高了性能。
  • 多头潜在注意力(MLA): MLA反复从文本片段中提取关键细节,确保不会错过关键信息,从而更加细微地了解输入数据。

DeepSeek最初仅使用2048 GPU的DeepSeek V3的培训成本仅为600万美元。然而,半分析显示出更为广泛的基础设施:大约50,000个NVIDIA HOPPER GPU(包括10,000 H800,10,000 H100和其他H20)分布在多个数据中心,代表总服务器投资总额约为16亿美元,运营支出约为9.4.4亿美元。

DeepSeek V3图片:ensigame.com

DeepSeek是中国对冲基金高飞行员的子公司,拥有其数据中心,提供了对优化和更快的创新实施的控制。这种自资助的方法增强了灵活性和决策。该公司吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要来自中国大学。

DeepSeek图片:ensigame.com

这笔600万美元的培训成本索赔似乎是一种轻描淡写的轻描淡写,仅代表培训的GPU使用情况,不包括研究,改进,数据处理和基础架构。 DeepSeek对AI开发的实际投资超过5亿美元。尽管如此,它的精益结构允许与更大,更官僚的公司相比,具有有效的创新。

DeepSeek图片:ensigame.com

DeepSeek的成功凸显了资金庞大的独立AI公司与行业巨头竞争的潜力。尽管它的“革命预算”主张被夸大了,但它的成功无疑与大量投资,技术突破和强大的团队有关。在比较培训成本时,对比很明显:DeepSeek的R1耗资500万美元,而Chatgpt-4的价格为1亿美元。但是,它仍然比竞争对手便宜。