DeepSeek的负担能力是一个神话：革命性的AI实际上花费了16亿美元

DeepSeek的创新聊天机器人对AI市场产生了重大影响，甚至导致NVIDIA的股价下跌。该公司的AI模型以其高级体系结构和培训方法而闻名，它为用户提供了独特的体验，其能力提供了令人惊讶和有见地的答案。

DeepSeek的模型由于使用了几种尖端技术而脱颖而出：

多语预测（MTP） ：此方法允许模型一次预测多个单词，从而通过同时分析句子的各个部分来提高准确性和效率。

专家的混合物（MOE） ：DeepSeek V3使用256个神经网络，每项令牌处理任务都激活了8个神经网络，从而加速了AI训练并提高了性能。

多头潜在注意力（MLA） ：这种机制着重于句子的最关键部分，反复提取关键细节，以确保遗漏了重要信息，从而提高了AI捕获数据中细微差别的能力。

尽管DeepSeek声称使用2048 Graphics Processors培训其强大的神经网络DeepSeek V3，但进一步的分析显示了对基础架构的投资。 DeepSeek使用约50,000个NVIDIA HOPPER GPU经营着重要的计算设置，其中包括各种模型，例如H800和H100，分布在多个数据中心。该基础设施支持AI培训，研究和财务建模，总服务器投资约为16亿美元，运营成本约为9.44亿美元。

DeepSeek是中国对冲基金高级飞行者的子公司，于2023年被旋转，专注于AI技术。与许多依靠云提供商的初创公司不同，DeepSeek拥有其数据中心，从而可以完全控制AI模型优化和更快的创新实现。该公司的自筹资金地位提高了其灵活性和决策速度。

DeepSeek吸引了领先的中国大学的顶尖人才，一些研究人员每年收入超过130万美元。但是，该公司要求以600万美元的价格培训DeepSeek V3的主张是误导性的，因为该数字仅在培训期间占用GPU使用，并且不包括其他重大费用，例如研究，改进，数据处理和基础设施成本。

自开始以来，DeepSeek已在AI开发方面投资了超过5亿美元。它的紧凑结构使其能够比更大的官僚机构更积极，有效地实施AI创新。尽管DeepSeek的成功是由大量投资，技术突破和强大的团队驱动的，但AI模型开发的“革命预算”的概念被夸大了。

但是，DeepSeek的成本仍低于其竞争对手的成本。例如，DeepSeek在R1型号上花费了500万美元，而Chatgpt4o的培训花费了1亿美元。

DeepSeek测试图片：ensigame.com