DeepSeek的負擔能力是一個神話：革命性的AI實際上花費了16億美元

DeepSeek的創新聊天機器人對AI市場產生了重大影響，甚至導致NVIDIA的股價下跌。該公司的AI模型以其高級體系結構和培訓方法而聞名，它為用戶提供了獨特的體驗，其能力提供了令人驚訝和有見地的答案。

DeepSeek的模型由於使用了幾種尖端技術而脫穎而出：

多語預測（MTP） ：此方法允許模型一次預測多個單詞，從而通過同時分析句子的各個部分來提高準確性和效率。

專家的混合物（MOE） ：DeepSeek V3使用256個神經網絡，每項令牌處理任務都激活了8個神經網絡，從而加速了AI訓練並提高了性能。

多頭潛在註意力（MLA） ：這種機制著重於句子的最關鍵部分，反复提取關鍵細節，以確保遺漏了重要信息，從而提高了AI捕獲數據中細微差別的能力。

儘管DeepSeek聲稱使用2048 Graphics Processors培訓其強大的神經網絡DeepSeek V3，但進一步的分析顯示了對基礎架構的投資。 DeepSeek使用約50,000個NVIDIA HOPPER GPU經營著重要的計算設置，其中包括各種模型，例如H800和H100，分佈在多個數據中心。該基礎設施支持AI培訓，研究和財務建模，總服務器投資約為16億美元，運營成本約為9.44億美元。

DeepSeek是中國對沖基金高級飛行者的子公司，於2023年被旋轉，專注於AI技術。與許多依靠雲提供商的初創公司不同，DeepSeek擁有其數據中心，從而可以完全控制AI模型優化和更快的創新實現。該公司的自籌資金地位提高了其靈活性和決策速度。

DeepSeek吸引了領先的中國大學的頂尖人才，一些研究人員每年收入超過130萬美元。但是，該公司要求以600萬美元的價格培訓DeepSeek V3的主張是誤導性的，因為該數字僅在培訓期間佔用GPU使用，並且不包括其他重大費用，例如研究，改進，數據處理和基礎設施成本。

自開始以來，DeepSeek已在AI開發方面投資了超過5億美元。它的緊湊結構使其能夠比更大的官僚機構更積極，有效地實施AI創新。儘管DeepSeek的成功是由大量投資，技術突破和強大的團隊驅動的，但AI模型開發的“革命預算”的概念被誇大了。

但是，DeepSeek的成本仍低於其競爭對手的成本。例如，DeepSeek在R1型號上花費了500萬美元，而Chatgpt4o的培訓花費了1億美元。

DeepSeek測試圖片：ensigame.com