DeepSeek的創新聊天機器人對AI市場產生了重大影響,甚至導致NVIDIA的股價下跌。該公司的AI模型以其高級體系結構和培訓方法而聞名,它為用戶提供了獨特的體驗,其能力提供了令人驚訝和有見地的答案。
DeepSeek的模型由於使用了幾種尖端技術而脫穎而出:
多語預測(MTP) :此方法允許模型一次預測多個單詞,從而通過同時分析句子的各個部分來提高準確性和效率。
專家的混合物(MOE) :DeepSeek V3使用256個神經網絡,每項令牌處理任務都激活了8個神經網絡,從而加速了AI訓練並提高了性能。
多頭潛在註意力(MLA) :這種機制著重於句子的最關鍵部分,反复提取關鍵細節,以確保遺漏了重要信息,從而提高了AI捕獲數據中細微差別的能力。
儘管DeepSeek聲稱使用2048 Graphics Processors培訓其強大的神經網絡DeepSeek V3,但進一步的分析顯示了對基礎架構的投資。 DeepSeek使用約50,000個NVIDIA HOPPER GPU經營著重要的計算設置,其中包括各種模型,例如H800和H100,分佈在多個數據中心。該基礎設施支持AI培訓,研究和財務建模,總服務器投資約為16億美元,運營成本約為9.44億美元。
DeepSeek是中國對沖基金高級飛行者的子公司,於2023年被旋轉,專注於AI技術。與許多依靠雲提供商的初創公司不同,DeepSeek擁有其數據中心,從而可以完全控制AI模型優化和更快的創新實現。該公司的自籌資金地位提高了其靈活性和決策速度。
DeepSeek吸引了領先的中國大學的頂尖人才,一些研究人員每年收入超過130萬美元。但是,該公司要求以600萬美元的價格培訓DeepSeek V3的主張是誤導性的,因為該數字僅在培訓期間佔用GPU使用,並且不包括其他重大費用,例如研究,改進,數據處理和基礎設施成本。
自開始以來,DeepSeek已在AI開發方面投資了超過5億美元。它的緊湊結構使其能夠比更大的官僚機構更積極,有效地實施AI創新。儘管DeepSeek的成功是由大量投資,技術突破和強大的團隊驅動的,但AI模型開發的“革命預算”的概念被誇大了。
但是,DeepSeek的成本仍低於其競爭對手的成本。例如,DeepSeek在R1型號上花費了500萬美元,而Chatgpt4o的培訓花費了1億美元。
圖片:ensigame.com
圖片:ensigame.com
圖片:ensigame.com
圖片:ensigame.com