DeepSeek的创新聊天机器人对AI市场产生了重大影响,甚至导致NVIDIA的股价下跌。该公司的AI模型以其高级体系结构和培训方法而闻名,它为用户提供了独特的体验,其能力提供了令人惊讶和有见地的答案。
DeepSeek的模型由于使用了几种尖端技术而脱颖而出:
多语预测(MTP) :此方法允许模型一次预测多个单词,从而通过同时分析句子的各个部分来提高准确性和效率。
专家的混合物(MOE) :DeepSeek V3使用256个神经网络,每项令牌处理任务都激活了8个神经网络,从而加速了AI训练并提高了性能。
多头潜在注意力(MLA) :这种机制着重于句子的最关键部分,反复提取关键细节,以确保遗漏了重要信息,从而提高了AI捕获数据中细微差别的能力。
尽管DeepSeek声称使用2048 Graphics Processors培训其强大的神经网络DeepSeek V3,但进一步的分析显示了对基础架构的投资。 DeepSeek使用约50,000个NVIDIA HOPPER GPU经营着重要的计算设置,其中包括各种模型,例如H800和H100,分布在多个数据中心。该基础设施支持AI培训,研究和财务建模,总服务器投资约为16亿美元,运营成本约为9.44亿美元。
DeepSeek是中国对冲基金高级飞行者的子公司,于2023年被旋转,专注于AI技术。与许多依靠云提供商的初创公司不同,DeepSeek拥有其数据中心,从而可以完全控制AI模型优化和更快的创新实现。该公司的自筹资金地位提高了其灵活性和决策速度。
DeepSeek吸引了领先的中国大学的顶尖人才,一些研究人员每年收入超过130万美元。但是,该公司要求以600万美元的价格培训DeepSeek V3的主张是误导性的,因为该数字仅在培训期间占用GPU使用,并且不包括其他重大费用,例如研究,改进,数据处理和基础设施成本。
自开始以来,DeepSeek已在AI开发方面投资了超过5亿美元。它的紧凑结构使其能够比更大的官僚机构更积极,有效地实施AI创新。尽管DeepSeek的成功是由大量投资,技术突破和强大的团队驱动的,但AI模型开发的“革命预算”的概念被夸大了。
但是,DeepSeek的成本仍低于其竞争对手的成本。例如,DeepSeek在R1型号上花费了500万美元,而Chatgpt4o的培训花费了1亿美元。
图片:ensigame.com
图片:ensigame.com
图片:ensigame.com
图片:ensigame.com