DeepSeek의 혁신적인 챗봇은 AI 시장에 큰 영향을 미쳤으며, 심지어 Nvidia의 주가가 주목할만한 하락을 일으켰습니다. 고급 아키텍처 및 교육 방법으로 유명한이 회사의 AI 모델은 사용자에게 놀라운 답변을 제공 할 수있는 능력에 대한 독특한 경험을 제공합니다.
DeepSeek의 모델은 여러 개의 최첨단 기술을 사용하여 두드러집니다.
MTP (Multi-Token Prediction) :이 방법을 사용하면 모델이 한 번에 여러 단어를 예측할 수있어 문장의 다양한 부분을 동시에 분석하여 정확도와 효율성을 모두 향상시킬 수 있습니다.
전문가 (MOE)의 혼합 : DeepSeek V3는 256 개의 신경망을 활용하며, 각 토큰 처리 작업마다 8 개의 활성화, AI 교육을 가속화하고 성능을 향상시킵니다.
다중 헤드 잠재주의 (MLA) :이 메커니즘은 문장의 가장 중요한 부분에 중점을 두어 중요한 정보를 놓치지 않도록 주요 세부 사항을 반복적으로 추출하여 AI의 데이터에서 뉘앙스를 캡처 할 수있는 능력을 향상시킵니다.
Deepseek의 강력한 신경망을 훈련시킨 것에 대한 주장에도 불구하고 Deepseek V3는 2048 그래픽 프로세서를 사용하여 6 백만 달러에 불과한 Deepseek V3를 추가로 분석 한 결과, 추가 분석에 따르면 인프라에 대한 상당한 투자가 나타납니다. DeepSeek은 H800 및 H100과 같은 다양한 모델을 포함하여 약 50,000 개의 NVIDIA HOPPER GPU가 여러 데이터 센터에 퍼져있는 중요한 계산 설정을 운영합니다. 이 인프라는 AI 교육, 연구 및 재무 모델링을 지원하며 총 서버 투자는 약 16 억 달러, 운영 비용은 약 9 억 9,400 만 달러입니다.
중국 헤지 펀드 High-Flyer의 자회사 인 Deepseek은 2023 년에 AI 기술에 중점을 두어 분리되었습니다. 클라우드 제공 업체에 의존하는 많은 신생 기업과 달리 DeepSeek은 데이터 센터를 소유하여 AI 모델 최적화와 더 빠른 혁신 구현을 완전히 제어 할 수 있습니다. 회사의 자체 자금 지원 상태는 유연성과 의사 결정 속도를 향상시킵니다.
Deepseek은 중국 최고의 대학에서 최고의 인재를 유치하며 일부 연구자들은 매년 130 만 달러 이상을 벌고 있습니다. 그러나이 수치는 사전 훈련 중에 GPU 사용을 설명하고 연구, 모델 개선, 데이터 처리 및 인프라 비용과 같은 다른 중요한 비용은 포함되지 않기 때문에이 수치는 6 백만 달러에 대한 DeepSeek V3 교육에 대한 주장은 오해의 소지가 있습니다.
DeepSeek은 처음부터 AI 개발에 5 억 달러 이상을 투자했습니다. 소형 구조를 통해 AI 혁신을 더 크고 더 많은 관료적 회사보다 더 적극적이고 효과적으로 구현할 수 있습니다. DeepSeek의 성공은 상당한 투자, 기술 혁신 및 강력한 팀에 의해 주도되지만 AI 모델 개발을위한 "혁명 예산"이라는 개념은 다소 과장됩니다.
그럼에도 불구하고 DeepSeek의 비용은 여전히 경쟁 업체의 비용보다 낮습니다. 예를 들어, DeepSeek은 R1 모델에 5 백만 달러를 소비 한 반면 ChatGpt4o의 교육 비용은 1 억 달러입니다.
이미지 : ensigame.com
이미지 : ensigame.com
이미지 : ensigame.com
이미지 : ensigame.com