Innowacyjny chatbot Deepseek wywarł znaczący wpływ na rynku AI, nawet powodując znaczący spadek ceny akcji NVIDIA. Model AI firmy, znany z zaawansowanej metody architektury i szkoleń, oferuje użytkownikom wyjątkowe doświadczenie z jej zdolnością do udzielania zaskakujących i wnikliwych odpowiedzi.
Model Deepseek wyróżnia się ze względu na wykorzystanie kilku najnowocześniejszych technologii:
Prognozowanie wielofunkcyjne (MTP) : Ta metoda pozwala modelowi przewidzieć wiele słów jednocześnie, zwiększając zarówno dokładność, jak i wydajność poprzez analizę różnych części zdania jednocześnie.
Mieszanka ekspertów (MOE) : Deepseek V3 wykorzystuje 256 sieci neuronowych, z ośmioma aktywowanymi dla każdego zadania przetwarzania tokenu, przyspieszając szkolenie AI i zwiększając wydajność.
Utrzymująca uwaga w wielu głowie (MLA) : Ten mechanizm koncentruje się na najważniejszych częściach zdania, wielokrotnie wydobywając kluczowe szczegóły, aby zapewnić, że żadne ważne informacje nie zostaną pominięte, poprawiając w ten sposób zdolność AI do przechwytywania niuansów w danych.
Pomimo roszczenia Deepseeka o szkolenie ich potężnej sieci neuronowej, Deepseek V3, za zaledwie 6 milionów dolarów za pomocą procesorów graficznych 2048, dalsza analiza ujawnia bardziej znaczną inwestycję w infrastrukturę. DeepSeek prowadzi znaczącą konfigurację obliczeniową z około 50 000 GPU NVIDIA Hopper, w tym różnymi modelami, takimi jak H800 i H100, rozłożone na wiele centrów danych. Ta infrastruktura wspiera szkolenie AI, badania i modelowanie finansowe, z całkowitą inwestycją serwera około 1,6 miliarda USD i kosztami operacyjnymi około 944 mln USD.
Deepseek, spółka zależna chińskiego funduszu hedgingowego High-Flyer, została odrzucona w 2023 r., Aby skupić się na technologiach AI. W przeciwieństwie do wielu startupów, które opierają się na dostawcach chmury, Deepseek jest właścicielem swoich centrów danych, umożliwiając pełną kontrolę nad optymalizacją modelu AI i szybszą implementację innowacji. Samofinansowany status firmy zwiększa elastyczność i szybkość podejmowania decyzji.
Deepseek przyciąga najlepsze talenty wiodących chińskich uniwersytetów, a niektórzy badacze zarabiają ponad 1,3 miliona dolarów rocznie. Jednak roszczenie firmy o szkolenie Deepseek V3 o zaledwie 6 milionów dolarów wprowadza w błąd, ponieważ liczba ta uwzględnia tylko wykorzystanie GPU podczas wstępnego treningu i nie obejmuje innych znaczących wydatków, takich jak badania, udoskonalanie modelu, przetwarzanie danych i koszty infrastruktury.
Od samego początku Deepseek zainwestował ponad 500 milionów dolarów w rozwój AI. Jego kompaktowa struktura pozwala mu wdrażać innowacje AI bardziej aktywne i skuteczne niż większe, bardziej biurokratyczne firmy. Podczas gdy sukces Deepseek wynika z znacznych inwestycji, przełomów technicznych i silnego zespołu, pojęcie „rewolucyjnego budżetu” dla opracowywania modelu AI jest nieco zawyżone.
Niemniej jednak koszty Deepeek są nadal niższe niż koszty jego konkurentów. Na przykład Deepseek wydał 5 milionów dolarów na model R1, podczas gdy szkolenie Chatgpt4o kosztowało 100 milionów dolarów.
Zdjęcie: engame.com
Zdjęcie: engame.com
Zdjęcie: engame.com
Zdjęcie: engame.com