Ang makabagong chatbot ng Deepseek ay gumawa ng isang makabuluhang epekto sa merkado ng AI, kahit na nagdudulot ng isang kilalang pagbagsak sa presyo ng stock ni Nvidia. Ang modelo ng AI ng kumpanya, na kilala para sa advanced na mga pamamaraan ng arkitektura at pagsasanay, ay nag -aalok ng mga gumagamit ng isang natatanging karanasan na may kakayahang magbigay ng nakakagulat at may pag -unawa na mga sagot.
Ang modelo ng Deepseek ay nakatayo dahil sa paggamit nito ng maraming mga teknolohiyang paggupit:
Multi-Token Prediction (MTP) : Ang pamamaraang ito ay nagbibigay-daan sa modelo upang mahulaan ang maraming mga salita nang sabay-sabay, pagpapahusay ng parehong kawastuhan at kahusayan sa pamamagitan ng pagsusuri ng iba't ibang bahagi ng isang pangungusap nang sabay-sabay.
Paghahalo ng mga eksperto (MOE) : Gumagamit ang Deepseek V3 ng 256 na mga network ng neural, na may walong na -aktibo para sa bawat gawain sa pagproseso ng token, pinabilis ang pagsasanay sa AI at pagpapalakas ng pagganap.
Multi-head latent attention (MLA) : Ang mekanismong ito ay nakatuon sa mga pinaka-kritikal na bahagi ng isang pangungusap, paulit-ulit na pagkuha ng mga pangunahing detalye upang matiyak na walang mahalagang impormasyon na hindi nakuha, kaya pinapabuti ang kakayahan ng AI na makunan ang mga nuances sa data.
Sa kabila ng pag -angkin ng Deepseek ng pagsasanay sa kanilang malakas na neural network, Deepseek V3, para sa $ 6 milyon lamang gamit ang 2048 graphics processors, ang karagdagang pagsusuri ay nagpapakita ng isang mas malaking pamumuhunan sa kanilang imprastraktura. Ang Deepseek ay nagpapatakbo ng isang makabuluhang pag -setup ng computational na may halos 50,000 NVIDIA HOPPER GPU, kabilang ang iba't ibang mga modelo tulad ng H800 at H100, na kumalat sa maraming mga sentro ng data. Sinusuportahan ng imprastraktura na ito ang pagsasanay, pananaliksik, at pagmomolde ng pananalapi, na may kabuuang pamumuhunan ng server na halos $ 1.6 bilyon at mga gastos sa pagpapatakbo na humigit -kumulang na $ 944 milyon.
Ang Deepseek, isang subsidiary ng Chinese Hedge Fund High-flyer, ay natanggal noong 2023 upang tumuon sa mga teknolohiya ng AI. Hindi tulad ng maraming mga startup na umaasa sa mga tagapagbigay ng ulap, ang Deepseek ay nagmamay -ari ng mga sentro ng data nito, na nagpapahintulot sa buong kontrol sa pag -optimize ng modelo ng AI at mas mabilis na pagpapatupad ng pagbabago. Ang katayuan sa sarili na pinondohan ng kumpanya ay nagpapabuti sa kakayahang umangkop at bilis ng paggawa ng desisyon.
Ang Deepseek ay nakakaakit ng nangungunang talento mula sa nangungunang unibersidad ng Tsino, na may ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon. Gayunpaman, ang pag-angkin ng kumpanya ng pagsasanay sa Deepseek V3 sa halagang $ 6 milyon ay nakaliligaw, dahil ang figure na ito ay nagkakaroon lamang ng paggamit ng GPU sa panahon ng pre-training at hindi kasama ang iba pang mga makabuluhang gastos tulad ng pananaliksik, pagpipino ng modelo, pagproseso ng data, at mga gastos sa imprastraktura.
Mula nang magsimula ito, ang Deepseek ay namuhunan ng higit sa $ 500 milyon sa pag -unlad ng AI. Ang compact na istraktura nito ay nagbibigay -daan upang maipatupad ang mga makabagong AI na mas aktibo at epektibo kaysa sa mas malaki, mas maraming mga kumpanya ng burukrasya. Habang ang tagumpay ng Deepseek ay hinihimok ng malaking pamumuhunan, mga teknikal na pambihirang tagumpay, at isang malakas na koponan, ang paniwala ng isang "rebolusyonaryong badyet" para sa pag -unlad ng modelo ng AI ay medyo overstated.
Gayunpaman, ang mga gastos sa Deepseek ay mas mababa pa kaysa sa mga katunggali nito. Halimbawa, ang Deepseek ay gumugol ng $ 5 milyon sa modelo ng R1, habang ang pagsasanay sa Chatgpt4o ay nagkakahalaga ng $ 100 milyon.
Larawan: ensigame.com
Larawan: ensigame.com
Larawan: ensigame.com
Larawan: ensigame.com