L'accessibilità economica di DeepSeek è un mito: l'intelligenza artificiale rivoluzionaria in realtà costa $ 1,6 miliardi per lo sviluppo

L'innovativo chatbot di Deepseek ha avuto un impatto significativo nel mercato dell'IA, causando persino un notevole calo del prezzo delle azioni di Nvidia. Il modello AI dell'azienda, noto per la sua architettura avanzata e metodi di formazione, offre agli utenti un'esperienza unica con la sua capacità di fornire risposte sorprendenti e approfondite.

Il modello di Deepseek si distingue per l'uso di diverse tecnologie all'avanguardia:

Multi-Token Prediction (MTP) : questo metodo consente al modello di prevedere più parole contemporaneamente, migliorando sia l'accuratezza che l'efficienza analizzando varie parti di una frase contemporaneamente.

Miscela di esperti (MOE) : DeepSeek V3 utilizza 256 reti neurali, con otto attivate per ogni attività di elaborazione dei token, accelerando la formazione dell'intelligenza artificiale e aumento delle prestazioni.

Attenzione latente multi-testa (MLA) : questo meccanismo si concentra sulle parti più critiche di una frase, estraendo ripetutamente dettagli chiave per garantire che non vengano perse alcuna informazione importante, migliorando così la capacità dell'intelligenza artificiale di acquisire sfumature nei dati.

Nonostante l'affermazione di Deepseek di addestrare la loro potente rete neurale, Deepseek V3, per soli $ 6 milioni utilizzando 2048 processori grafici, ulteriori analisi rivelano un investimento più sostanziale nella loro infrastruttura. DeepSeek gestisce una significativa configurazione computazionale con circa 50.000 GPU di Nvidia Hopper, tra cui vari modelli come H800 e H100, distribuiti su più data center. Questa infrastruttura supporta la formazione, la ricerca e la modellazione finanziaria dell'IA, con un investimento totale di server di circa $ 1,6 miliardi e costi operativi di circa $ 944 milioni.

DeepSeek, una consociata dell'Hedge Fund cinese High-Flyer, è stata trasformata nel 2023 per concentrarsi sulle tecnologie di intelligenza artificiale. A differenza di molte startup che si basano sui fornitori di cloud, DeepSeek possiede i suoi data center, consentendo il pieno controllo sull'ottimizzazione del modello di intelligenza artificiale e sull'implementazione più rapida dell'innovazione. Lo stato autofinanziato dell'azienda migliora la sua flessibilità e velocità decisionale.

DeepSeek attira i migliori talenti dalle principali università cinesi, con alcuni ricercatori che guadagnano oltre $ 1,3 milioni all'anno. Tuttavia, l'affermazione dell'azienda di formazione DeepSeek V3 per soli $ 6 milioni è fuorviante, poiché questa cifra rappresenta solo l'utilizzo della GPU durante il pre-allenamento e non include altre spese significative come la ricerca, il perfezionamento del modello, l'elaborazione dei dati e i costi delle infrastrutture.

Fin dall'inizio, Deepseek ha investito oltre $ 500 milioni in sviluppo dell'IA. La sua struttura compatta gli consente di implementare innovazioni di intelligenza artificiale più attivamente ed efficace delle aziende più grandi e burocratiche. Mentre il successo di Deepseek è guidato da investimenti sostanziali, scoperte tecniche e un team forte, la nozione di "budget rivoluzionario" per lo sviluppo del modello di intelligenza artificiale è in qualche modo sopravvalutata.

Tuttavia, i costi di Deepseek sono ancora inferiori a quelli dei suoi concorrenti. Ad esempio, DeepSeek ha speso $ 5 milioni sul modello R1, mentre la formazione di Chatgpt4o costa $ 100 milioni.

Test di DeepSeek Immagine: Ensigame.com

DeepSeek V3 Immagine: Ensigame.com

Deep -Week Immagine: Ensigame.com