L'abordabilité de Deepseek est un mythe: l'IA révolutionnaire a coûté 1,6 milliard de dollars pour développer

Le chatbot innovant de Deepseek a eu un impact significatif sur le marché de l'IA, entraînant même une baisse notable du cours des actions de Nvidia. Le modèle d'IA de l'entreprise, connu pour ses méthodes avancées d'architecture et de formation, offre aux utilisateurs une expérience unique avec sa capacité à fournir des réponses surprenantes et perspicaces.

Le modèle de Deepseek se démarque en raison de son utilisation de plusieurs technologies de pointe:

Prédiction multi-token (MTP) : Cette méthode permet au modèle de prédire plusieurs mots à la fois, améliorant la précision et l'efficacité en analysant simultanément différentes parties d'une phrase.

Mélange d'experts (MOE) : Deepseek V3 utilise 256 réseaux de neurones, avec huit activés pour chaque tâche de traitement de jeton, accélérant la formation AI et stimulant les performances.

Attention latente multi-tête (MLA) : Ce mécanisme se concentre sur les parties les plus critiques d'une phrase, extrait à plusieurs reprises les détails clés pour garantir qu'aucune information importante n'est manquée, améliorant ainsi la capacité de l'IA à capturer les nuances dans les données.

Malgré la prétention de Deepseek de former leur puissant réseau neuronal, Deepseek V3, pour seulement 6 millions de dollars utilisant 2048 processeurs graphiques, une analyse plus approfondie révèle un investissement plus substantiel dans leur infrastructure. Deepseek exploite une configuration de calcul significative avec environ 50 000 GPU Nvidia Hopper, y compris divers modèles comme H800 et H100, répartis sur plusieurs centres de données. Cette infrastructure prend en charge la formation, la recherche et la modélisation financière de l'IA, avec un investissement total de serveur d'environ 1,6 milliard de dollars et des coûts opérationnels d'environ 944 millions de dollars.

Deepseek, une filiale du High Flyer chinois, a été éteinte en 2023 pour se concentrer sur les technologies de l'IA. Contrairement à de nombreuses startups qui reposent sur des fournisseurs de cloud, Deepseek possède ses centres de données, permettant un contrôle complet sur l'optimisation du modèle d'IA et une implémentation d'innovation plus rapide. Le statut autofinancé de l'entreprise améliore sa flexibilité et sa vitesse de prise de décision.

Deepseek attire les meilleurs talents des principales universités chinoises, certains chercheurs gagnant plus de 1,3 million de dollars par an. Cependant, la réclamation de la société de formation Deepseek V3 pour seulement 6 millions de dollars est trompeuse, car ce chiffre ne tient compte que de l'utilisation du GPU pendant la pré-formation et n'inclut pas d'autres dépenses significatives comme la recherche, le raffinement du modèle, le traitement des données et les coûts d'infrastructure.

Depuis son début, Deepseek a investi plus de 500 millions de dollars dans le développement de l'IA. Sa structure compacte lui permet de mettre en œuvre des innovations d'IA plus activement et efficacement que des entreprises plus grandes et plus bureaucratiques. Bien que le succès de Deepseek soit motivé par des investissements substantiels, des percées techniques et une équipe solide, la notion de "budget révolutionnaire" pour le développement du modèle d'IA est quelque peu surestimée.

Néanmoins, les coûts de Deepseek sont encore inférieurs à ceux de ses concurrents. Par exemple, Deepseek a dépensé 5 millions de dollars sur le modèle R1, tandis que la formation de ChatGpt4o a coûté 100 millions de dollars.

Test de profondeur Image: esigame.com

Deepseek v3 Image: esigame.com

En profondeur Image: esigame.com