El innovador chatbot de Deepseek ha tenido un impacto significativo en el mercado de IA, incluso causando una caída notable en el precio de las acciones de Nvidia. El modelo de IA de la compañía, conocido por sus métodos avanzados de arquitectura y capacitación, ofrece a los usuarios una experiencia única con su capacidad para proporcionar respuestas sorprendentes y perspicaces.
El modelo de Deepseek se destaca debido al uso de varias tecnologías de vanguardia:
Predicción múltiple (MTP) : este método permite que el modelo predice múltiples palabras a la vez, mejorando tanto la precisión como la eficiencia mediante el análisis de varias partes de una oración simultáneamente.
Mezcla de expertos (MOE) : Deepseek V3 utiliza 256 redes neuronales, con ocho activadas para cada tarea de procesamiento de tokens, acelerando la capacitación de IA y el rendimiento de impulso.
Atención latente múltiple (MLA) : este mecanismo se centra en las partes más críticas de una oración, extrayendo repetidamente detalles clave para garantizar que no se pierda información importante, lo que mejora la capacidad de la IA para capturar los matices en los datos.
A pesar de la afirmación de Deepseek de capacitar a su poderosa red neuronal, Deepseek V3, por solo $ 6 millones utilizando 2048 procesadores gráficos, un análisis posterior revela una inversión más sustancial en su infraestructura. Deepseek opera una configuración computacional significativa con alrededor de 50,000 GPU de tolva NVIDIA, incluidos varios modelos como H800 y H100, distribuidos en múltiples centros de datos. Esta infraestructura admite capacitación, investigación y modelado financiero de IA, con una inversión total del servidor de aproximadamente $ 1.6 mil millones y costos operativos de aproximadamente $ 944 millones.
Deepseek, una subsidiaria del Fondo de cobertura chino High-Flyer, se escindió en 2023 para centrarse en las tecnologías de IA. A diferencia de muchas nuevas empresas que dependen de los proveedores de la nube, Deepseek posee sus centros de datos, lo que permite un control total sobre la optimización del modelo de IA y la implementación de innovación más rápida. El estado autofinanciado de la compañía mejora su flexibilidad y velocidad de toma de decisiones.
Deepseek atrae al máximo talento de las principales universidades chinas, con algunos investigadores ganando más de $ 1.3 millones anuales. Sin embargo, el reclamo de la compañía de capacitar a Deepseek V3 por solo $ 6 millones es engañoso, ya que esta cifra solo representa el uso de la GPU durante la capacitación previa y no incluye otros gastos significativos como investigación, refinamiento modelo, procesamiento de datos y costos de infraestructura.
Desde su inicio, Deepseek ha invertido más de $ 500 millones en desarrollo de IA. Su estructura compacta le permite implementar innovaciones de IA de manera más activa y efectiva que las empresas más grandes y burocráticas. Si bien el éxito de Deepseek está impulsado por inversiones sustanciales, avances técnicos y un equipo fuerte, la noción de un "presupuesto revolucionario" para el desarrollo del modelo de IA está un tanto exagerado.
No obstante, los costos de Deepseek siguen siendo más bajos que los de sus competidores. Por ejemplo, Deepseek gastó $ 5 millones en el modelo R1, mientras que la capacitación de ChatGPT4O costó $ 100 millones.
Imagen: ensigame.com
Imagen: ensigame.com
Imagen: ensigame.com
Imagen: ensigame.com