O inovador chatbot da Deepseek causou um impacto significativo no mercado de IA, causando uma queda notável no preço das ações da NVIDIA. O modelo de IA da empresa, conhecido por seus métodos avançados de arquitetura e treinamento, oferece aos usuários uma experiência única com sua capacidade de fornecer respostas surpreendentes e perspicazes.
O modelo de Deepseek se destaca devido ao uso de várias tecnologias de ponta:
Previsão com vários toques (MTP) : esse método permite que o modelo preveja várias palavras ao mesmo tempo, aumentando a precisão e a eficiência analisando várias partes de uma frase simultaneamente.
Mistura de especialistas (MOE) : Deepseek V3 utiliza 256 redes neurais, com oito ativados para cada tarefa de processamento de token, acelerando o treinamento de IA e aumentando o desempenho.
Atenção latente de várias cabeças (MLA) : Esse mecanismo se concentra nas partes mais críticas de uma frase, extraindo repetidamente os principais detalhes para garantir que nenhuma informação importante seja perdida, melhorando assim a capacidade da IA de capturar nuances nos dados.
Apesar da alegação de Deepseek de treinar sua poderosa rede neural, a Deepseek V3, por apenas US $ 6 milhões usando 2048 processadores gráficos, análises adicionais revelam um investimento mais substancial em sua infraestrutura. A Deepseek opera uma configuração computacional significativa com cerca de 50.000 GPUs NVIDIA Hopper, incluindo vários modelos como H800 e H100, espalhados por vários data centers. Essa infraestrutura suporta treinamento, pesquisa e modelagem financeira de IA, com um investimento total do servidor de cerca de US $ 1,6 bilhão e custos operacionais de aproximadamente US $ 944 milhões.
A Deepseek, uma subsidiária do fundo de hedge chinesa, foi feita em 2023 para se concentrar nas tecnologias de IA. Ao contrário de muitas startups que dependem de provedores de nuvem, a DeepSeek possui seus data centers, permitindo controle total sobre a otimização do modelo de IA e implementação mais rápida de inovação. O status autofinanciado da empresa aumenta sua flexibilidade e velocidade de tomada de decisão.
Deepseek atrai os principais talentos das principais universidades chinesas, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente. No entanto, a reivindicação da empresa de treinar Deepseek V3 por apenas US $ 6 milhões é enganosa, pois esse número é responsável apenas pelo uso da GPU durante o pré-treinamento e não inclui outras despesas significativas, como pesquisa, refinamento de modelos, processamento de dados e custos de infraestrutura.
Desde o seu início, a Deepseek investiu mais de US $ 500 milhões em desenvolvimento de IA. Sua estrutura compacta permite implementar inovações de IA de maneira mais ativa e eficaz do que empresas maiores e mais burocráticas. Embora o sucesso de Deepseek seja impulsionado por investimentos substanciais, avanços técnicos e uma equipe forte, a noção de um "orçamento revolucionário" para o desenvolvimento do modelo de IA é um pouco exagerado.
No entanto, os custos da Deepseek ainda são inferiores aos de seus concorrentes. Por exemplo, a Deepseek gastou US $ 5 milhões no modelo R1, enquanto o treinamento da ChatGPT4O custou US $ 100 milhões.
Imagem: Ensigame.com
Imagem: Ensigame.com
Imagem: Ensigame.com
Imagem: Ensigame.com