Kemampuan DeepSeek adalah mitos: AI revolusioner sebenarnya berharga $ 1.6 bilion untuk berkembang

Chatbot inovatif Deepseek telah memberi impak yang signifikan dalam pasaran AI, bahkan menyebabkan kejatuhan harga saham Nvidia yang ketara. Model AI syarikat, yang terkenal dengan kaedah seni bina dan latihan lanjutannya, menawarkan pengguna pengalaman yang unik dengan keupayaannya untuk memberikan jawapan yang mengejutkan dan berwawasan.

Model DeepSeek menonjol kerana penggunaan beberapa teknologi canggih:

Ramalan Multi-Token (MTP) : Kaedah ini membolehkan model meramalkan beberapa perkataan sekaligus, meningkatkan kedua-dua ketepatan dan kecekapan dengan menganalisis pelbagai bahagian ayat secara serentak.

Campuran Pakar (MOE) : DeepSeek V3 menggunakan 256 rangkaian saraf, dengan lapan diaktifkan untuk setiap tugas pemprosesan token, mempercepatkan latihan AI dan meningkatkan prestasi.

Perhatian Laten Multi-Head (MLA) : Mekanisme ini memberi tumpuan kepada bahagian-bahagian yang paling kritikal dalam satu kalimat, berulang kali mengekstrak butiran utama untuk memastikan tiada maklumat penting yang terlepas, dengan itu meningkatkan keupayaan AI untuk menangkap nuansa dalam data.

Walaupun tuntutan DeepSeek untuk melatih rangkaian saraf mereka yang kuat, DeepSeek V3, hanya dengan $ 6 juta menggunakan pemproses grafik 2048, analisis lanjut mendedahkan pelaburan yang lebih besar dalam infrastruktur mereka. DeepSeek mengendalikan persediaan pengiraan yang signifikan dengan sekitar 50,000 GPU NVIDIA Hopper, termasuk pelbagai model seperti H800 dan H100, tersebar di pelbagai pusat data. Infrastruktur ini menyokong latihan AI, penyelidikan, dan pemodelan kewangan, dengan jumlah pelaburan pelayan kira -kira $ 1.6 bilion dan kos operasi kira -kira $ 944 juta.

DeepSeek, anak syarikat dana lindung nilai Cina yang tinggi, diputar pada tahun 2023 untuk memberi tumpuan kepada teknologi AI. Tidak seperti banyak pemula yang bergantung kepada penyedia awan, DeepSeek memiliki pusat datanya, yang membolehkan kawalan penuh ke atas pengoptimuman model AI dan pelaksanaan inovasi yang lebih cepat. Status pembiayaan sendiri syarikat meningkatkan kelajuan fleksibiliti dan membuat keputusan.

Deepseek menarik bakat teratas dari universiti -universiti China yang terkemuka, dengan beberapa penyelidik memperoleh lebih dari $ 1.3 juta setahun. Walau bagaimanapun, tuntutan Latihan Syarikat DeepSeek V3 untuk hanya $ 6 juta adalah mengelirukan, kerana angka ini hanya menyumbang penggunaan GPU semasa latihan pra-latihan dan tidak termasuk perbelanjaan penting lain seperti penyelidikan, penghalusan model, pemprosesan data, dan kos infrastruktur.

Sejak permulaannya, DeepSeek telah melabur lebih daripada $ 500 juta dalam pembangunan AI. Struktur padatnya membolehkannya melaksanakan inovasi AI dengan lebih aktif dan berkesan daripada syarikat birokrasi yang lebih besar dan lebih besar. Walaupun kejayaan DeepSeek didorong oleh pelaburan yang besar, kejayaan teknikal, dan pasukan yang kuat, tanggapan tentang "anggaran revolusioner" untuk pembangunan model AI agak berlebihan.

Walau bagaimanapun, kos DeepSeek masih lebih rendah daripada pesaingnya. Sebagai contoh, DeepSeek membelanjakan $ 5 juta pada model R1, manakala latihan ChatGPT4O berharga $ 100 juta.

Ujian DeepSeek Imej: ensigame.com

DeepSeek V3 Imej: ensigame.com

Deepseek Imej: ensigame.com