Deepseek'in yenilikçi chatbotu, AI pazarında önemli bir etki yarattı ve hatta Nvidia'nın hisse senedi fiyatında kayda değer bir düşüşe neden oldu. Şirketin ileri mimarisi ve eğitim yöntemleriyle bilinen AI modeli, kullanıcılara şaşırtıcı ve anlayışlı cevaplar sağlama yeteneği ile benzersiz bir deneyim sunuyor.
Deepseek'in modeli, birkaç son teknolojiyi kullanması nedeniyle öne çıkıyor:
Çoklu Tahmini Tahmin (MTP) : Bu yöntem, modelin aynı anda birden fazla kelimeyi tahmin etmesini sağlar ve aynı anda bir cümlenin çeşitli bölümlerini analiz ederek hem doğruluğu hem de verimliliği artırır.
Uzmanların Karışımı (MOE) : Deepseek V3, her bir jeton işleme görevi için sekiz etkinleştirilmiş, AI eğitimini hızlandıran ve performansı artıran 256 sinir ağı kullanır.
Çok Baş Gizli Dikkat (MLA) : Bu mekanizma, bir cümlenin en kritik kısımlarına odaklanır ve önemli bilgilerin kaçırılmamasını sağlamak için önemli ayrıntıları tekrar tekrar çıkarır, böylece AI'nın verilerdeki nüansları yakalama yeteneğini geliştirir.
Deepseek'in güçlü sinir ağları Deepseek V3'ü eğitme iddiasına rağmen, 2048 grafik işlemciyi kullanarak sadece 6 milyon dolar karşılığında, daha fazla analiz altyapılarına daha önemli bir yatırım ortaya koyuyor. Deepseek, H800 ve H100 gibi çeşitli modeller de dahil olmak üzere yaklaşık 50.000 NVIDIA Hopper GPU ile birden fazla veri merkezine yayılmış önemli bir hesaplama kurulumu işletmektedir. Bu altyapı, yaklaşık 1,6 milyar dolarlık toplam sunucu yatırımı ve yaklaşık 944 milyon dolarlık operasyonel maliyetle AI eğitim, araştırma ve finansal modellemeyi desteklemektedir.
Çin Hedge Fonu High-Flyer'in bir yan kuruluşu olan Deepseek, 2023 yılında AI teknolojilerine odaklanmak için döndü. Bulut sağlayıcılarına dayanan birçok girişimin aksine, Deepseek veri merkezlerinin sahibidir ve AI modeli optimizasyonu ve daha hızlı inovasyon uygulaması üzerinde tam kontrol sağlar. Şirketin kendi kendine finanse edilen durumu esnekliğini ve karar verme hızını artırır.
Deepseek, önde gelen Çin üniversitelerinden en iyi yetenekleri çekiyor ve bazı araştırmacılar yılda 1.3 milyon doların üzerinde kazanıyor. Bununla birlikte, şirketin Deepseek V3'ü sadece 6 milyon dolarlık eğitme iddiası yanıltıcıdır, çünkü bu rakam yalnızca eğitim öncesi GPU kullanımını açıklar ve araştırma, model arıtma, veri işleme ve altyapı maliyetleri gibi diğer önemli masrafları içermez.
Başından beri Deepseek, AI gelişimine 500 milyon doların üzerinde yatırım yaptı. Kompakt yapısı, AI yeniliklerini daha büyük, daha bürokratik şirketlerden daha aktif ve etkili bir şekilde uygulamasını sağlar. Deepseek'in başarısı önemli yatırımlar, teknik atılımlar ve güçlü bir ekip tarafından yönlendirilirken, yapay zeka modeli gelişimi için "devrimci bir bütçe" kavramı biraz abartılıdır.
Bununla birlikte, Deepseek'in maliyetleri hala rakiplerinden daha düşüktür. Örneğin, Deepseek R1 modeline 5 milyon dolar harcarken, ChatGpt4o'nun eğitiminin maliyeti 100 milyon dolara.
Resim: ensigame.com
Resim: ensigame.com
Resim: ensigame.com
Resim: ensigame.com