ความสามารถในการจ่ายของ Deepseek เป็นตำนาน: AI ปฏิวัติจริง ๆ แล้วมีค่าใช้จ่าย 1.6 พันล้านเหรียญสหรัฐในการพัฒนา

Chatbot นวัตกรรมของ Deepseek สร้างผลกระทบอย่างมีนัยสำคัญในตลาด AI แม้จะทำให้ราคาหุ้นของ Nvidia ลดลงอย่างน่าทึ่ง โมเดล AI ของ บริษัท เป็นที่รู้จักกันดีในด้านสถาปัตยกรรมและวิธีการฝึกอบรมขั้นสูงมอบประสบการณ์ที่ไม่เหมือนใครให้ผู้ใช้พร้อมความสามารถในการให้คำตอบที่น่าประหลาดใจและลึกซึ้ง

โมเดลของ Deepseek โดดเด่นเนื่องจากการใช้เทคโนโลยีที่ทันสมัยหลายอย่าง:

Multi-Token Prediction (MTP) : วิธีนี้ช่วยให้แบบจำลองสามารถทำนายได้หลายคำพร้อมกันเพิ่มความแม่นยำและประสิทธิภาพโดยการวิเคราะห์ส่วนต่าง ๆ ของประโยคพร้อมกัน

ส่วนผสมของผู้เชี่ยวชาญ (MOE) : Deepseek V3 ใช้เครือข่ายประสาท 256 แห่งโดยมีการเปิดใช้งานแปดครั้งสำหรับงานการประมวลผลโทเค็นแต่ละครั้งเร่งการฝึกอบรม AI และเพิ่มประสิทธิภาพ

ความสนใจแฝงหลายหัว (MLA) : กลไกนี้มุ่งเน้นไปที่ส่วนที่สำคัญที่สุดของประโยคการแยกรายละเอียดที่สำคัญซ้ำ ๆ เพื่อให้แน่ใจว่าไม่มีข้อมูลสำคัญที่พลาดไปดังนั้นจึงปรับปรุงความสามารถของ AI ในการจับภาพความแตกต่างในข้อมูล

แม้จะมีการอ้างสิทธิ์ในการฝึกอบรมเครือข่ายประสาทที่ทรงพลังของพวกเขา Deepseek V3 ในราคาเพียง 6 ล้านเหรียญสหรัฐโดยใช้โปรเซสเซอร์กราฟิกปี 2048 การวิเคราะห์เพิ่มเติมเผยให้เห็นการลงทุนที่สำคัญยิ่งขึ้นในโครงสร้างพื้นฐานของพวกเขา Deepseek ดำเนินการตั้งค่าการคำนวณที่สำคัญโดยมี GPU Nvidia Hopper ประมาณ 50,000 ตัวรวมถึงรุ่นต่าง ๆ เช่น H800 และ H100 กระจายไปทั่วศูนย์ข้อมูลหลายแห่ง โครงสร้างพื้นฐานนี้สนับสนุนการฝึกอบรม AI การวิจัยและการสร้างแบบจำลองทางการเงินด้วยการลงทุนเซิร์ฟเวอร์ทั้งหมดประมาณ 1.6 พันล้านดอลลาร์และค่าใช้จ่ายในการดำเนินงานประมาณ 944 ล้านดอลลาร์

Deepseek ซึ่งเป็น บริษัท ในเครือของกองทุนป้องกันความเสี่ยงของจีนได้ถูกหมุนตัวในปี 2566 เพื่อมุ่งเน้นไปที่เทคโนโลยี AI ซึ่งแตกต่างจาก บริษัท สตาร์ทอัพหลายแห่งที่พึ่งพาผู้ให้บริการคลาวด์ Deepseek เป็นเจ้าของศูนย์ข้อมูลทำให้สามารถควบคุมการเพิ่มประสิทธิภาพแบบจำลอง AI ได้อย่างเต็มที่และการใช้นวัตกรรมที่เร็วขึ้น สถานะที่ได้รับการสนับสนุนตนเองของ บริษัท ช่วยเพิ่มความยืดหยุ่นและความเร็วในการตัดสินใจ

Deepseek ดึงดูดความสามารถสูงสุดจากมหาวิทยาลัยชั้นนำของจีนโดยมีนักวิจัยบางคนมีรายได้มากกว่า $ 1.3 ล้านต่อปี อย่างไรก็ตามการเรียกร้องของ บริษัท ในการฝึกอบรม Deepseek V3 ในราคาเพียง 6 ล้านเหรียญสหรัฐนั้นทำให้เข้าใจผิดเนื่องจากตัวเลขนี้มีเพียงบัญชีสำหรับการใช้ GPU ในระหว่างการฝึกอบรมก่อนและไม่รวมค่าใช้จ่ายที่สำคัญอื่น ๆ เช่นการวิจัยการปรับแต่งแบบจำลองการประมวลผลข้อมูลและค่าใช้จ่ายโครงสร้างพื้นฐาน

นับตั้งแต่เริ่มต้น Deepseek ได้ลงทุนกว่า 500 ล้านดอลลาร์ในการพัฒนา AI โครงสร้างขนาดกะทัดรัดช่วยให้สามารถใช้นวัตกรรม AI ได้อย่างแข็งขันและมีประสิทธิภาพมากกว่า บริษัท ที่มีระบบราชการที่ใหญ่กว่า ในขณะที่ความสำเร็จของ Deepseek ได้รับแรงผลักดันจากการลงทุนที่สำคัญการพัฒนาทางเทคนิคและทีมที่แข็งแกร่งความคิดของ "งบประมาณปฏิวัติ" สำหรับการพัฒนาแบบจำลอง AI นั้นค่อนข้างเกินจริง

อย่างไรก็ตามค่าใช้จ่ายของ Deepseek ยังคงต่ำกว่าของคู่แข่ง ตัวอย่างเช่น Deepseek ใช้จ่าย $ 5 ล้านในรุ่น R1 ในขณะที่การฝึกอบรมของ ChatGPT4O มีราคา $ 100 ล้าน

การทดสอบลึก รูปภาพ: Ensigame.com

deepseek v3 รูปภาพ: Ensigame.com

ลึกล้ำ รูปภาพ: Ensigame.com