Chatbot sáng tạo của Deepseek đã tạo ra một tác động đáng kể trong thị trường AI, thậm chí gây ra sự sụt giảm đáng chú ý của giá cổ phiếu của NVIDIA. Mô hình AI của công ty, được biết đến với các phương pháp đào tạo và kiến trúc tiên tiến, cung cấp cho người dùng trải nghiệm độc đáo với khả năng cung cấp câu trả lời đáng ngạc nhiên và sâu sắc.
Mô hình của Deepseek nổi bật do sử dụng một số công nghệ tiên tiến:
Dự đoán đa điểm (MTP) : Phương pháp này cho phép mô hình dự đoán nhiều từ cùng một lúc, tăng cường cả độ chính xác và hiệu quả bằng cách phân tích đồng thời các phần khác nhau của câu.
Hỗn hợp các chuyên gia (MOE) : Deepseek V3 sử dụng 256 mạng thần kinh, với tám mạng được kích hoạt cho mỗi nhiệm vụ xử lý mã thông báo, tăng tốc hiệu suất đào tạo và tăng cường AI.
Sự chú ý tiềm ẩn đa đầu (MLA) : Cơ chế này tập trung vào các phần quan trọng nhất của câu, liên tục trích xuất các chi tiết chính để đảm bảo không có thông tin quan trọng nào bị bỏ lỡ, do đó cải thiện khả năng của AI để nắm bắt các sắc thái trong dữ liệu.
Mặc dù yêu cầu đào tạo mạng lưới thần kinh mạnh mẽ của Deepseek, Deepseek V3, chỉ với 6 triệu đô la sử dụng 2048 bộ xử lý đồ họa, phân tích sâu hơn cho thấy một khoản đầu tư đáng kể hơn vào cơ sở hạ tầng của họ. Deepseek vận hành một thiết lập tính toán đáng kể với khoảng 50.000 GPU phễu NVIDIA, bao gồm các mô hình khác nhau như H800 và H100, trải rộng trên nhiều trung tâm dữ liệu. Cơ sở hạ tầng này hỗ trợ đào tạo, nghiên cứu và mô hình tài chính của AI, với tổng đầu tư của máy chủ khoảng 1,6 tỷ đô la và chi phí hoạt động khoảng 944 triệu đô la.
Deepseek, một công ty con của quỹ đầu cơ của Trung Quốc, đã quay đi vào năm 2023 để tập trung vào các công nghệ AI. Không giống như nhiều công ty khởi nghiệp dựa vào các nhà cung cấp đám mây, Deepseek sở hữu các trung tâm dữ liệu của mình, cho phép kiểm soát hoàn toàn đối với tối ưu hóa mô hình AI và triển khai đổi mới nhanh hơn. Tình trạng tự tài trợ của công ty giúp tăng cường tính linh hoạt và tốc độ ra quyết định.
Deepseek thu hút tài năng hàng đầu từ các trường đại học hàng đầu Trung Quốc, với một số nhà nghiên cứu kiếm được hơn 1,3 triệu đô la hàng năm. Tuy nhiên, yêu cầu đào tạo Deepseek V3 của công ty chỉ với 6 triệu đô la là sai lệch, vì con số này chỉ chiếm việc sử dụng GPU trong quá trình đào tạo trước và không bao gồm các chi phí quan trọng khác như nghiên cứu, tinh chỉnh mô hình, xử lý dữ liệu và chi phí cơ sở hạ tầng.
Kể từ khi bắt đầu, Deepseek đã đầu tư hơn 500 triệu đô la vào sự phát triển của AI. Cấu trúc nhỏ gọn của nó cho phép nó thực hiện các đổi mới AI tích cực và hiệu quả hơn so với các công ty lớn hơn, quan liêu hơn. Trong khi thành công của Deepseek được thúc đẩy bởi các khoản đầu tư đáng kể, những đột phá kỹ thuật và một nhóm mạnh mẽ, khái niệm về "ngân sách cách mạng" cho sự phát triển mô hình AI có phần quá.
Tuy nhiên, chi phí của Deepseek vẫn thấp hơn so với các đối thủ cạnh tranh. Ví dụ, Deepseek đã chi 5 triệu đô la cho mô hình R1, trong khi khóa đào tạo của TATGPT4O có giá 100 triệu đô la.
Hình ảnh: Ensigame.com
Hình ảnh: Ensigame.com
Hình ảnh: Ensigame.com
Hình ảnh: Ensigame.com