Chatbot mới của Deepseek tự hào về phần giới thiệu ấn tượng: "Xin chào, tôi được tạo ra để bạn có thể hỏi bất cứ điều gì và nhận được câu trả lời thậm chí có thể làm bạn ngạc nhiên." AI này, một sản phẩm của công ty khởi nghiệp Trung Quốc Deepseek, đã nhanh chóng trở thành một người chơi chính, thậm chí góp phần làm giảm đáng kể giá cổ phiếu của NVIDIA.

Thành công của Deepseek bắt nguồn từ kiến trúc và phương pháp đào tạo sáng tạo. Công nghệ chính bao gồm:
- Dự đoán đa điểm (MTP): Thay vì dự đoán các từ riêng lẻ, MTP dự báo đồng thời nhiều từ, tăng độ chính xác và hiệu quả.
- Hỗn hợp các chuyên gia (MOE): Kiến trúc này sử dụng 256 mạng lưới thần kinh trong Deepseek V3, kích hoạt tám cho mỗi nhiệm vụ xử lý mã thông báo, tăng tốc đào tạo và cải thiện hiệu suất.
- Sự chú ý tiềm ẩn đa đầu (MLA): MLA liên tục trích xuất các chi tiết chính từ các đoạn văn bản, đảm bảo thông tin quan trọng không bị bỏ lỡ, dẫn đến sự hiểu biết nhiều sắc thái hơn về dữ liệu đầu vào.
Deepseek ban đầu tuyên bố chi phí đào tạo thấp đáng kể chỉ 6 triệu đô la cho Deepseek V3, chỉ sử dụng 2048 GPU. Tuy nhiên, Semianalysis cho thấy một cơ sở hạ tầng rộng lớn hơn nhiều: khoảng 50.000 GPU phễu NVIDIA (bao gồm 10.000 H800, 10.000 H100 và H20 bổ sung) trải rộng trên nhiều trung tâm dữ liệu, đại diện cho tổng đầu tư của máy chủ là khoảng 1,6 tỷ đô la và chi phí vận hành gần 94 triệu đô la.

Deepseek, một công ty con của quỹ phòng hộ cao của Trung Quốc, sở hữu các trung tâm dữ liệu của mình, cung cấp quyền kiểm soát tối ưu hóa và triển khai đổi mới nhanh hơn. Cách tiếp cận tự tài trợ này giúp tăng cường tính linh hoạt và ra quyết định. Công ty thu hút tài năng hàng đầu, với một số nhà nghiên cứu kiếm được hơn 1,3 triệu đô la hàng năm, chủ yếu từ các trường đại học Trung Quốc.

Yêu cầu chi phí đào tạo trị giá 6 triệu đô la dường như là một cách đánh giá thấp đáng kể, chỉ đại diện cho việc sử dụng GPU trước khi đào tạo, không bao gồm nghiên cứu, tinh chỉnh, xử lý dữ liệu và cơ sở hạ tầng. Đầu tư thực tế của Deepseek vào phát triển AI vượt quá 500 triệu đô la. Mặc dù vậy, cấu trúc nạc của nó cho phép đổi mới hiệu quả so với các công ty lớn hơn, quan liêu hơn.

Thành công của Deepseek nhấn mạnh tiềm năng của các công ty AI độc lập được tài trợ tốt để cạnh tranh với những người khổng lồ trong ngành. Trong khi tuyên bố "ngân sách cách mạng" của nó được phóng đại, thành công của nó không thể phủ nhận liên quan đến đầu tư đáng kể, đột phá công nghệ và một nhóm mạnh mẽ. Sự tương phản là rõ ràng khi so sánh chi phí đào tạo: R1 của Deepseek có giá 5 triệu đô la, trong khi TATGPT-4 có giá 100 triệu đô la. Tuy nhiên, nó vẫn rẻ hơn so với các đối thủ cạnh tranh.