DeepSeek và Qwen thay đổi kinh tế học hạ tầng AI như thế nào

DeepSeek R1 được huấn luyện với 5,6 triệu USD trên 2.000 GPU H800 so với 80-100 triệu USD trên 16.000 H100 cho các mô hình phương Tây tương đương. Các mô hình mã nguồn mở Trung Quốc tăng từ 1,2% lên gần 30% mức sử dụng toàn cầu trong năm 2025. AWS,...

DeepSeek và Qwen thay đổi kinh tế học hạ tầng AI như thế nào

DeepSeek và Qwen thay đổi kinh tế học hạ tầng AI như thế nào

Cập nhật ngày 11 tháng 12 năm 2025

Cập nhật tháng 12 năm 2025: DeepSeek R1 được huấn luyện với 5,6 triệu USD trên 2.000 GPU H800 so với 80-100 triệu USD trên 16.000 H100 cho các mô hình phương Tây tương đương. Các mô hình mã nguồn mở Trung Quốc tăng từ 1,2% lên gần 30% mức sử dụng toàn cầu trong năm 2025. AWS, Azure và Google Cloud hiện cung cấp triển khai DeepSeek. HSBC, Standard Chartered và Saudi Aramco đang thử nghiệm hoặc triển khai DeepSeek. Qwen 2.5-Max có giá 0,38 USD/triệu token so với các lựa chọn phương Tây đắt hơn đáng kể.

DeepSeek tuyên bố đã huấn luyện mô hình R1 chỉ với 5,6 triệu USD sử dụng 2.000 GPU NVIDIA H800.¹ Các mô hình phương Tây tương đương cần 80 triệu đến 100 triệu USD và 16.000 GPU H100.² Việc ra mắt vào tháng 1 năm 2025, được định thời một ngày trước thông báo Stargate trị giá 500 tỷ USD của OpenAI, đã gây ra mức mất vốn hóa thị trường chưa từng có 589 tỷ USD trong một ngày của NVIDIA.³ Các mô hình AI Trung Quốc chuyển từ sự tò mò khu vực sang thách thức hạ tầng toàn cầu chỉ trong một lần ra mắt sản phẩm.

Tuyên bố về hiệu quả đòi hỏi phải xem xét kỹ lưỡng. Các mô hình mã nguồn mở Trung Quốc tăng từ 1,2% mức sử dụng toàn cầu cuối năm 2024 lên gần 30% trong năm 2025.⁴ Alibaba báo cáo hơn 170.000 mô hình phái sinh được xây dựng trên Qwen.⁵ HSBC, Standard Chartered và Saudi Aramco hiện đang thử nghiệm hoặc triển khai các mô hình DeepSeek.⁶ Amazon Web Services, Microsoft Azure và Google Cloud cung cấp triển khai DeepSeek cho khách hàng của họ.⁷ Kinh tế học hạ tầng từng ưu tiên chi tiêu vốn khổng lồ có thể đang chuyển sang các phương pháp ưu tiên hiệu quả, thay đổi cách các tổ chức nên lập kế hoạch đầu tư AI.

Đột phá hiệu quả của DeepSeek

DeepSeek, một công ty có trụ sở tại Hàng Châu với chưa đến 200 nhân viên, được hậu thuẫn bởi quỹ định lượng High-Flyer (quản lý 8 tỷ USD tài sản), đã tái suy nghĩ cách huấn luyện mô hình.⁸ Thay vì dựa vào hạ tầng nặng về tính toán, các mô hình của họ tận dụng học tăng cường và kiến trúc Mixture-of-Experts để cải thiện hiệu suất trong khi giảm nhu cầu tính toán.⁹

Kiến trúc MoE đại diện cho cốt lõi kỹ thuật của các cải tiến hiệu quả. Thay vì kích hoạt tất cả các tham số cho mọi yêu cầu suy luận, các mô hình MoE chỉ kích hoạt các mạng chuyên gia liên quan. Phương pháp này giảm chi phí tính toán lên đến 30% so với các mô hình dày đặc truyền thống trong khi duy trì hoặc vượt qua hiệu suất.¹⁰ DeepSeek đã chứng minh rằng thiết kế phối hợp phần mềm-phần cứng hiệu quả cho phép huấn luyện các mô hình lớn tiết kiệm chi phí, san bằng sân chơi cho các đội nhỏ hơn.

Các biện pháp kiểm soát xuất khẩu của Mỹ đã thúc đẩy một làn sóng ứng biến trong toàn ngành AI Trung Quốc.¹¹ Bị từ chối tiếp cận các GPU NVIDIA tiên tiến nhất, các nhà nghiên cứu Trung Quốc đã phát triển các kỹ thuật để đạt được kết quả cạnh tranh với phần cứng có sẵn. Hạn chế trở thành chất xúc tác. DeepSeek đã làm kinh ngạc các nhà quan sát toàn cầu với một mô hình cạnh tranh với khả năng GPT-4 ở một phần nhỏ chi phí và tính toán.

Các hệ quả về hạ tầng mở rộng ra ngoài chi phí huấn luyện. Nếu chi phí suy luận theo các đường cong hiệu quả tương tự, các nhà cung cấp đám mây có thể giảm chi tiêu vốn từ 80-100 tỷ USD hàng năm xuống 65-85 tỷ USD cho mỗi nhà cung cấp dịch vụ đám mây.¹² Sự giảm này sẽ ảnh hưởng đến tất cả mọi người từ các nhà sản xuất chip đến các nhà vận hành trung tâm dữ liệu đến các nhà cung cấp điện.

Qwen và hệ sinh thái mô hình Trung Quốc

Các mô hình Qwen của Alibaba mang lại hiệu quả chuyển đổi trực tiếp thành kinh tế doanh nghiệp. Qwen 2.5-Max có giá khoảng 0,38 USD mỗi triệu token, rẻ hơn đáng kể so với các mô hình phương Tây cạnh tranh trong khi sánh ngang hoặc vượt trội về hiệu suất trên một số điểm chuẩn.¹³ Đối với các doanh nghiệp xử lý hàng tỷ token hàng tháng, sự khác biệt về chi phí quyết định lợi nhuận.

CEO Airbnb Brian Chesky cho biết công ty ưu tiên Qwen của Alibaba vì nó "nhanh và rẻ."¹⁴ Bộ Kinh tế Nhật Bản đã chọn Qwen thay vì các lựa chọn của Mỹ cho một số ứng dụng nhất định.¹⁵ LVMH đã hợp tác với Alibaba để tận dụng Qwen và Model Studio cho các hoạt động bán lẻ số tại Trung Quốc.¹⁶ Việc áp dụng mở rộng ra ngoài các startup quan tâm đến chi phí đến các doanh nghiệp lớn với ngân sách AI đáng kể.

Qwen 3 đại diện cho một trong những dòng mô hình mã nguồn mở toàn diện nhất được phát hành trong năm 2025. Dòng sản phẩm trải dài từ 0,5 tỷ đến 110 tỷ tham số, bao gồm cả mô hình dày đặc và thưa thớt.¹⁷ Phương pháp hoạt động kép thông qua các chế độ "Thinking" và "Non-Thinking" chuyển đổi động dựa trên độ phức tạp của nhiệm vụ, phân bổ tính toán nơi cần thiết và tiết kiệm tài nguyên ở những nơi khác.

Baichuan định vị mình là mô hình Trung Quốc hàng đầu cho các ứng dụng chuyên biệt theo lĩnh vực. Được xây dựng với trọng tâm vào luật, tài chính, y học và văn học cổ điển Trung Quốc, nó mang lại hiệu suất trong các nhiệm vụ có sắc thái ngôn ngữ và văn hóa.¹⁸ Thông qua mã hóa vị trí ALiBi, Baichuan hỗ trợ xử lý ngữ cảnh dài hơn với suy luận hiệu quả. Các biến thể lượng tử hóa ở int8 và int4 đảm bảo triển khai trên các GPU cấp tiêu dùng chi phí thấp hơn.¹⁹

Tác động đến đầu tư hạ tầng phương Tây

Phản ứng của Wall Street cho thấy sự không chắc chắn thực sự. Jefferies cảnh báo rằng phương pháp của DeepSeek "chọc thủng một phần sự hưng phấn chi tiêu vốn" sau các cam kết chi tiêu từ Meta và Microsoft vượt quá 60 tỷ USD mỗi bên.²⁰ Goldman Sachs gợi ý rằng sự phát triển này có thể định hình lại cạnh tranh bằng cách hạ thấp rào cản gia nhập.²¹ Nasdaq composite giảm 3,1% trong khi S&P 500 giảm 1,5%.²²

Kịch bản lạc quan viện dẫn nghịch lý Jevon: cải tiến hiệu quả dẫn đến suy luận rẻ hơn, thúc đẩy việc áp dụng AI nhiều hơn, cuối cùng thúc đẩy nhu cầu cao hơn về hạ tầng.²³ Chi phí thấp hơn cho phép các ứng dụng trước đây không kinh tế. Nhiều ứng dụng hơn có nghĩa là nhiều suy luận hơn. Nhiều suy luận hơn cuối cùng có nghĩa là nhiều phần cứng hơn, chỉ được triển khai hiệu quả hơn.

Kịch bản trung bình gợi ý chi phí huấn luyện AI duy trì ổn định trong khi chi tiêu hạ tầng suy luận giảm 30-50%.²⁴ Các nhà cung cấp đám mây sẽ giảm chi tiêu vốn trong khi nắm bắt khối lượng công việc AI tương tự hoặc lớn hơn. Các cải tiến hiệu quả sẽ chảy đến người dùng dưới dạng giá thấp hơn thay vì đến các nhà cung cấp hạ tầng dưới dạng biên lợi nhuận.

Sự chậm lại trong chi tiêu hạ tầng AI có thể tạm thời ảnh hưởng đến các nhà sản xuất chip và nhà cung cấp phần cứng.²⁵ Tuy nhiên, các cải tiến hiệu quả từ tối ưu hóa mô hình và giảm chi phí có thể dẫn đến việc áp dụng AI thậm chí lớn hơn trong dài hạn, cuối cùng thúc đẩy nhu cầu cao hơn về phần cứng AI. Thời điểm quan trọng: đau ngắn hạn có thể đi trước lợi ích dài hạn.

Hệ quả chiến lược cho quy hoạch hạ tầng

Ngành công nghiệp dường như đang chuyển hướng khỏi việc huấn luyện các mô hình ngôn ngữ lớn khổng lồ cho các trường hợp sử dụng tổng quát.²⁶ Các mô hình nhỏ hơn được tinh chỉnh và tùy chỉnh cho các trường hợp sử dụng cụ thể ngày càng thay thế các mô hình tiên phong đa mục đích cho nhiều ứng dụng. Sự thay đổi ưu tiên suy luận hiệu quả ở quy mô lớn hơn các lần huấn luyện khổng lồ.

Sự xuất hiện của DeepSeek làm nổi bật sự chuyển đổi toàn ngành ngày càng tăng từ mở rộng quy mô thô bạo sang tối ưu hóa thông minh.²⁷ Các công ty hàng đầu bao gồm OpenAI và Google đối mặt với áp lực khám phá các cải tiến hiệu quả khi việc áp dụng AI mở rộng toàn cầu. Áp lực cạnh tranh có lợi cho người dùng trong khi có thể giảm biên lợi nhuận của nhà cung cấp hạ tầng.

Các tổ chức lập kế hoạch hạ tầng AI nên xem xét các xu hướng hiệu quả. Các mô hình hoạt động tương đương với chi phí tính toán thấp hơn thách thức các giả định về yêu cầu công suất. Sự phân biệt giữa hạ tầng huấn luyện (vẫn tốn nhiều tính toán) và hạ tầng suy luận (ngày càng hiệu quả) có thể mở rộng. Xây dựng quá mức công suất suy luận dựa trên các mô hình sử dụng hiện tại có thể để các tổ chức với công suất dư thừa khi hiệu quả cải thiện.

Các mô hình Trung Quốc cũng tạo ra các quyết định triển khai. Nhiều doanh nghiệp hiện có thể truy cập khả năng AI Trung Quốc thông qua các nhà cung cấp đám mây phương Tây, kết hợp hạ tầng quen thuộc với các mô hình hiệu quả. Các mối quan ngại về chủ quyền, yêu cầu quy định và cân nhắc cạnh tranh đều là yếu tố trong việc có nên áp dụng các mô hình Trung Quốc bất chấp lợi thế hiệu quả của chúng hay không.

Nền kinh tế hạ tầng AI có vẻ đã ổn định vào năm 2024, nơi quy mô tính toán quyết định khả năng, hiện đối mặt với các câu hỏi cơ bản. DeepSeek đã chứng minh rằng kỹ thuật thông minh có thể thay thế cho tính toán thô. Qwen đã chứng minh rằng hiệu quả mã nguồn mở có thể cạnh tranh với quy mô độc quyền. Các tổ chức xây dựng chiến lược AI xung quanh công suất tính toán không giới hạn bây giờ phải tính đến các lựa chọn ưu tiên hiệu quả thách thức các giả định của họ về những gì hạ tầng AI yêu cầu.

Những điểm chính

Đối với các chiến lược gia hạ tầng: - DeepSeek huấn luyện R1 với 5,6 triệu USD với 2.000 GPU H800 so với 80-100 triệu USD và 16.000 H100 cho các mô hình phương Tây tương đương - Kiến trúc MoE giảm chi phí tính toán 30% so với mô hình dày đặc; cải tiến hiệu quả đến từ thiết kế phối hợp phần mềm-phần cứng - Các mô hình mã nguồn mở Trung Quốc tăng từ 1,2% lên 30% mức sử dụng toàn cầu trong năm 2025; Alibaba báo cáo hơn 170.000 mô hình phái sinh Qwen

Đối với các đội AI doanh nghiệp: - Qwen 2.5-Max có giá ~0,38 USD/triệu token—rẻ hơn đáng kể so với các lựa chọn phương Tây ở hiệu suất tương đương - CEO Airbnb dẫn lý do ưu tiên Qwen của Alibaba vì nó "nhanh và rẻ"; Bộ Kinh tế Nhật Bản đã chọn Qwen thay vì các lựa chọn của Mỹ - AWS, Azure và GCP hiện cung cấp triển khai DeepSeek; việc áp dụng doanh nghiệp trải rộng HSBC, Standard Chartered, Saudi Aramco

Đối với lập kế hoạch tài chính: - Nếu hiệu quả suy luận theo các mô hình huấn luyện, các nhà cung cấp đám mây có thể giảm CapEx từ 80-100 tỷ USD xuống 65-85 tỷ USD hàng năm - NVIDIA mất 589 tỷ USD vốn hóa thị trường trong một ngày khi thông báo DeepSeek; Nasdaq giảm 3,1%, S&P 500 giảm 1,5% - Jefferies: DeepSeek "chọc thủng sự hưng phấn capex" sau cam kết chi tiêu hơn 60 tỷ USD mỗi bên của Meta và Microsoft

Đối với các nhà lập kế hoạch công suất: - Ngành công nghiệp chuyển hướng từ các LLM tổng quát khổng lồ sang các mô hình nhỏ hơn được tinh chỉnh cho các trường hợp sử dụng cụ thể - Hạ tầng huấn luyện vẫn tốn nhiều tính toán; hạ tầng suy luận ngày càng hiệu quả—lập kế hoạch khác nhau - Xây dựng quá mức công suất suy luận dựa trên các mô hình hiện tại có nguy cơ tài sản bị mắc kẹt khi hiệu quả cải thiện

Đối với lập kế hoạch chiến lược: - Các biện pháp kiểm soát xuất khẩu thúc đẩy ứng biến; hạn chế trở thành chất xúc tác cho đổi mới hiệu quả - Kịch bản nghịch lý Jevon: hiệu quả cho phép nhiều ứng dụng hơn, cuối cùng thúc đẩy nhu cầu phần cứng cao hơn - Các tổ chức phải tính đến các lựa chọn ưu tiên hiệu quả khi lập kế hoạch yêu cầu hạ tầng


Tài liệu tham khảo

  1. Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?" 2025. https://www.bain.com/insights/deepseek-a-game-changer-in-ai-efficiency/

  2. Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"

  3. TechCrunch. "DeepSeek 'punctures' AI leaders' spending plans, and what analysts are saying." January 27, 2025. https://techcrunch.com/2025/01/27/deepseek-punctures-tech-spending-plans-and-what-analysts-are-saying/

  4. Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models." December 9, 2025. https://www.gizmochina.com/2025/12/09/why-u-s-startups-are-dumping-western-ai-for-chinas-open-source-models/

  5. Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)." September 2025. https://intuitionlabs.ai/articles/chinese-open-source-llms-2025

  6. iKangai. "The Enterprise AI Shift: How Chinese Models Are Challenging Silicon Valley's Dominance." 2025. https://www.ikangai.com/the-enterprise-ai-shift-how-chinese-models-are-challenging-silicon-valleys-dominance/

  7. iKangai. "The Enterprise AI Shift."

  8. Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"

  9. IDC Blog. "DeepSeek's AI Innovation: A Shift in AI Model Efficiency and Cost Structure." January 31, 2025. https://blogs.idc.com/2025/01/31/deepseeks-ai-innovation-a-shift-in-ai-model-efficiency-and-cost-structure/

  10. Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models."

  11. World Economic Forum. "Why China's AI breakthroughs should come as no surprise." June 2025. https://www.weforum.org/stories/2025/06/china-ai-breakthroughs-no-surprise/

  12. Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"

  13. Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models."

  14. Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models."

  15. Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models."

  16. Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)."

  17. Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)."

  18. Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)."

  19. Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)."

  20. TechCrunch. "DeepSeek 'punctures' AI leaders' spending plans."

  21. TechCrunch. "DeepSeek 'punctures' AI leaders' spending plans."

  22. TechCrunch. "DeepSeek 'punctures' AI leaders' spending plans."

  23. Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"

  24. Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"

  25. IDC Blog. "DeepSeek's AI Innovation."

  26. IDC Blog. "DeepSeek's AI Innovation."

  27. IDC Blog. "DeepSeek's AI Innovation."

Yêu cầu báo giá_

Hãy cho chúng tôi biết về dự án của bạn và chúng tôi sẽ phản hồi trong vòng 72 giờ.

> TRUYỀN_TẢI_HOÀN_TẤT

Đã Nhận Yêu cầu_

Cảm ơn bạn đã gửi yêu cầu. Đội ngũ của chúng tôi sẽ xem xét và phản hồi trong vòng 72 giờ.

ĐANG XẾP HÀNG XỬ LÝ