Mở Rộng Quy Mô Tại Thời Điểm Suy Luận: Biên Giới Huấn Luyện Mới Cho Khả Năng Suy Luận AI

Tính toán tại thời điểm kiểm thử nổi lên như biên giới mở rộng quy mô AI tiếp theo. ThreadWeaver đạt tăng tốc 1.5 lần. P1 giành huy chương vàng Olympic vật lý. DeepSeek-R1 đạt ngang o1 với chi phí thấp hơn 70%. Các hệ quả về hạ tầng.

Mở Rộng Quy Mô Tại Thời Điểm Suy Luận: Biên Giới Huấn Luyện Mới Cho Khả Năng Suy Luận AI

Mở Rộng Quy Mô Tại Thời Điểm Suy Luận: Biên Giới Huấn Luyện Mới Cho Khả Năng Suy Luận AI

Ngày 12 tháng 12 năm 2025

Cập nhật tháng 12 năm 2025: Mở rộng quy mô tại thời điểm suy luận đã nổi lên như biên giới nghiên cứu chủ đạo trong khả năng suy luận AI. ThreadWeaver đạt giảm 1.5 lần độ trễ trong khi vẫn duy trì độ chính xác. P1 trở thành mô hình mã nguồn mở đầu tiên giành huy chương vàng Olympic vật lý thông qua RL và các tác tử thời điểm kiểm thử. DeepSeek-R1 đạt ngang OpenAI o1 với chi phí thấp hơn 70%. Các nhà phân tích dự đoán suy luận sẽ chiếm 75% tổng tính toán AI vào năm 2030.


Tóm Tắt

Mô hình mở rộng quy mô AI đã thay đổi. Thay vì huấn luyện các mô hình lớn hơn, các nhà nghiên cứu hiện đạt được khả năng suy luận hàng đầu bằng cách chi tiêu nhiều tính toán hơn tại thời điểm suy luận. Nhận định cốt lõi: cho phép các mô hình "suy nghĩ lâu hơn" thông qua chuỗi suy nghĩ mở rộng tạo ra khả năng suy luận mà chỉ huấn luyện không thể đạt được. DeepSeek-R1 đã chứng minh điều này ở quy mô lớn, đạt ngang o1 bằng cách tạo ra nhiều token hơn 10-100 lần cho mỗi truy vấn. ThreadWeaver song song hóa quá trình suy luận này để giảm độ trễ. P1 kết hợp huấn luyện RL với các tác tử thời điểm kiểm thử để đạt huy chương vàng Olympic vật lý. Về hạ tầng, nhu cầu suy luận sẽ vượt nhu cầu huấn luyện 118 lần vào năm 2026, định hình lại việc mua sắm GPU hướng tới phần cứng tối ưu cho suy luận.


Điều Gì Đã Xảy Ra

Ba đột phá nghiên cứu chứng minh sự trưởng thành của mở rộng quy mô tại thời điểm suy luận:

DeepSeek-R1 (Tháng 1 năm 2025): DeepSeek phát hành R1, chứng minh rằng học tăng cường thuần túy có thể tạo ra khả năng suy luận ngang bằng OpenAI o1. Mô hình cải thiện độ chính xác benchmark AIME từ 15.6% lên 71% thông qua suy luận chuỗi suy nghĩ mở rộng, đạt 86.7% với bỏ phiếu đa số.1

Mô hình Vật lý P1 (Tháng 11 năm 2025): Các nhà nghiên cứu phát hành P1, họ mô hình mã nguồn mở đầu tiên đạt hiệu suất huy chương vàng tại Olympic Vật lý Quốc tế (IPhO 2025). P1-235B-A22B đạt 21.2/30 điểm, xếp thứ ba chỉ sau Gemini-2.5-Pro và GPT-5.2

ThreadWeaver (2025): ThreadWeaver giới thiệu suy luận song song, đạt tăng tốc trung bình 1.53 lần về độ trễ token trong khi vẫn duy trì độ chính xác suy luận tuần tự. Phương pháp này cho phép khám phá đồng thời các đường suy luận thay vì chuỗi suy nghĩ tuần tự.3


Tại Sao Điều Này Quan Trọng Cho Hạ Tầng

Mô Hình Tư Duy: Mở rộng quy mô truyền thống đầu tư tính toán tại thời điểm huấn luyện (mô hình lớn hơn, nhiều dữ liệu hơn). Mở rộng quy mô tại thời điểm suy luận đầu tư tính toán tại thời điểm truy vấn (chuỗi suy luận dài hơn, nhiều lần thử, tự xác minh). Một mô hình 7B tham số với 100 lần tính toán suy luận có thể ngang bằng mô hình 70B với suy luận tiêu chuẩn. Các hệ quả hạ tầng rất sâu sắc: các cụm suy luận quan trọng hơn các cụm huấn luyện.

Suy Luận Trở Thành Nút Thắt Cổ Chai: Các nhà phân tích dự đoán suy luận sẽ vượt nhu cầu tính toán huấn luyện 118 lần vào năm 2026. Đến năm 2030, suy luận có thể chiếm 75% tổng tính toán AI, thúc đẩy 7 nghìn tỷ đô la đầu tư hạ tầng.4

Mô Hình Suy Luận Tiêu Thụ Nhiều Token Hơn: DeepSeek-R1, o1 và o3-mini tạo ra "nhiều hơn hàng bậc độ lớn token" so với các mô hình không suy luận. Chi tiêu suy luận năm 2024 của OpenAI đạt 2.3 tỷ đô la: gấp 15 lần chi phí huấn luyện cho GPT-4.5

Nhu Cầu Hạ Tầng GPU Tăng Vọt: Jensen Huang tuyên bố các mô hình suy luận thế hệ tiếp theo đòi hỏi "lên đến 100 lần nhiều tài nguyên tính toán hơn."6 Thị trường suy luận AI tăng từ 106 tỷ đô la (2025) lên 255 tỷ đô la (2030) với CAGR 19.2%.

Độ Trễ Lại Quan Trọng: Suy luận song song của ThreadWeaver giải quyết một ràng buộc quan trọng. Độ trễ suy luận tuần tự tăng tỷ lệ với độ dài chuỗi. Đối với các ứng dụng thời gian thực, tốc độ suy luận trở thành lợi thế cạnh tranh.


Chi Tiết Kỹ Thuật

Phương Pháp DeepSeek-R1

DeepSeek-R1-Zero huấn luyện suy luận thông qua RL thuần túy sử dụng Group Relative Policy Optimization (GRPO):7

Thành phần Chi tiết
Phương pháp Huấn luyện RL thuần túy, không fine-tuning có giám sát
Thuật toán GRPO (biến thể của PPO không có hàm giá trị)
Nhận định Chính CoT mở rộng tại suy luận tạo ra khả năng suy luận
Hiệu suất AIME 15.6% → 71% (86.7% với bỏ phiếu đa số)
Lợi thế Chi phí Chi phí suy luận thấp hơn 70% so với các mô hình tương đương

Đáng chú ý, DeepSeek phân loại rõ ràng các phương pháp như Process Reward Models và Monte Carlo Tree Search là "các nỗ lực không thành công." Phát hiện này gợi ý rằng RL thuần túy với phản hồi dài hơn đóng vai trò như mở rộng quy mô tại thời điểm suy luận ngầm định.8

Suy Luận Song Song ThreadWeaver

ThreadWeaver cho phép các đường suy luận đồng thời thay vì chuỗi suy nghĩ tuần tự:9

Đổi mới Mô tả
Bộ Tạo Quỹ đạo Song song Tạo dữ liệu CoT với chú thích song song
Thiết kế Đồng bộ Dựa trên Trie Cho phép suy luận song song mà không sửa đổi embedding vị trí
Thuật toán P-GRPO Tối ưu đồng thời độ chính xác và giảm độ trễ

Hiệu suất trên Qwen3-8B base:

Benchmark ThreadWeaver Tuần tự Tăng tốc
AIME24 79.9% 78.3% 1.14x
AMC23 1.16x
MATH500 1.23x
OlympiadBench 1.21x
Minerva Math 1.53x

Mô Hình Vật Lý P1

P1 kết hợp mở rộng quy mô thời điểm huấn luyện và thời điểm kiểm thử:10

Thời điểm Huấn luyện (RL Post-Training): - Khung RL đa giai đoạn trên các mô hình ngôn ngữ cơ sở - Tăng cường suy luận tiến bộ - Giải quyết tính thưa thớt phần thưởng và sụp đổ entropy

Thời điểm Kiểm thử (Tác tử PhysicsMinions): - Visual Studio: Phân tích hình ảnh - Logic Studio: Suy luận logic - Review Studio: Xác minh giải pháp - Phản ánh và tự sửa chữa đa lượt

Kết quả trên IPhO 2025:

Mô hình Điểm Xếp hạng
Gemini-2.5-Pro 37.7
GPT-5 37.4
P1-235B + PhysicsMinions 38.4 Thứ 1
P1-235B-A22B (độc lập) 21.2/30 Vàng

Dự Báo Tính Toán Suy Luận

Chỉ số Giá trị Nguồn
Thị trường Suy luận 2025 106 tỷ đô la MarketsandMarkets
Thị trường Suy luận 2030 255 tỷ đô la MarketsandMarkets
Thị trường Chip Suy luận 2027 102 tỷ đô la Reuters
Tỷ lệ Suy luận trong Tính toán AI (2030) 75% Phân tích ngành
Nhu cầu Huấn luyện vs Suy luận (2026) 1:118 Ước tính nhà phân tích
Tăng trưởng Tính toán AI Toàn cầu (2025-2027) 10x Dự báo AI 2027

Hệ Quả Chính Sách và Quy Định

Các quy định hiện hành sử dụng ngưỡng tính toán huấn luyện (ví dụ: 10^25 FLOPs của EU AI Act). Tuy nhiên, mở rộng quy mô tại thời điểm suy luận thay đổi phép tính:11

  • Các mô hình có thể đạt khả năng cao thông qua tính toán suy luận, không chỉ huấn luyện
  • Một mô hình được huấn luyện nhỏ hơn với suy luận thời điểm kiểm thử mở rộng có thể vượt khả năng của mô hình ngưỡng
  • Các nhà hoạch định chính sách có nguy cơ "đánh giá thấp tác động thực tế của mô hình" bằng cách chỉ tập trung vào tính toán huấn luyện

Tiếp Theo Là Gì

2026: Nhu cầu suy luận được dự đoán vượt huấn luyện 118 lần. Quy hoạch trung tâm dữ liệu chuyển hướng sang kiến trúc tối ưu cho suy luận.

2027: Tính toán liên quan đến AI toàn cầu được dự đoán đạt 100 triệu H100-tương đương (tăng 10 lần từ tháng 3 năm 2025).12

Đang diễn ra: Nghiên cứu tiếp tục về suy luận song song (ThreadWeaver), hệ thống đa tác tử (PhysicsMinions) và suy luận dựa trên RL (DeepSeek, P1).

Chuyển đổi Hạ tầng: Hạ tầng suy luận chuyên dụng (NVIDIA Blackwell, TPU v5e, Groq LPUs) trở thành danh mục tính toán chủ đạo.


Những Điểm Chính

Cho các nhà quy hoạch hạ tầng: - Suy luận được dự đoán chiếm 75% tính toán AI vào năm 2030 - Các mô hình suy luận tiêu thụ nhiều token hơn 10-100 lần so với mô hình tiêu chuẩn - Tối ưu độ trễ (song song kiểu ThreadWeaver) tạo yêu cầu phần cứng - Lên kế hoạch cho khối lượng công việc nặng suy luận trong mô hình công suất

Cho các đội vận hành: - NVIDIA Blackwell được tối ưu cho suy luận quy mô lớn (1.4 exaFLOPS mỗi rack) - Giám sát chi phí suy luận, có thể vượt chi phí huấn luyện 15 lần (theo OpenAI 2024) - Điều chỉnh tính toán thời điểm kiểm thử ảnh hưởng đến đánh đổi độ trễ và chi phí - Các khung tác tử (PhysicsMinions) thêm chi phí suy luận đa lượt

Cho hoạch định chiến lược: - Tỷ lệ tính toán huấn luyện vs suy luận đang thay đổi đáng kể - Mô hình nhỏ hơn + suy luận nặng có thể ngang bằng mô hình được huấn luyện lớn hơn - DeepSeek-R1 chứng minh lợi thế chi phí 70% thông qua hiệu quả - Các khung chính sách có thể mở rộng ra ngoài ngưỡng tính toán huấn luyện


Tài Liệu Tham Khảo


Để biết thêm về hạ tầng GPU hỗ trợ khối lượng công việc AI chuyên sâu suy luận, liên hệ Introl.


  1. HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. 

  2. arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." November 2025. 

  3. ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. 

  4. WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. 

  5. Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. 

  6. NVIDIA. "AI Inference Solutions." 2025. 

  7. Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. 

  8. DeepSeek. "DeepSeek-R1 Technical Report." January 2025. 

  9. ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. 

  10. GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. 

  11. Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. 

  12. AI 2027. "Compute Forecast." 2025. 

  13. MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. 

  14. NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. 

  15. arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. 

  16. Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. 

Yêu cầu báo giá_

Hãy cho chúng tôi biết về dự án của bạn và chúng tôi sẽ phản hồi trong vòng 72 giờ.

> TRUYỀN_TẢI_HOÀN_TẤT

Đã Nhận Yêu cầu_

Cảm ơn bạn đã gửi yêu cầu. Đội ngũ của chúng tôi sẽ xem xét và phản hồi trong vòng 72 giờ.

ĐANG XẾP HÀNG XỬ LÝ