MiroThinker: Chiều Mở Rộng Thứ Ba cho Tác Nhân AI
Mở rộng AI đã tập trung vào hai chiều: kích thước mô hình và độ dài ngữ cảnh.[^1] MiroThinker giới thiệu chiều thứ ba: độ sâu tương tác. Tác nhân nghiên cứu này, được phát hành với các biến thể tham số 8B, 30B và 72B, huấn luyện mô hình xử lý tới 600 lệnh gọi công cụ mỗi tác vụ thông qua học tăng cường.[^2] Trên benchmark GAIA, biến thể 72B đạt độ chính xác 81,9%, tiến gần các hệ thống thương mại như GPT-5-high trong khi vẫn hoàn toàn mã nguồn mở.[^3]
TL;DR
MiroThinker khám phá "mở rộng tương tác" ở cấp độ mô hình, huấn luyện có hệ thống các mô hình để xử lý tương tác tác nhân-môi trường sâu hơn và thường xuyên hơn.[^4] Khác với mở rộng thời gian kiểm tra cô lập, mở rộng tương tác sử dụng phản hồi môi trường để sửa lỗi và tinh chỉnh quỹ đạo.[^5] Với cửa sổ ngữ cảnh 256K, tác nhân thực hiện tới 600 lệnh gọi công cụ mỗi tác vụ, cho phép lập luận đa lượt bền vững cho quy trình nghiên cứu phức tạp.[^6]
Vấn Đề Mở Rộng Tác Nhân
Các tác nhân AI hiện tại đối mặt với hạn chế cơ bản. Khi chuỗi lập luận mở rộng, lỗi tích lũy.[^9] Một sai lầm sớm trong quỹ đạo có thể làm hỏng toàn bộ tác vụ. Các phương pháp truyền thống giải quyết điều này thông qua:
Mô Hình Lớn Hơn: Nhiều tham số hơn cho độ chính xác bước đơn tốt hơn[^10] Ngữ Cảnh Dài Hơn: Nhiều không gian hơn để lưu lịch sử lập luận[^11] Prompt Tốt Hơn: Hướng dẫn cải thiện để giảm lỗi[^12]
Tuy nhiên, những can thiệp này không giải quyết vấn đề cốt lõi: tác nhân hoạt động cô lập khỏi môi trường trong lập luận mở rộng.
Trôi Dạt Lập Luận
Chuỗi lập luận dài không có phản hồi môi trường thể hiện "trôi dạt lập luận"—sự lệch dần khỏi quỹ đạo đúng.[^13] Tác nhân tiếp tục lập luận dựa trên các giả định ngày càng lỗi thời hoặc sai.
| Độ Dài Chuỗi | Tỷ Lệ Lỗi | Nguyên Nhân |
|---|---|---|
| Ngắn (1-5 bước) | Thấp | Lỗi ghép hạn chế |
| Trung bình (5-20 bước) | Vừa | Lỗi tích lũy |
| Dài (20+ bước) | Cao | Trôi dạt lập luận chiếm ưu thế |
Giải Pháp Phản Hồi
Hiểu biết của MiroThinker: để môi trường sửa tác nhân liên tục.[^14] Thay vì lập luận cô lập, tác nhân kiểm tra công việc bằng cách tương tác với công cụ bên ngoài, bắt lỗi trước khi chúng tích lũy.
Định Nghĩa Mở Rộng Tương Tác
Mở rộng tương tác coi độ sâu tương tác tác nhân-môi trường như một chiều có thể mở rộng tương tự kích thước mô hình hoặc độ dài ngữ cảnh.[^15]
Ba Chiều
| Chiều | Mở Rộng Gì | Giúp Như Thế Nào |
|---|---|---|
| Kích Thước Mô Hình | Tham số | Chất lượng bước đơn tốt hơn |
| Độ Dài Ngữ Cảnh | Cửa sổ token | Nhiều thông tin có sẵn hơn |
| Độ Sâu Tương Tác | Lệnh gọi công cụ | Sửa lỗi, căn cứ |
Tại Sao Tương Tác Khác Biệt
Không giống kích thước mô hình (cố định khi huấn luyện) hoặc ngữ cảnh (lưu trữ thụ động), độ sâu tương tác cho phép xác minh chủ động và điều chỉnh hướng.[^16]
Mở Rộng Thụ Động: Mô hình và ngữ cảnh lớn hơn cung cấp nhiều dung lượng hơn Mở Rộng Chủ Động: Nhiều tương tác hơn cung cấp nhiều cơ hội hơn để kiểm tra, sửa và tinh chỉnh
Kiến Trúc MiroThinker
Tác nhân theo framework ReAct với các cải tiến cụ thể cho tương tác sâu:[^17]
Vòng Lặp Chính
Suy nghĩ → Hành động (Gọi Công cụ) → Quan sát → Suy nghĩ → ...
Mỗi quan sát phản hồi vào ngữ cảnh của tác nhân, thông báo cho lập luận tiếp theo.[^18]
Bộ Công Cụ
MiroThinker bao gồm bộ công cụ toàn diện:[^19]
| Danh Mục | Ví Dụ |
|---|---|
| Tìm Kiếm Web | Xây dựng truy vấn, phân tích kết quả |
| Duyệt Web | Điều hướng trang, trích xuất nội dung |
| Thực Thi Mã | Runtime Python, phân tích kết quả |
| Thao Tác Tệp | Đọc, ghi, phân tích tài liệu |
600 Lệnh Gọi Công Cụ
Cửa sổ ngữ cảnh 256K hỗ trợ tới 600 lệnh gọi công cụ mỗi tác vụ.[^20] Để tham khảo, hầu hết benchmark tác nhân liên quan đến ít hơn 20 lệnh gọi công cụ. MiroThinker hoạt động ở 30 lần độ sâu tương tác điển hình.
Phương Pháp Huấn Luyện
Huấn luyện MiroThinker tiến hành trong ba giai đoạn:[^21]
Giai Đoạn 1: Tinh Chỉnh Có Giám Sát
Huấn luyện ban đầu trên quỹ đạo tác nhân thành công dạy các mẫu sử dụng công cụ cơ bản:[^22]
- Khi nào tìm kiếm vs duyệt
- Cách xây dựng truy vấn hiệu quả
- Giải thích đầu ra công cụ
- Tổng hợp thông tin đa nguồn
Giai Đoạn 2: Học Sở Thích
Mô hình học ưu tiên quỹ đạo thành công hơn thất bại:[^23]
- Phản hồi nhị phân về kết quả quỹ đạo
- Học ngầm về khôi phục lỗi
- Ưu tiên chuỗi công cụ hiệu quả
Giai Đoạn 3: Học Tăng Cường
Tối Ưu Hóa Chính Sách Tương Đối Nhóm (GRPO) huấn luyện cho tương tác mở rộng:[^24]
- Phần thưởng cho câu trả lời cuối cùng đúng
- Gán tín dụng ngầm qua quỹ đạo dài
- Học khi nào kiên trì vs chuyển đổi chiến lược
Mô Hình Cơ Sở
MiroThinker được xây dựng trên nền tảng trọng số mở:[^25]
| Kích Thước | Mô Hình Cơ Sở |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
Hiệu Suất Benchmark
GAIA (Trợ Lý AI Tổng Quát)
GAIA kiểm tra các tác vụ trợ lý thực tế yêu cầu tìm kiếm web, lập luận và giải quyết vấn đề đa bước:[^26]
| Mô Hình | Độ Chính Xác |
|---|---|
| MiroThinker-72B | 81,9% |
| GPT-5-high | ~85% (ước tính) |
| SOTA mã nguồn mở trước | ~65% |
MiroThinker tiến gần hiệu suất thương mại trong khi vẫn hoàn toàn mở.
HLE (Kỳ Thi Cuối Cùng của Nhân Loại)
Câu hỏi cực kỳ thách thức qua các lĩnh vực đa dạng:[^27]
| Mô Hình | Độ Chính Xác |
|---|---|
| MiroThinker-72B | 37,7% |
| Chuyên gia con người | Thay đổi |
BrowseComp
Duyệt web phức tạp và tổng hợp thông tin:[^28]
| Mô Hình | Độ Chính Xác |
|---|---|
| MiroThinker-72B (Tiếng Anh) | 47,1% |
| MiroThinker-72B (Tiếng Trung) | 55,6% |
Hiệu suất tiếng Trung cho thấy chuyển giao đa ngôn ngữ mạnh mẽ.
Hành Vi Mở Rộng
Phát hiện quan trọng: hiệu suất cải thiện có thể dự đoán với độ sâu tương tác.[^29]
Khi MiroThinker tham gia nhiều lệnh gọi công cụ hơn: - Độ chính xác tăng (đến giới hạn phần cứng/ngữ cảnh) - Khôi phục lỗi trở nên hiệu quả hơn - Tác vụ phức tạp trở nên khả thi
Điều này chứng minh rằng độ sâu tương tác thể hiện hành vi mở rộng thực sự, không chỉ là lợi nhuận giảm dần.
Điểm Chính
MiroThinker thiết lập mở rộng tương tác như chiều thứ ba khả thi cho năng lực AI:
- Chiều Mới: Độ sâu tương tác mở rộng như kích thước mô hình và độ dài ngữ cảnh
- 600 Lệnh Gọi Công Cụ: Được huấn luyện cho 30 lần độ sâu tương tác tác nhân điển hình
- 81,9% GAIA: Tiến gần hiệu suất thương mại trong khi hoàn toàn mở
- Huấn Luyện Ba Giai Đoạn: Pipeline SFT → Học Sở Thích → RL
- Sửa Lỗi: Phản hồi môi trường ngăn trôi dạt lập luận
- Phát Hành Mở: Mô hình, mã và công thức huấn luyện đều có sẵn
Thế hệ tiếp theo của tác nhân AI có thể chứng minh năng lực không chỉ thông qua mô hình lớn hơn, mà thông qua sự tham gia sâu hơn với môi trường của họ.