MiroThinker: Chiều Mở Rộng Thứ Ba cho Tác Nhân AI

MiroThinker giới thiệu mở rộng tương tác—huấn luyện tác nhân xử lý 600 lệnh gọi công cụ mỗi tác vụ. 81,9% trên benchmark GAIA. Một chiều mới vượt ra ngoài kích thước mô hình và ngữ cảnh.

MiroThinker: Chiều Mở Rộng Thứ Ba cho Tác Nhân AI

MiroThinker: Chiều Mở Rộng Thứ Ba cho Tác Nhân AI

Mở rộng AI đã tập trung vào hai chiều: kích thước mô hình và độ dài ngữ cảnh.[^1] MiroThinker giới thiệu chiều thứ ba: độ sâu tương tác. Tác nhân nghiên cứu này, được phát hành với các biến thể tham số 8B, 30B và 72B, huấn luyện mô hình xử lý tới 600 lệnh gọi công cụ mỗi tác vụ thông qua học tăng cường.[^2] Trên benchmark GAIA, biến thể 72B đạt độ chính xác 81,9%, tiến gần các hệ thống thương mại như GPT-5-high trong khi vẫn hoàn toàn mã nguồn mở.[^3]

TL;DR

MiroThinker khám phá "mở rộng tương tác" ở cấp độ mô hình, huấn luyện có hệ thống các mô hình để xử lý tương tác tác nhân-môi trường sâu hơn và thường xuyên hơn.[^4] Khác với mở rộng thời gian kiểm tra cô lập, mở rộng tương tác sử dụng phản hồi môi trường để sửa lỗi và tinh chỉnh quỹ đạo.[^5] Với cửa sổ ngữ cảnh 256K, tác nhân thực hiện tới 600 lệnh gọi công cụ mỗi tác vụ, cho phép lập luận đa lượt bền vững cho quy trình nghiên cứu phức tạp.[^6]

Vấn Đề Mở Rộng Tác Nhân

Các tác nhân AI hiện tại đối mặt với hạn chế cơ bản. Khi chuỗi lập luận mở rộng, lỗi tích lũy.[^9] Một sai lầm sớm trong quỹ đạo có thể làm hỏng toàn bộ tác vụ. Các phương pháp truyền thống giải quyết điều này thông qua:

Mô Hình Lớn Hơn: Nhiều tham số hơn cho độ chính xác bước đơn tốt hơn[^10] Ngữ Cảnh Dài Hơn: Nhiều không gian hơn để lưu lịch sử lập luận[^11] Prompt Tốt Hơn: Hướng dẫn cải thiện để giảm lỗi[^12]

Tuy nhiên, những can thiệp này không giải quyết vấn đề cốt lõi: tác nhân hoạt động cô lập khỏi môi trường trong lập luận mở rộng.

Trôi Dạt Lập Luận

Chuỗi lập luận dài không có phản hồi môi trường thể hiện "trôi dạt lập luận"—sự lệch dần khỏi quỹ đạo đúng.[^13] Tác nhân tiếp tục lập luận dựa trên các giả định ngày càng lỗi thời hoặc sai.

Độ Dài Chuỗi Tỷ Lệ Lỗi Nguyên Nhân
Ngắn (1-5 bước) Thấp Lỗi ghép hạn chế
Trung bình (5-20 bước) Vừa Lỗi tích lũy
Dài (20+ bước) Cao Trôi dạt lập luận chiếm ưu thế

Giải Pháp Phản Hồi

Hiểu biết của MiroThinker: để môi trường sửa tác nhân liên tục.[^14] Thay vì lập luận cô lập, tác nhân kiểm tra công việc bằng cách tương tác với công cụ bên ngoài, bắt lỗi trước khi chúng tích lũy.

Định Nghĩa Mở Rộng Tương Tác

Mở rộng tương tác coi độ sâu tương tác tác nhân-môi trường như một chiều có thể mở rộng tương tự kích thước mô hình hoặc độ dài ngữ cảnh.[^15]

Ba Chiều

Chiều Mở Rộng Gì Giúp Như Thế Nào
Kích Thước Mô Hình Tham số Chất lượng bước đơn tốt hơn
Độ Dài Ngữ Cảnh Cửa sổ token Nhiều thông tin có sẵn hơn
Độ Sâu Tương Tác Lệnh gọi công cụ Sửa lỗi, căn cứ

Tại Sao Tương Tác Khác Biệt

Không giống kích thước mô hình (cố định khi huấn luyện) hoặc ngữ cảnh (lưu trữ thụ động), độ sâu tương tác cho phép xác minh chủ động và điều chỉnh hướng.[^16]

Mở Rộng Thụ Động: Mô hình và ngữ cảnh lớn hơn cung cấp nhiều dung lượng hơn Mở Rộng Chủ Động: Nhiều tương tác hơn cung cấp nhiều cơ hội hơn để kiểm tra, sửa và tinh chỉnh

Kiến Trúc MiroThinker

Tác nhân theo framework ReAct với các cải tiến cụ thể cho tương tác sâu:[^17]

Vòng Lặp Chính

Suy nghĩ → Hành động (Gọi Công cụ) → Quan sát → Suy nghĩ → ...

Mỗi quan sát phản hồi vào ngữ cảnh của tác nhân, thông báo cho lập luận tiếp theo.[^18]

Bộ Công Cụ

MiroThinker bao gồm bộ công cụ toàn diện:[^19]

Danh Mục Ví Dụ
Tìm Kiếm Web Xây dựng truy vấn, phân tích kết quả
Duyệt Web Điều hướng trang, trích xuất nội dung
Thực Thi Mã Runtime Python, phân tích kết quả
Thao Tác Tệp Đọc, ghi, phân tích tài liệu

600 Lệnh Gọi Công Cụ

Cửa sổ ngữ cảnh 256K hỗ trợ tới 600 lệnh gọi công cụ mỗi tác vụ.[^20] Để tham khảo, hầu hết benchmark tác nhân liên quan đến ít hơn 20 lệnh gọi công cụ. MiroThinker hoạt động ở 30 lần độ sâu tương tác điển hình.

Phương Pháp Huấn Luyện

Huấn luyện MiroThinker tiến hành trong ba giai đoạn:[^21]

Giai Đoạn 1: Tinh Chỉnh Có Giám Sát

Huấn luyện ban đầu trên quỹ đạo tác nhân thành công dạy các mẫu sử dụng công cụ cơ bản:[^22]

  • Khi nào tìm kiếm vs duyệt
  • Cách xây dựng truy vấn hiệu quả
  • Giải thích đầu ra công cụ
  • Tổng hợp thông tin đa nguồn

Giai Đoạn 2: Học Sở Thích

Mô hình học ưu tiên quỹ đạo thành công hơn thất bại:[^23]

  • Phản hồi nhị phân về kết quả quỹ đạo
  • Học ngầm về khôi phục lỗi
  • Ưu tiên chuỗi công cụ hiệu quả

Giai Đoạn 3: Học Tăng Cường

Tối Ưu Hóa Chính Sách Tương Đối Nhóm (GRPO) huấn luyện cho tương tác mở rộng:[^24]

  • Phần thưởng cho câu trả lời cuối cùng đúng
  • Gán tín dụng ngầm qua quỹ đạo dài
  • Học khi nào kiên trì vs chuyển đổi chiến lược

Mô Hình Cơ Sở

MiroThinker được xây dựng trên nền tảng trọng số mở:[^25]

Kích Thước Mô Hình Cơ Sở
8B Qwen2.5-8B
30B Qwen3-30B
72B Qwen2.5-72B

Hiệu Suất Benchmark

GAIA (Trợ Lý AI Tổng Quát)

GAIA kiểm tra các tác vụ trợ lý thực tế yêu cầu tìm kiếm web, lập luận và giải quyết vấn đề đa bước:[^26]

Mô Hình Độ Chính Xác
MiroThinker-72B 81,9%
GPT-5-high ~85% (ước tính)
SOTA mã nguồn mở trước ~65%

MiroThinker tiến gần hiệu suất thương mại trong khi vẫn hoàn toàn mở.

HLE (Kỳ Thi Cuối Cùng của Nhân Loại)

Câu hỏi cực kỳ thách thức qua các lĩnh vực đa dạng:[^27]

Mô Hình Độ Chính Xác
MiroThinker-72B 37,7%
Chuyên gia con người Thay đổi

BrowseComp

Duyệt web phức tạp và tổng hợp thông tin:[^28]

Mô Hình Độ Chính Xác
MiroThinker-72B (Tiếng Anh) 47,1%
MiroThinker-72B (Tiếng Trung) 55,6%

Hiệu suất tiếng Trung cho thấy chuyển giao đa ngôn ngữ mạnh mẽ.

Hành Vi Mở Rộng

Phát hiện quan trọng: hiệu suất cải thiện có thể dự đoán với độ sâu tương tác.[^29]

Khi MiroThinker tham gia nhiều lệnh gọi công cụ hơn: - Độ chính xác tăng (đến giới hạn phần cứng/ngữ cảnh) - Khôi phục lỗi trở nên hiệu quả hơn - Tác vụ phức tạp trở nên khả thi

Điều này chứng minh rằng độ sâu tương tác thể hiện hành vi mở rộng thực sự, không chỉ là lợi nhuận giảm dần.

Điểm Chính

MiroThinker thiết lập mở rộng tương tác như chiều thứ ba khả thi cho năng lực AI:

  1. Chiều Mới: Độ sâu tương tác mở rộng như kích thước mô hình và độ dài ngữ cảnh
  2. 600 Lệnh Gọi Công Cụ: Được huấn luyện cho 30 lần độ sâu tương tác tác nhân điển hình
  3. 81,9% GAIA: Tiến gần hiệu suất thương mại trong khi hoàn toàn mở
  4. Huấn Luyện Ba Giai Đoạn: Pipeline SFT → Học Sở Thích → RL
  5. Sửa Lỗi: Phản hồi môi trường ngăn trôi dạt lập luận
  6. Phát Hành Mở: Mô hình, mã và công thức huấn luyện đều có sẵn

Thế hệ tiếp theo của tác nhân AI có thể chứng minh năng lực không chỉ thông qua mô hình lớn hơn, mà thông qua sự tham gia sâu hơn với môi trường của họ.

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING