MiroThinker: มิติการขยายขนาดที่สามสำหรับตัวแทน AI
การขยายขนาด AI มุ่งเน้นที่สองมิติ: ขนาดโมเดลและความยาวบริบท[^1] MiroThinker แนะนำมิติที่สาม: ความลึกของการโต้ตอบ ตัวแทนวิจัยนี้เผยแพร่พร้อมรุ่น 8B, 30B และ 72B พารามิเตอร์ ฝึกโมเดลให้จัดการการเรียกเครื่องมือสูงสุด 600 ครั้งต่องานผ่านการเรียนรู้เสริมแรง[^2] บน GAIA benchmark รุ่น 72B บรรลุความแม่นยำ 81.9% ใกล้เคียงระบบเชิงพาณิชย์อย่าง GPT-5-high ในขณะที่ยังคงเป็นโอเพ่นซอร์สอย่างเต็มรูปแบบ[^3]
TL;DR
MiroThinker สำรวจ "การขยายการโต้ตอบ" ในระดับโมเดล ฝึกโมเดลอย่างเป็นระบบให้จัดการการโต้ตอบระหว่างตัวแทนและสภาพแวดล้อมที่ลึกและบ่อยขึ้น[^4] ต่างจากการขยายเวลาทดสอบแบบแยกส่วน การขยายการโต้ตอบใช้ข้อเสนอแนะจากสภาพแวดล้อมเพื่อแก้ไขข้อผิดพลาดและปรับปรุงวิถี[^5] ด้วยหน้าต่างบริบท 256K ตัวแทนดำเนินการเรียกเครื่องมือสูงสุด 600 ครั้งต่องาน ทำให้การใช้เหตุผลหลายรอบต่อเนื่องสำหรับเวิร์กโฟลว์การวิจัยที่ซับซ้อน[^6]
ปัญหาการขยายขนาดตัวแทน
ตัวแทน AI ปัจจุบันเผชิญข้อจำกัดพื้นฐาน เมื่อสายโซ่การใช้เหตุผลยาวขึ้น ข้อผิดพลาดจะสะสม[^9] ความผิดพลาดเพียงครั้งเดียวในช่วงต้นของวิถีสามารถทำให้งานทั้งหมดล้มเหลว แนวทางดั้งเดิมแก้ไขสิ่งนี้ผ่าน:
โมเดลที่ใหญ่กว่า: พารามิเตอร์มากขึ้นสำหรับความแม่นยำต่อขั้นตอนที่ดีกว่า[^10] บริบทที่ยาวกว่า: พื้นที่มากขึ้นสำหรับเก็บประวัติการใช้เหตุผล[^11] การกำหนดที่ดีกว่า: คำแนะนำที่ปรับปรุงเพื่อลดข้อผิดพลาด[^12]
อย่างไรก็ตาม การแทรกแซงเหล่านี้ไม่ได้แก้ไขปัญหาหลัก: ตัวแทนที่ทำงานแยกจากสภาพแวดล้อมระหว่างการใช้เหตุผลที่ยาวนาน
การเบี่ยงเบนการใช้เหตุผล
สายโซ่การใช้เหตุผลยาวโดยไม่มีข้อเสนอแนะจากสภาพแวดล้อมแสดง "การเบี่ยงเบนการใช้เหตุผล"—การเบี่ยงเบนทีละน้อยจากวิถีที่ถูกต้อง[^13] ตัวแทนยังคงใช้เหตุผลบนสมมติฐานที่ล้าสมัยหรือไม่ถูกต้องมากขึ้นเรื่อยๆ
| ความยาวสายโซ่ | อัตราข้อผิดพลาด | สาเหตุ |
|---|---|---|
| สั้น (1-5 ขั้นตอน) | ต่ำ | ข้อผิดพลาดสะสมจำกัด |
| กลาง (5-20 ขั้นตอน) | ปานกลาง | ความผิดพลาดสะสม |
| ยาว (20+ ขั้นตอน) | สูง | การเบี่ยงเบนการใช้เหตุผลครอบงำ |
วิธีแก้ปัญหาด้วยข้อเสนอแนะ
ข้อมูลเชิงลึกของ MiroThinker: ให้สภาพแวดล้อมแก้ไขตัวแทนอย่างต่อเนื่อง[^14] แทนที่จะใช้เหตุผลแบบแยกส่วน ตัวแทนตรวจสอบงานโดยโต้ตอบกับเครื่องมือภายนอก จับข้อผิดพลาดก่อนที่จะสะสม
นิยามการขยายการโต้ตอบ
การขยายการโต้ตอบถือว่าความลึกของการโต้ตอบระหว่างตัวแทนและสภาพแวดล้อมเป็นมิติที่ขยายได้คล้ายกับขนาดโมเดลหรือความยาวบริบท[^15]
สามมิติ
| มิติ | สิ่งที่ขยาย | ช่วยอย่างไร |
|---|---|---|
| ขนาดโมเดล | พารามิเตอร์ | คุณภาพต่อขั้นตอนที่ดีกว่า |
| ความยาวบริบท | หน้าต่างโทเค็น | ข้อมูลพร้อมใช้มากขึ้น |
| ความลึกการโต้ตอบ | การเรียกเครื่องมือ | แก้ไขข้อผิดพลาด, การยึดโยง |
ทำไมการโต้ตอบจึงแตกต่าง
ต่างจากขนาดโมเดล (คงที่เมื่อฝึก) หรือบริบท (การจัดเก็บแบบ passive) ความลึกการโต้ตอบเปิดใช้งานการยืนยันเชิงรุกและการแก้ไขทิศทาง[^16]
การขยายแบบ Passive: โมเดลและบริบทที่ใหญ่กว่าให้ความจุมากขึ้น การขยายแบบ Active: การโต้ตอบมากขึ้นให้โอกาสมากขึ้นในการตรวจสอบ แก้ไข และปรับปรุง
สถาปัตยกรรม MiroThinker
ตัวแทนปฏิบัติตาม ReAct framework พร้อมการปรับปรุงเฉพาะสำหรับการโต้ตอบลึก:[^17]
ลูปหลัก
ความคิด → การกระทำ (เรียกเครื่องมือ) → การสังเกต → ความคิด → ...
การสังเกตแต่ละครั้งป้อนกลับเข้าสู่บริบทของตัวแทน แจ้งการใช้เหตุผลที่ตามมา[^18]
ชุดเครื่องมือ
MiroThinker รวมชุดเครื่องมือที่ครอบคลุม:[^19]
| หมวดหมู่ | ตัวอย่าง |
|---|---|
| การค้นหาเว็บ | การสร้างคิวรี, การแยกวิเคราะห์ผลลัพธ์ |
| การเรียกดูเว็บ | การนำทางหน้า, การแยกเนื้อหา |
| การรันโค้ด | Python runtime, การวิเคราะห์ผลลัพธ์ |
| การดำเนินการไฟล์ | อ่าน, เขียน, วิเคราะห์เอกสาร |
600 การเรียกเครื่องมือ
หน้าต่างบริบท 256K รองรับการเรียกเครื่องมือสูงสุด 600 ครั้งต่องาน[^20] สำหรับบริบท benchmark ตัวแทนส่วนใหญ่เกี่ยวข้องกับการเรียกเครื่องมือน้อยกว่า 20 ครั้ง MiroThinker ทำงานที่ 30 เท่าของความลึกการโต้ตอบทั่วไป
วิธีการฝึก
การฝึก MiroThinker ดำเนินการในสามเฟส:[^21]
เฟส 1: Supervised Fine-Tuning
การฝึกเริ่มต้นบนวิถีตัวแทนที่ประสบความสำเร็จสอนรูปแบบการใช้เครื่องมือพื้นฐาน:[^22]
- เมื่อใดควรค้นหา vs เรียกดู
- วิธีสร้างคิวรีที่มีประสิทธิภาพ
- ตีความผลลัพธ์เครื่องมือ
- สังเคราะห์ข้อมูลหลายแหล่ง
เฟส 2: การเรียนรู้ความชอบ
โมเดลเรียนรู้ที่จะชอบวิถีที่ประสบความสำเร็จมากกว่าที่ล้มเหลว:[^23]
- ข้อเสนอแนะไบนารีเกี่ยวกับผลลัพธ์วิถี
- การเรียนรู้โดยนัยของการกู้คืนข้อผิดพลาด
- ความชอบสำหรับลำดับเครื่องมือที่มีประสิทธิภาพ
เฟส 3: การเรียนรู้เสริมแรง
Group Relative Policy Optimization (GRPO) ฝึกสำหรับการโต้ตอบที่ขยาย:[^24]
- รางวัลสำหรับคำตอบสุดท้ายที่ถูกต้อง
- การกำหนดเครดิตโดยนัยข้ามวิถียาว
- เรียนรู้เมื่อใดควรยืนหยัด vs เปลี่ยนกลยุทธ์
โมเดลฐาน
MiroThinker สร้างบนพื้นฐาน open-weight:[^25]
| ขนาด | โมเดลฐาน |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
ประสิทธิภาพ Benchmark
GAIA (ผู้ช่วย AI ทั่วไป)
GAIA ทดสอบงานผู้ช่วยที่สมจริงที่ต้องการการค้นหาเว็บ การใช้เหตุผล และการแก้ปัญหาหลายขั้นตอน:[^26]
| โมเดล | ความแม่นยำ |
|---|---|
| MiroThinker-72B | 81.9% |
| GPT-5-high | ~85% (ประมาณการ) |
| SOTA โอเพ่นซอร์สก่อนหน้า | ~65% |
MiroThinker เข้าใกล้ประสิทธิภาพเชิงพาณิชย์ในขณะที่ยังคงเปิดอย่างเต็มรูปแบบ
HLE (การสอบสุดท้ายของมนุษยชาติ)
คำถามที่ท้าทายอย่างยิ่งข้ามโดเมนที่หลากหลาย:[^27]
| โมเดล | ความแม่นยำ |
|---|---|
| MiroThinker-72B | 37.7% |
| ผู้เชี่ยวชาญมนุษย์ | แปรผัน |
BrowseComp
การเรียกดูเว็บที่ซับซ้อนและการสังเคราะห์ข้อมูล:[^28]
| โมเดล | ความแม่นยำ |
|---|---|
| MiroThinker-72B (อังกฤษ) | 47.1% |
| MiroThinker-72B (จีน) | 55.6% |
ประสิทธิภาพภาษาจีนบ่งชี้การถ่ายโอนหลายภาษาที่แข็งแกร่ง
พฤติกรรมการขยาย
การค้นพบที่สำคัญ: ประสิทธิภาพดีขึ้นอย่างคาดเดาได้ตามความลึกการโต้ตอบ[^29]
เมื่อ MiroThinker มีส่วนร่วมในการเรียกเครื่องมือมากขึ้น: - ความแม่นยำเพิ่มขึ้น (จนถึงขีดจำกัดฮาร์ดแวร์/บริบท) - การกู้คืนข้อผิดพลาดมีประสิทธิภาพมากขึ้น - งานที่ซับซ้อนกลายเป็นสิ่งที่จัดการได้
สิ่งนี้แสดงให้เห็นว่าความลึกการโต้ตอบแสดงพฤติกรรมการขยายที่แท้จริง ไม่ใช่แค่ผลตอบแทนที่ลดลง
ประเด็นสำคัญ
MiroThinker สร้างการขยายการโต้ตอบเป็นมิติที่สามที่ใช้งานได้สำหรับความสามารถของ AI:
- มิติใหม่: ความลึกการโต้ตอบขยายเหมือนขนาดโมเดลและความยาวบริบท
- 600 การเรียกเครื่องมือ: ฝึกสำหรับ 30 เท่าของความลึกการโต้ตอบตัวแทนทั่วไป
- 81.9% GAIA: เข้าใกล้ประสิทธิภาพเชิงพาณิชย์ในขณะที่เปิดอย่างเต็มรูปแบบ
- การฝึกสามเฟส: ไปป์ไลน์ SFT → การเรียนรู้ความชอบ → RL
- แก้ไขข้อผิดพลาด: ข้อเสนอแนะจากสภาพแวดล้อมป้องกันการเบี่ยงเบนการใช้เหตุผล
- เผยแพร่เปิด: โมเดล โค้ด และสูตรการฝึกทั้งหมดพร้อมใช้งาน
ตัวแทน AI รุ่นต่อไปอาจพิสูจน์ความสามารถไม่เพียงแต่ผ่านโมเดลที่ใหญ่ขึ้น แต่ผ่านการมีส่วนร่วมที่ลึกซึ้งกว่ากับสภาพแวดล้อมของพวกเขา