MiroThinker: มิติการขยายขนาดที่สามสำหรับตัวแทน AI

MiroThinker นำเสนอการขยายการโต้ตอบ—ฝึกตัวแทนให้จัดการ 600 การเรียกเครื่องมือต่องาน 81.9% บน GAIA benchmark มิติใหม่ที่อยู่เหนือขนาดโมเดลและบริบท

MiroThinker: มิติการขยายขนาดที่สามสำหรับตัวแทน AI

MiroThinker: มิติการขยายขนาดที่สามสำหรับตัวแทน AI

การขยายขนาด AI มุ่งเน้นที่สองมิติ: ขนาดโมเดลและความยาวบริบท[^1] MiroThinker แนะนำมิติที่สาม: ความลึกของการโต้ตอบ ตัวแทนวิจัยนี้เผยแพร่พร้อมรุ่น 8B, 30B และ 72B พารามิเตอร์ ฝึกโมเดลให้จัดการการเรียกเครื่องมือสูงสุด 600 ครั้งต่องานผ่านการเรียนรู้เสริมแรง[^2] บน GAIA benchmark รุ่น 72B บรรลุความแม่นยำ 81.9% ใกล้เคียงระบบเชิงพาณิชย์อย่าง GPT-5-high ในขณะที่ยังคงเป็นโอเพ่นซอร์สอย่างเต็มรูปแบบ[^3]

TL;DR

MiroThinker สำรวจ "การขยายการโต้ตอบ" ในระดับโมเดล ฝึกโมเดลอย่างเป็นระบบให้จัดการการโต้ตอบระหว่างตัวแทนและสภาพแวดล้อมที่ลึกและบ่อยขึ้น[^4] ต่างจากการขยายเวลาทดสอบแบบแยกส่วน การขยายการโต้ตอบใช้ข้อเสนอแนะจากสภาพแวดล้อมเพื่อแก้ไขข้อผิดพลาดและปรับปรุงวิถี[^5] ด้วยหน้าต่างบริบท 256K ตัวแทนดำเนินการเรียกเครื่องมือสูงสุด 600 ครั้งต่องาน ทำให้การใช้เหตุผลหลายรอบต่อเนื่องสำหรับเวิร์กโฟลว์การวิจัยที่ซับซ้อน[^6]

ปัญหาการขยายขนาดตัวแทน

ตัวแทน AI ปัจจุบันเผชิญข้อจำกัดพื้นฐาน เมื่อสายโซ่การใช้เหตุผลยาวขึ้น ข้อผิดพลาดจะสะสม[^9] ความผิดพลาดเพียงครั้งเดียวในช่วงต้นของวิถีสามารถทำให้งานทั้งหมดล้มเหลว แนวทางดั้งเดิมแก้ไขสิ่งนี้ผ่าน:

โมเดลที่ใหญ่กว่า: พารามิเตอร์มากขึ้นสำหรับความแม่นยำต่อขั้นตอนที่ดีกว่า[^10] บริบทที่ยาวกว่า: พื้นที่มากขึ้นสำหรับเก็บประวัติการใช้เหตุผล[^11] การกำหนดที่ดีกว่า: คำแนะนำที่ปรับปรุงเพื่อลดข้อผิดพลาด[^12]

อย่างไรก็ตาม การแทรกแซงเหล่านี้ไม่ได้แก้ไขปัญหาหลัก: ตัวแทนที่ทำงานแยกจากสภาพแวดล้อมระหว่างการใช้เหตุผลที่ยาวนาน

การเบี่ยงเบนการใช้เหตุผล

สายโซ่การใช้เหตุผลยาวโดยไม่มีข้อเสนอแนะจากสภาพแวดล้อมแสดง "การเบี่ยงเบนการใช้เหตุผล"—การเบี่ยงเบนทีละน้อยจากวิถีที่ถูกต้อง[^13] ตัวแทนยังคงใช้เหตุผลบนสมมติฐานที่ล้าสมัยหรือไม่ถูกต้องมากขึ้นเรื่อยๆ

ความยาวสายโซ่ อัตราข้อผิดพลาด สาเหตุ
สั้น (1-5 ขั้นตอน) ต่ำ ข้อผิดพลาดสะสมจำกัด
กลาง (5-20 ขั้นตอน) ปานกลาง ความผิดพลาดสะสม
ยาว (20+ ขั้นตอน) สูง การเบี่ยงเบนการใช้เหตุผลครอบงำ

วิธีแก้ปัญหาด้วยข้อเสนอแนะ

ข้อมูลเชิงลึกของ MiroThinker: ให้สภาพแวดล้อมแก้ไขตัวแทนอย่างต่อเนื่อง[^14] แทนที่จะใช้เหตุผลแบบแยกส่วน ตัวแทนตรวจสอบงานโดยโต้ตอบกับเครื่องมือภายนอก จับข้อผิดพลาดก่อนที่จะสะสม

นิยามการขยายการโต้ตอบ

การขยายการโต้ตอบถือว่าความลึกของการโต้ตอบระหว่างตัวแทนและสภาพแวดล้อมเป็นมิติที่ขยายได้คล้ายกับขนาดโมเดลหรือความยาวบริบท[^15]

สามมิติ

มิติ สิ่งที่ขยาย ช่วยอย่างไร
ขนาดโมเดล พารามิเตอร์ คุณภาพต่อขั้นตอนที่ดีกว่า
ความยาวบริบท หน้าต่างโทเค็น ข้อมูลพร้อมใช้มากขึ้น
ความลึกการโต้ตอบ การเรียกเครื่องมือ แก้ไขข้อผิดพลาด, การยึดโยง

ทำไมการโต้ตอบจึงแตกต่าง

ต่างจากขนาดโมเดล (คงที่เมื่อฝึก) หรือบริบท (การจัดเก็บแบบ passive) ความลึกการโต้ตอบเปิดใช้งานการยืนยันเชิงรุกและการแก้ไขทิศทาง[^16]

การขยายแบบ Passive: โมเดลและบริบทที่ใหญ่กว่าให้ความจุมากขึ้น การขยายแบบ Active: การโต้ตอบมากขึ้นให้โอกาสมากขึ้นในการตรวจสอบ แก้ไข และปรับปรุง

สถาปัตยกรรม MiroThinker

ตัวแทนปฏิบัติตาม ReAct framework พร้อมการปรับปรุงเฉพาะสำหรับการโต้ตอบลึก:[^17]

ลูปหลัก

ความคิด → การกระทำ (เรียกเครื่องมือ) → การสังเกต → ความคิด → ...

การสังเกตแต่ละครั้งป้อนกลับเข้าสู่บริบทของตัวแทน แจ้งการใช้เหตุผลที่ตามมา[^18]

ชุดเครื่องมือ

MiroThinker รวมชุดเครื่องมือที่ครอบคลุม:[^19]

หมวดหมู่ ตัวอย่าง
การค้นหาเว็บ การสร้างคิวรี, การแยกวิเคราะห์ผลลัพธ์
การเรียกดูเว็บ การนำทางหน้า, การแยกเนื้อหา
การรันโค้ด Python runtime, การวิเคราะห์ผลลัพธ์
การดำเนินการไฟล์ อ่าน, เขียน, วิเคราะห์เอกสาร

600 การเรียกเครื่องมือ

หน้าต่างบริบท 256K รองรับการเรียกเครื่องมือสูงสุด 600 ครั้งต่องาน[^20] สำหรับบริบท benchmark ตัวแทนส่วนใหญ่เกี่ยวข้องกับการเรียกเครื่องมือน้อยกว่า 20 ครั้ง MiroThinker ทำงานที่ 30 เท่าของความลึกการโต้ตอบทั่วไป

วิธีการฝึก

การฝึก MiroThinker ดำเนินการในสามเฟส:[^21]

เฟส 1: Supervised Fine-Tuning

การฝึกเริ่มต้นบนวิถีตัวแทนที่ประสบความสำเร็จสอนรูปแบบการใช้เครื่องมือพื้นฐาน:[^22]

  • เมื่อใดควรค้นหา vs เรียกดู
  • วิธีสร้างคิวรีที่มีประสิทธิภาพ
  • ตีความผลลัพธ์เครื่องมือ
  • สังเคราะห์ข้อมูลหลายแหล่ง

เฟส 2: การเรียนรู้ความชอบ

โมเดลเรียนรู้ที่จะชอบวิถีที่ประสบความสำเร็จมากกว่าที่ล้มเหลว:[^23]

  • ข้อเสนอแนะไบนารีเกี่ยวกับผลลัพธ์วิถี
  • การเรียนรู้โดยนัยของการกู้คืนข้อผิดพลาด
  • ความชอบสำหรับลำดับเครื่องมือที่มีประสิทธิภาพ

เฟส 3: การเรียนรู้เสริมแรง

Group Relative Policy Optimization (GRPO) ฝึกสำหรับการโต้ตอบที่ขยาย:[^24]

  • รางวัลสำหรับคำตอบสุดท้ายที่ถูกต้อง
  • การกำหนดเครดิตโดยนัยข้ามวิถียาว
  • เรียนรู้เมื่อใดควรยืนหยัด vs เปลี่ยนกลยุทธ์

โมเดลฐาน

MiroThinker สร้างบนพื้นฐาน open-weight:[^25]

ขนาด โมเดลฐาน
8B Qwen2.5-8B
30B Qwen3-30B
72B Qwen2.5-72B

ประสิทธิภาพ Benchmark

GAIA (ผู้ช่วย AI ทั่วไป)

GAIA ทดสอบงานผู้ช่วยที่สมจริงที่ต้องการการค้นหาเว็บ การใช้เหตุผล และการแก้ปัญหาหลายขั้นตอน:[^26]

โมเดล ความแม่นยำ
MiroThinker-72B 81.9%
GPT-5-high ~85% (ประมาณการ)
SOTA โอเพ่นซอร์สก่อนหน้า ~65%

MiroThinker เข้าใกล้ประสิทธิภาพเชิงพาณิชย์ในขณะที่ยังคงเปิดอย่างเต็มรูปแบบ

HLE (การสอบสุดท้ายของมนุษยชาติ)

คำถามที่ท้าทายอย่างยิ่งข้ามโดเมนที่หลากหลาย:[^27]

โมเดล ความแม่นยำ
MiroThinker-72B 37.7%
ผู้เชี่ยวชาญมนุษย์ แปรผัน

BrowseComp

การเรียกดูเว็บที่ซับซ้อนและการสังเคราะห์ข้อมูล:[^28]

โมเดล ความแม่นยำ
MiroThinker-72B (อังกฤษ) 47.1%
MiroThinker-72B (จีน) 55.6%

ประสิทธิภาพภาษาจีนบ่งชี้การถ่ายโอนหลายภาษาที่แข็งแกร่ง

พฤติกรรมการขยาย

การค้นพบที่สำคัญ: ประสิทธิภาพดีขึ้นอย่างคาดเดาได้ตามความลึกการโต้ตอบ[^29]

เมื่อ MiroThinker มีส่วนร่วมในการเรียกเครื่องมือมากขึ้น: - ความแม่นยำเพิ่มขึ้น (จนถึงขีดจำกัดฮาร์ดแวร์/บริบท) - การกู้คืนข้อผิดพลาดมีประสิทธิภาพมากขึ้น - งานที่ซับซ้อนกลายเป็นสิ่งที่จัดการได้

สิ่งนี้แสดงให้เห็นว่าความลึกการโต้ตอบแสดงพฤติกรรมการขยายที่แท้จริง ไม่ใช่แค่ผลตอบแทนที่ลดลง

ประเด็นสำคัญ

MiroThinker สร้างการขยายการโต้ตอบเป็นมิติที่สามที่ใช้งานได้สำหรับความสามารถของ AI:

  1. มิติใหม่: ความลึกการโต้ตอบขยายเหมือนขนาดโมเดลและความยาวบริบท
  2. 600 การเรียกเครื่องมือ: ฝึกสำหรับ 30 เท่าของความลึกการโต้ตอบตัวแทนทั่วไป
  3. 81.9% GAIA: เข้าใกล้ประสิทธิภาพเชิงพาณิชย์ในขณะที่เปิดอย่างเต็มรูปแบบ
  4. การฝึกสามเฟส: ไปป์ไลน์ SFT → การเรียนรู้ความชอบ → RL
  5. แก้ไขข้อผิดพลาด: ข้อเสนอแนะจากสภาพแวดล้อมป้องกันการเบี่ยงเบนการใช้เหตุผล
  6. เผยแพร่เปิด: โมเดล โค้ด และสูตรการฝึกทั้งหมดพร้อมใช้งาน

ตัวแทน AI รุ่นต่อไปอาจพิสูจน์ความสามารถไม่เพียงแต่ผ่านโมเดลที่ใหญ่ขึ้น แต่ผ่านการมีส่วนร่วมที่ลึกซึ้งกว่ากับสภาพแวดล้อมของพวกเขา

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING