MiroThinker: มิติการขยายขนาดที่สามสำหรับตัวแทน AI

MiroThinker นำเสนอการขยายการโต้ตอบ—ฝึกตัวแทนให้จัดการ 600 การเรียกเครื่องมือต่องาน 81.9% บน GAIA benchmark มิติใหม่ที่อยู่เหนือขนาดโมเดลและบริบท

Blake Crosley

Jan 07, 2026 2 min read Disclaimer

MiroThinker: มิติการขยายขนาดที่สามสำหรับตัวแทน AI

การขยายขนาด AI มุ่งเน้นที่สองมิติ: ขนาดโมเดลและความยาวบริบท[^1] MiroThinker แนะนำมิติที่สาม: ความลึกของการโต้ตอบ ตัวแทนวิจัยนี้เผยแพร่พร้อมรุ่น 8B, 30B และ 72B พารามิเตอร์ ฝึกโมเดลให้จัดการการเรียกเครื่องมือสูงสุด 600 ครั้งต่องานผ่านการเรียนรู้เสริมแรง[^2] บน GAIA benchmark รุ่น 72B บรรลุความแม่นยำ 81.9% ใกล้เคียงระบบเชิงพาณิชย์อย่าง GPT-5-high ในขณะที่ยังคงเป็นโอเพ่นซอร์สอย่างเต็มรูปแบบ[^3]

TL;DR

MiroThinker สำรวจ "การขยายการโต้ตอบ" ในระดับโมเดล ฝึกโมเดลอย่างเป็นระบบให้จัดการการโต้ตอบระหว่างตัวแทนและสภาพแวดล้อมที่ลึกและบ่อยขึ้น[^4] ต่างจากการขยายเวลาทดสอบแบบแยกส่วน การขยายการโต้ตอบใช้ข้อเสนอแนะจากสภาพแวดล้อมเพื่อแก้ไขข้อผิดพลาดและปรับปรุงวิถี[^5] ด้วยหน้าต่างบริบท 256K ตัวแทนดำเนินการเรียกเครื่องมือสูงสุด 600 ครั้งต่องาน ทำให้การใช้เหตุผลหลายรอบต่อเนื่องสำหรับเวิร์กโฟลว์การวิจัยที่ซับซ้อน[^6]

ปัญหาการขยายขนาดตัวแทน

ตัวแทน AI ปัจจุบันเผชิญข้อจำกัดพื้นฐาน เมื่อสายโซ่การใช้เหตุผลยาวขึ้น ข้อผิดพลาดจะสะสม[^9] ความผิดพลาดเพียงครั้งเดียวในช่วงต้นของวิถีสามารถทำให้งานทั้งหมดล้มเหลว แนวทางดั้งเดิมแก้ไขสิ่งนี้ผ่าน:

โมเดลที่ใหญ่กว่า: พารามิเตอร์มากขึ้นสำหรับความแม่นยำต่อขั้นตอนที่ดีกว่า[^10] บริบทที่ยาวกว่า: พื้นที่มากขึ้นสำหรับเก็บประวัติการใช้เหตุผล[^11] การกำหนดที่ดีกว่า: คำแนะนำที่ปรับปรุงเพื่อลดข้อผิดพลาด[^12]

อย่างไรก็ตาม การแทรกแซงเหล่านี้ไม่ได้แก้ไขปัญหาหลัก: ตัวแทนที่ทำงานแยกจากสภาพแวดล้อมระหว่างการใช้เหตุผลที่ยาวนาน

การเบี่ยงเบนการใช้เหตุผล

สายโซ่การใช้เหตุผลยาวโดยไม่มีข้อเสนอแนะจากสภาพแวดล้อมแสดง "การเบี่ยงเบนการใช้เหตุผล"—การเบี่ยงเบนทีละน้อยจากวิถีที่ถูกต้อง[^13] ตัวแทนยังคงใช้เหตุผลบนสมมติฐานที่ล้าสมัยหรือไม่ถูกต้องมากขึ้นเรื่อยๆ

ความยาวสายโซ่	อัตราข้อผิดพลาด	สาเหตุ
สั้น (1-5 ขั้นตอน)	ต่ำ	ข้อผิดพลาดสะสมจำกัด
กลาง (5-20 ขั้นตอน)	ปานกลาง	ความผิดพลาดสะสม
ยาว (20+ ขั้นตอน)	สูง	การเบี่ยงเบนการใช้เหตุผลครอบงำ

วิธีแก้ปัญหาด้วยข้อเสนอแนะ

ข้อมูลเชิงลึกของ MiroThinker: ให้สภาพแวดล้อมแก้ไขตัวแทนอย่างต่อเนื่อง[^14] แทนที่จะใช้เหตุผลแบบแยกส่วน ตัวแทนตรวจสอบงานโดยโต้ตอบกับเครื่องมือภายนอก จับข้อผิดพลาดก่อนที่จะสะสม

นิยามการขยายการโต้ตอบ

การขยายการโต้ตอบถือว่าความลึกของการโต้ตอบระหว่างตัวแทนและสภาพแวดล้อมเป็นมิติที่ขยายได้คล้ายกับขนาดโมเดลหรือความยาวบริบท[^15]

สามมิติ

มิติ	สิ่งที่ขยาย	ช่วยอย่างไร
ขนาดโมเดล	พารามิเตอร์	คุณภาพต่อขั้นตอนที่ดีกว่า
ความยาวบริบท	หน้าต่างโทเค็น	ข้อมูลพร้อมใช้มากขึ้น
ความลึกการโต้ตอบ	การเรียกเครื่องมือ	แก้ไขข้อผิดพลาด, การยึดโยง

ทำไมการโต้ตอบจึงแตกต่าง

ต่างจากขนาดโมเดล (คงที่เมื่อฝึก) หรือบริบท (การจัดเก็บแบบ passive) ความลึกการโต้ตอบเปิดใช้งานการยืนยันเชิงรุกและการแก้ไขทิศทาง[^16]

การขยายแบบ Passive: โมเดลและบริบทที่ใหญ่กว่าให้ความจุมากขึ้น การขยายแบบ Active: การโต้ตอบมากขึ้นให้โอกาสมากขึ้นในการตรวจสอบ แก้ไข และปรับปรุง

สถาปัตยกรรม MiroThinker

ตัวแทนปฏิบัติตาม ReAct framework พร้อมการปรับปรุงเฉพาะสำหรับการโต้ตอบลึก:[^17]

ลูปหลัก

ความคิด → การกระทำ (เรียกเครื่องมือ) → การสังเกต → ความคิด → ...

การสังเกตแต่ละครั้งป้อนกลับเข้าสู่บริบทของตัวแทน แจ้งการใช้เหตุผลที่ตามมา[^18]

ชุดเครื่องมือ

MiroThinker รวมชุดเครื่องมือที่ครอบคลุม:[^19]

หมวดหมู่	ตัวอย่าง
การค้นหาเว็บ	การสร้างคิวรี, การแยกวิเคราะห์ผลลัพธ์
การเรียกดูเว็บ	การนำทางหน้า, การแยกเนื้อหา
การรันโค้ด	Python runtime, การวิเคราะห์ผลลัพธ์
การดำเนินการไฟล์	อ่าน, เขียน, วิเคราะห์เอกสาร

600 การเรียกเครื่องมือ

หน้าต่างบริบท 256K รองรับการเรียกเครื่องมือสูงสุด 600 ครั้งต่องาน[^20] สำหรับบริบท benchmark ตัวแทนส่วนใหญ่เกี่ยวข้องกับการเรียกเครื่องมือน้อยกว่า 20 ครั้ง MiroThinker ทำงานที่ 30 เท่าของความลึกการโต้ตอบทั่วไป

วิธีการฝึก

การฝึก MiroThinker ดำเนินการในสามเฟส:[^21]

เฟส 1: Supervised Fine-Tuning

การฝึกเริ่มต้นบนวิถีตัวแทนที่ประสบความสำเร็จสอนรูปแบบการใช้เครื่องมือพื้นฐาน:[^22]

เมื่อใดควรค้นหา vs เรียกดู
วิธีสร้างคิวรีที่มีประสิทธิภาพ
ตีความผลลัพธ์เครื่องมือ
สังเคราะห์ข้อมูลหลายแหล่ง

เฟส 2: การเรียนรู้ความชอบ

โมเดลเรียนรู้ที่จะชอบวิถีที่ประสบความสำเร็จมากกว่าที่ล้มเหลว:[^23]

ข้อเสนอแนะไบนารีเกี่ยวกับผลลัพธ์วิถี
การเรียนรู้โดยนัยของการกู้คืนข้อผิดพลาด
ความชอบสำหรับลำดับเครื่องมือที่มีประสิทธิภาพ

เฟส 3: การเรียนรู้เสริมแรง

Group Relative Policy Optimization (GRPO) ฝึกสำหรับการโต้ตอบที่ขยาย:[^24]

รางวัลสำหรับคำตอบสุดท้ายที่ถูกต้อง
การกำหนดเครดิตโดยนัยข้ามวิถียาว
เรียนรู้เมื่อใดควรยืนหยัด vs เปลี่ยนกลยุทธ์

โมเดลฐาน

MiroThinker สร้างบนพื้นฐาน open-weight:[^25]

ขนาด	โมเดลฐาน
8B	Qwen2.5-8B
30B	Qwen3-30B
72B	Qwen2.5-72B

ประสิทธิภาพ Benchmark

GAIA (ผู้ช่วย AI ทั่วไป)

GAIA ทดสอบงานผู้ช่วยที่สมจริงที่ต้องการการค้นหาเว็บ การใช้เหตุผล และการแก้ปัญหาหลายขั้นตอน:[^26]

โมเดล	ความแม่นยำ
MiroThinker-72B	81.9%
GPT-5-high	~85% (ประมาณการ)
SOTA โอเพ่นซอร์สก่อนหน้า	~65%

MiroThinker เข้าใกล้ประสิทธิภาพเชิงพาณิชย์ในขณะที่ยังคงเปิดอย่างเต็มรูปแบบ

HLE (การสอบสุดท้ายของมนุษยชาติ)

คำถามที่ท้าทายอย่างยิ่งข้ามโดเมนที่หลากหลาย:[^27]

โมเดล	ความแม่นยำ
MiroThinker-72B	37.7%
ผู้เชี่ยวชาญมนุษย์	แปรผัน

BrowseComp

การเรียกดูเว็บที่ซับซ้อนและการสังเคราะห์ข้อมูล:[^28]

โมเดล	ความแม่นยำ
MiroThinker-72B (อังกฤษ)	47.1%
MiroThinker-72B (จีน)	55.6%

ประสิทธิภาพภาษาจีนบ่งชี้การถ่ายโอนหลายภาษาที่แข็งแกร่ง

พฤติกรรมการขยาย

การค้นพบที่สำคัญ: ประสิทธิภาพดีขึ้นอย่างคาดเดาได้ตามความลึกการโต้ตอบ[^29]

เมื่อ MiroThinker มีส่วนร่วมในการเรียกเครื่องมือมากขึ้น: - ความแม่นยำเพิ่มขึ้น (จนถึงขีดจำกัดฮาร์ดแวร์/บริบท) - การกู้คืนข้อผิดพลาดมีประสิทธิภาพมากขึ้น - งานที่ซับซ้อนกลายเป็นสิ่งที่จัดการได้

สิ่งนี้แสดงให้เห็นว่าความลึกการโต้ตอบแสดงพฤติกรรมการขยายที่แท้จริง ไม่ใช่แค่ผลตอบแทนที่ลดลง

ประเด็นสำคัญ

MiroThinker สร้างการขยายการโต้ตอบเป็นมิติที่สามที่ใช้งานได้สำหรับความสามารถของ AI:

มิติใหม่: ความลึกการโต้ตอบขยายเหมือนขนาดโมเดลและความยาวบริบท
600 การเรียกเครื่องมือ: ฝึกสำหรับ 30 เท่าของความลึกการโต้ตอบตัวแทนทั่วไป
81.9% GAIA: เข้าใกล้ประสิทธิภาพเชิงพาณิชย์ในขณะที่เปิดอย่างเต็มรูปแบบ
การฝึกสามเฟส: ไปป์ไลน์ SFT → การเรียนรู้ความชอบ → RL
แก้ไขข้อผิดพลาด: ข้อเสนอแนะจากสภาพแวดล้อมป้องกันการเบี่ยงเบนการใช้เหตุผล
เผยแพร่เปิด: โมเดล โค้ด และสูตรการฝึกทั้งหมดพร้อมใช้งาน

ตัวแทน AI รุ่นต่อไปอาจพิสูจน์ความสามารถไม่เพียงแต่ผ่านโมเดลที่ใหญ่ขึ้น แต่ผ่านการมีส่วนร่วมที่ลึกซึ้งกว่ากับสภาพแวดล้อมของพวกเขา

ข้อจำกัดความรับผิดชอบ: เนื้อหานี้มีวัตถุประสงค์เพื่อให้ข้อมูลเท่านั้น และไม่ถือเป็นคำแนะนำจากผู้เชี่ยวชาญ ข้อมูลอาจไม่สะท้อนถึงการพัฒนาล่าสุดในอุตสาหกรรม ผลลัพธ์ที่อธิบายเป็นเพียงตัวอย่างและขึ้นอยู่กับสถานการณ์เฉพาะ สำหรับคำแนะนำที่เหมาะกับความต้องการของคุณ ติดต่อเรา.

MiroThinker: มิติการขยายขนาดที่สามสำหรับตัวแทน AI

TL;DR

ปัญหาการขยายขนาดตัวแทน

การเบี่ยงเบนการใช้เหตุผล

วิธีแก้ปัญหาด้วยข้อเสนอแนะ

นิยามการขยายการโต้ตอบ

สามมิติ

ทำไมการโต้ตอบจึงแตกต่าง

สถาปัตยกรรม MiroThinker

ลูปหลัก

ชุดเครื่องมือ

600 การเรียกเครื่องมือ

วิธีการฝึก

เฟส 1: Supervised Fine-Tuning

เฟส 2: การเรียนรู้ความชอบ

เฟส 3: การเรียนรู้เสริมแรง

โมเดลฐาน

ประสิทธิภาพ Benchmark

GAIA (ผู้ช่วย AI ทั่วไป)

HLE (การสอบสุดท้ายของมนุษยชาติ)

BrowseComp

พฤติกรรมการขยาย

ประเด็นสำคัญ

You Might Also Like

โครงสร้างพื้นฐาน AI ของญี่ปุ่น: มหาอำนาจเศรษฐกิจแห่งเอเชียตื...

การเพิ่มประสิทธิภาพ KV Cache: ประสิทธิภาพหน่วยความจำสำหรับ L...

สิงคโปร์และเอเชียตะวันออกเฉียงใต้ก้าวขึ้นเป็นศูนย์กลางโครงสร...

ขอใบเสนอราคา_

ได้รับคำขอแล้ว_