Grok 4 เพิ่งทำลายเพดาน AI แล้ว—นี่คือเหตุผลที่ทำให้ทุกอย่างเปลี่ยนไป

xAI ของ Grok 4 บรรลุคะแนนเบนช์มาร์กที่ไม่เคยมีมาก่อนด้วยโครงสร้างพื้นฐาน GPU จำนวน 200,000 ตัว โดยมีประสิทธิภาพสูงกว่าคู่แข่งถึงสองเท่าในการทดสอบการใช้เหตุผลเชิงวิพากษ์ แนวทาง multi-agent ที่เป็นเอกลักษณ์ของโมเดลและการบูรณาการกับซอฟต์แวร์ CFD ของ Tesla ส่งสัญญาณถึงการเปลี่ยนผ่านจากผู้ช่วย AI ไปสู่พาร์ทเนอร์การใช้เหตุผลที่แท้จริง

Grok 4 เพิ่งทำลายเพดาน AI แล้ว—นี่คือเหตุผลที่ทำให้ทุกอย่างเปลี่ยนไป

เอาล่ะ เรื่องมันบานปลายเร็วจริงๆ สามสัปดาห์ที่แล้ว Elon Musk และ xAI ปล่อย Grok 4 ใส่โลกที่ไม่คาดคิดเลย และผลการทดสอบก็ยังคงทำให้นักวิจัย AI ผู้ช่ำชองต้องมองสองครั้ง ลองนึกภาพ AI ที่คิดใคร่ครวญปัญหาเหมือนทีม PhD ที่กินคาเฟอีนแล้วมาระดมสมองตอน 3 ทุ่ม ตอนนี้ที่ความกระฮือกระเหยเริ่มต้นผ่านไปแล้ว และนักพัฒนาก็ได้ทดสอบ Grok 4 กันอย่างถี่ถ้วนแล้ว ผมขอพาคุณมาดูกันว่าทำไมโมเดลนี้จึงเป็นมากกว่าแค่การเปิดตัวอีกครั้ง—มันคือการเหลือบเห็นอนาคตที่ AI กลายเป็นคู่หูทางปัญญาตัวจริง

https://x.com/xai/status/1943158495588815072

การเปิดตัวที่ทำลายอินเทอร์เน็ต (และสถิติบางอย่าง)

xAI เปิดตัว Grok 4 เมื่อ 9 กรกฎาคม 2025 ผ่าน livestream ที่ดึงดูดผู้ชม 1.5 ล้านคน—ไม่เลวสำหรับการนำเสนอทางเทคนิคตอนกลางคืน¹ การเลือกเวลานั้น...น่าสนใจ เพราะมาในวันถัดจาก Grok 3 ขึ้นหัวข่าวด้วยเหตุผลผิดๆ จากผลลัพธ์ที่ถกเถียงกันบางอย่าง² แต่ xAI ตัดสินใจว่าการป้องกันที่ดีที่สุดคือการโจมตีที่ท่วมท้น

Musk แนะนำสองแบบ: Grok 4 มาตรฐานและ Grok 4 Heavy โดยรุ่นหลังใช้ AI agents หลายตัวที่ตรวจสอบงานของกันและกันเหมือนกลุ่มศึกษาที่ทุกคนอ่านหนังสือมาแล้ว³ การเข้าถึงผ่าน Grok app, เว็บไซต์, หรือ API โดย Heavy เฉพาะสำหรับสมาชิก SuperGrok Heavy ในราคา $300/เดือน—ราคาที่บอกว่า "เราจริงจังกับเรื่องนี้"⁴ สำหรับผู้ที่สงสัย: https://x.ai/grok สำหรับการเข้าถึงทั่วไป, https://x.ai/api สำหรับนักพัฒนา

คุณสมบัติที่ทำให้ AI อื่นๆ ดูเหมือนเครื่องคิดเลข

Grok 4 มาพร้อม context window ขนาด 256,000 token (ประมาณข้อความจำนวนหนึ่งเล่มที่มันสามารถประมวลผลในคราวเดียว), การวิเคราะห์ภาพ, function calling, และ voice modes ที่เป็นธรรมชาติจนคุณอาจลืมว่ากำลังคุยกับซิลิคอน⁵ แต่นี่คือจุดที่มันเผ็ด: การใช้เครื่องมือแบบ native xAI ฝึกสัตว์ตัวนี้ด้วย reinforcement learning เพื่อใช้ code interpreter และ web browser—เหมือนส่วนขยายของจิตใจมัน

การค้นหาแบบ real-time ข้าม X, เว็บ, และข่าวทำให้การตอบสนองสดใหม่—ไม่มีข้อแก้ตัว "my knowledge cutoff" อีกต่อไป ความสามารถ multimodal ทำให้มันผสมผสานการวิเคราะห์ข้อความและภาพได้อย่างราบรื่น ในขณะที่ Voice Mode เพิ่มการวิเคราะห์ฉากผ่านกล้องของคุณ⁶ สำหรับคนองค์กรที่กังวลเรื่อง compliance: SOC 2 Type 2, GDPR, และ CCPA ทั้งหมดผ่านแล้ว มันเหมือนมีผู้ช่วยวิจัยที่มีไหวพริบไม่เคยหลับ ไม่เคยบ่นเรื่องทำงานล่วงเวลา และเข้าใจลายมือแย่ๆ ของคุณ

ส่วนผสมลับ: เมื่อพลังดิบพบกับความประณีต

เบื้องหลังเวทมนตร์ของ Grok 4 คือซูเปอร์คอมพิวเตอร์ Colossus ของ xAI—สัตว์ประหลาด 200,000 GPU ที่ทำให้ data center ส่วนใหญ่ดูเหมือนเครื่องคิดเลขพกพา⁷ แต่พลังดิบไม่ได้เล่าเรื่องทั้งหมด xAI ปฏิวัติวิธีการของพวกเขาด้วยการขยายขนาด reinforcement learning ให้ตรงกับการคำนวณ pre-training โดยเน้นไปที่ข้อมูลที่ตรวจสอบได้จากโดเมนคณิตศาสตร์ การเขียนโค้ด และวิทยาศาสตร์ ซึ่งเพิ่มประสิทธิภาพถึง 6 เท่า เปลี่ยนกล้ามเนื้อการคำนวณให้เป็นปัญญาที่ประณีต⁸

นวัตกรรมที่แท้จริง? พวกเขาใช้จ่ายในการ post-training reinforcement learning เท่ากับ pre-training เอง⁹ Grok 4 Heavy ใช้วิธีการที่ไปไกลกว่าด้วย parallel test-time compute—AI agents หลายตัวจัดการปัญหาพร้อมกันก่อนจะมาเปรียบเทียบบันทึก ลองนึกภาพการอัพเกรดจากนักประดิษฐ์โรงรถคนเดียวเป็นวงออร์เคสตราที่ซิงโครไนซ์ของผู้ได้รับรางวัล Nobel โดยแต่ละคนตรวจสอบงานของคนอื่นๆ

การตรวจสอบความเป็นจริงของโครงสร้างพื้นฐาน

ซูเปอร์คอมพิวเตอร์ Colossus มี GPU 200,000 ตัว ซึ่งมันแค่... ผมนึกถึงตัวเลขนั้นไม่ออกเลย บริษัทส่วนใหญ่ดีใจมากเมื่อพวกเขาได้คลัสเตอร์ที่มี GPU สองสามร้อยตัวทำงานได้ราบรื่น แต่ 200,000? แค่ความร้อนที่ออกมาก็เหมือนรันโรงไฟฟ้าขนาดเล็ก

และนั่นก่อนที่คุณจะคิดถึงการเชื่อมต่อทั้งหมดให้เหมาะสม การรักษาพวกมันให้ได้รับข้อมูล การทำให้แน่ใจว่าระบบไฟฟ้าของคุณจะไม่เพียงแค่ปฏิเสธคุณ.... ทุกรายละเอียดสำคัญ: วิธีที่คุณจัดเรียงแร็ค ประเภทการระบายความร้อนที่คุณใช้ (และใช่ คุณต้องการการระบายความร้อนจริงจังเพราะของพวกนี้ร้อนมาก) บวกกับปัญหาหัวปีหัวร้อนเรื่องเครือข่ายและการจ่ายไฟฟ้าที่มากับมัน ยุ่งเหยิงชิ้นไหนของปริศนานั้น แล้วคุณจะเผาเงินกับฮาร์ดแวร์ที่ทำงานได้ไม่ดี บริษัทที่ต้องการสร้างโครงสร้างพื้นฐาน AI ของตัวเอง ไม่ว่าจะ 10 GPU หรือ 10,000,000 ต้องการความเชี่ยวชาญในทุกอย่างตั้งแต่การจ่ายไฟฟ้าไปจนถึงการเชื่อมต่อไฟเบอร์ออปติกที่ซับซ้อนที่รักษาข้อมูลให้ไหลด้วยความเร็วแสง นี่คือจุดที่การปรับใช้โครงสร้างพื้นฐานแบบมืออาชีพสร้างความแตกต่างระหว่างสเปคทางทฤษฎีกับประสิทธิภาพในโลกแห่งความเป็นจริง อย่างที่ทีมที่ Introl รู้จากการปรับใช้คลัสเตอร์ AI นับไม่ถ้วน ปีศาจอยู่ในรายละเอียดจริงๆ—โครงสร้างพื้นฐานที่เหมาะสมสามารถหมายถึงความแตกต่างระหว่าง GPU ที่ทำงานที่ประสิทธิภาพ 95% กับการทิ้งประสิทธิภาพ 30% ของคุณไว้บนโต๊ะ

ตัวเลขที่ทำให้นักสถิติร้องไห้ด้วยความยินดี

มาลงลึกในเบนช์มาร์คที่ทำให้ชุมชน AI ฮือฮากัน ในการทดสอบ ARC-AGI-2 ที่โหดร้ายมาก—ที่โมเดลต้องแสดงการใช้เหตุผลเชิงนามธรรมด้วยตัวอย่างเพียงเล็กน้อย—Grok 4 (โหมด Thinking) อ้างบัลลังก์ด้วย 15.9% ในราคาประมาณ $4 ต่องาน¹⁰ นั่นเกือบเป็นสองเท่าของ Claude Opus 4 ที่ 8.6% และก่อนที่คุณจะดูถูก "แค่ 15.9%" จำไว้ว่าโมเดลส่วนใหญ่ดิ้นรนที่จะทำลาย 5% ในการทดสอบนี้¹¹ มันเหมือนดูคนแก้รูบิคตาบอดในขณะที่คนอื่นๆ ยังคิดอยู่ว่าด้านไหนเป็นสีแดง

การทดลองการขยายขนาดเผยให้เห็นสิ่งที่น่าทึ่ง ด้วยการคำนวณการฝึกอบรมอย่างเดียว Grok 4 ได้ประมาณ 50% ใน Humanity's Last Exam (ชุดย่อยข้อความเท่านั้น) เพิ่มเครื่องมือ และมันกระโดดไป 50.7%¹² การขยายขนาด test-time ราบเรียบใกล้ 50% พิสูจน์ว่ากลยุทธ์การอนุมานที่นวัตกรรมมากขึ้น—ไม่ใช่แค่การขว้างการคำนวณมากขึ้นใส่ปัญหา—ขับเคลื่อนความก้าวหน้า

ใน AIME25 (American Invitational Mathematics Examination) Grok 4 Heavy ได้ 100% สมบูรณ์แบบ ทิ้ง Claude 4 Opus (75.5%) และ Gemini 2.5 Pro (88.0%) ไว้ในฝุ่น¹³ แม้จะไม่มีเครื่องมือ Grok 4 มาตรฐานก็ได้ 91.7%—นั่นดีกว่าผู้เข้าร่วมการแข่งขันคณิตศาสตร์มนุษย์ส่วนใหญ่

แต่นี่คือการแสดงที่หยุดการแสดง: Humanity's Last Exam (ชุดสมบูรณ์) ความท้าทาย 2,500+ คำถามข้าม STEM และมนุษยศาสตร์แยกการท่องจำออกจากการใช้เหตุผลแท้จริง¹⁴ Grok 4 Heavy ได้ 44.4% เกือบสองเท่าของ Gemini 2.5 Pro ที่ 25.4% และมากกว่าสองเท่าของ o3 ที่ 21.0%¹⁵ เมื่อ AI ของคุณเอาชนะคนอื่นด้วยขอบที่ดังนั้น คุณไม่ได้ทำซ้ำ—คุณกำลังปฏิวัติ

ประสิทธิภาพในโลกแห่งความเป็นจริงที่สำคัญ

นอกจากเบนช์มาร์คทางวิชาการ Grok 4 ครองการทดสอบการปฏิบัติ ใน Vending-Bench (ใช่ นั่นเป็นเบนช์มาร์คจริงเกี่ยวกับการเพิ่มประสิทธิภาพการดำเนินงานตู้หยอดเหรียญ) มันบรรลุมูลค่าสุทธิ $4,694 ด้วยการขาย 4,569 หน่วย—มากกว่าสองเท่าของ Claude Opus 4 ที่ $2,077 และมากกว่าห้าเท่าของประสิทธิภาพมนุษย์ที่ $844¹⁶

ชิงชัยเพิ่มเติม: USAMO'25 (61.9%), GPQA Diamond (88%), LiveCodeBench (79.4%), และ MMLU-Pro (87%)¹⁷ ผู้ประเมินอิสระที่ Artificial Analysis มอบมงกุฎให้ Grok 4 ด้วย 73 ใน Intelligence Index ของพวกเขา แซง OpenAI's o3 และ Google's Gemini 2.5 Pro (ทั้งคู่ที่ 70)¹⁸ ไม่เลวสำหรับโมเดลที่ปรากฏเมื่อสามสัปดาห์ที่แล้ว

คำตัดสินของชุมชน: ตื่นเต้น สงสัย และทุกอย่างระหว่างนั้น

ตั้งแต่เปิดตัว X (เดิมชื่อ Twitter) ได้กลายเป็นสนามทดสอบสำหรับความสามารถของ Grok 4 นักพัฒนารายงานการวาง codebase ทั้งหมดสำหรับการ debug ด้วยผลลัพธ์ที่เหนือกว่าเครื่องมือเฉพาะทางเช่น Cursor¹⁹ ผู้ใช้คนหนึ่งเรียกมันว่า "สิ่งที่ใกล้เคียงที่สุดกับ AGI" ในขณะที่นักวิทยาศาสตร์สอบถามปัญหาวัสดุที่ยังไม่ได้แก้และได้รับข้อมูลเชิงลึกใหม่ที่ตรวจสอบได้²⁰ หลังจากการใช้งานในโลกแห่งความเป็นจริงสามสัปดาห์ รูปแบบได้เกิดขึ้น: โมเดลเก่งในงานการใช้เหตุผลที่ซับซ้อน แต่แสดงคำตอบที่น่าสนใจในแอปพลิเคชันสร้างสรรค์

แต่มันไม่ใช่การปรบมือทั้งหมด ผู้ใช้สังเกตข้อจำกัดความเร็วที่ 75 token/วินาที (น่าเคารพแต่ไม่แสนเร็ว) และการกลั่นกรองเนื้อหายังคงน้อยที่สุด—Grok 4 ถูกกรองน้อยกว่าคู่แข่ง จุดประกายการอภิปรายเกี่ยวกับความเป็นกลางของ AI กับความปลอดภัย²¹ บางคนชื่นชมการตอบสนองที่ดิบและไม่ได้ขัดเกลา อื่นๆ กังวลเรื่องการใช้ในทางที่ผิด ประชาธิปไตยในการกระทำ เพื่อนๆ

สิ่งนี้หมายถึงอะไรสำหรับวันพรุ่งนี้ (สปอยเลอร์: ทุกอย่างเปลี่ยน)

นี่คือที่ความมองโลกในแง่ดีของผมเริ่มทำงาน Grok 4 ข้ามหมวดหมู่แชทบอท—มันเป็นการดูตัวอย่างของ AI ในฐานะคู่หูทางปัญญา เมื่อ AI ได้คะแนนระดับ PhD ในการแข่งขันคณิตศาสตร์และช่วยนักวิทยาศาสตร์สำรวจปัญหาที่ยังไม่ได้แก้ เรากำลังเห็นรุ่งอรุณของการค้นพบที่เสริม

สำหรับวิทยาศาสตร์: ลองจินตนาการนักวิจัยทั่วโลกที่มีการเข้าถึง AI ที่เข้าใจคณิตศาสตร์ที่ซับซ้อนอย่างแท้จริงและสามารถเสนอสมมติฐานใหม่ได้ การค้นพบยา การสร้างแบบจำลองสภาพภูมิอากาศ และวิทยาศาสตร์วัสดุ—ทั้งหมดเร่งขึ้น

สำหรับวิศวกรรม: นอกจาก debugging เรากำลังพูดถึง AI ที่เข้าใจสถาปัตยกรรมระบบและสามารถแนะนำการเพิ่มประสิทธิภาพที่มนุษย์อาจไม่เคยพิจารณา มันเหมือนมี Dijkstra และ Turing โทรหาได้

สำหรับการศึกษา: การสอนพิเศษส่วนบุคคลที่ปรับให้เข้ากับไม่เพียงแค่สิ่งที่นักเรียนผิด แต่วิธีที่พวกเขาคิด ผู้เรียนทุกคนได้รับพี่เลี้ยงที่อดทน ฉลาด ปรับให้เหมาะกับสไตล์การคิดของพวกเขา

สำหรับธุรกิจ: จากการวางแผนเชิงกลยุทธ์ไปจนถึงการวิเคราะห์ตลาด ความสามารถในการใช้เหตุผลของ Grok 4 สามารถเปลี่ยนการตัดสินใจจากความรู้สึกเป็นข้อมูลเชิงลึกที่ขับเคลื่อนด้วยข้อมูลพร้อมความเข้าใจที่ละเอียดอ่อน

ข้อแม้ (เพราะความซื่อสัตย์ดีกว่าการพูดเกินจริง)

มาเป็นจริงกัน—ไม่มี AI ไหนสมบูรณ์แบบ และ Grok 4 ก็มีที่ให้เติบโต ความเร็ว 75 token/วินาทีจะไม่ชนะการแข่งขันกับเซิร์ฟเวอร์การอนุมานเฉพาะทาง การหลอนลวง แม้จะลดลงแล้ว ก็ยังไม่หายไปทั้งหมด (ความท้าทายทั่วอุตสาหกรรม) การกรองเนื้อหาที่น้อยที่สุดทำให้เกิดความกังวลที่ถูกต้องเกี่ยวกับศักยภาพการใช้ในทางที่ผิด

ฟัง xAI ไม่ได้บอกเราอะไรเลยเกี่ยวกับข้อมูลการฝึกของพวกเขา และนั่น... ไม่ดี เรารู้ว่ามันเป็นยังไง—อคติของข้อมูลจะขยายเมื่อคุณขยายขนาดใหญ่ขนาดนี้ ทุกคนใน AI กำลังจับตาดู xAI เหมือนนกเหยี่ยวตอนนี้ พวกเขาจะจัดการเรื่องจริยธรรมยังไงเมื่อ Grok 4 แพร่กระจาย? นั่นจะสำคัญ—มาก

เส้นทางข้างหน้า: สิ่งต่างๆ กำลังจะแปลก

ดังนั้น xAI แสดงแผนการบางส่วนของพวกเขาระหว่างการนำเสนอ และสิ่งหนึ่งทำให้ผมตกใจสุดๆ พวกเขาพูดถึงการเชื่อมต่อ Grok กับซอฟต์แวร์ computational fluid dynamics ของ Tesla—CFD เดียวกันที่วิศวกร Tesla ใช้สำหรับอากาศพลศาสตร์และการจัดการความร้อนในรถยนต์จริง²²

ผมต้องคิดนั่นสักครู่ เราเคยชินกับ AI ที่รู้ข้อเท็จจริง ตอบคำถาม และเขียนโค้ด แต่การรวม CFD เป็นตัวแทนสิ่งที่ต่างออกไป เป็นอย่างหนึ่งที่จะมี AI ที่สามารถอธิบายว่าพลศาสตร์ของของไหลทำงานยังไง เป็นอีกอย่างหนึ่งทั้งหมดเมื่อ AI นั้นสามารถใช้ซอฟต์แวร์ CFD เพื่อออกแบบสิ่งที่เคลื่อนที่ผ่านอากาศและกระจายความร้อน นั่นไม่ใช่ความก้าวหน้าแบบเพิ่มขึ้น—นั่นเป็นความสามารถใหม่ทั้งหมด

OpenAI, Anthropic, และ Google จะไม่มองจากข้างสนาม แต่ Grok 4 เปลี่ยนเกม—เราไปจากดินแดน "ผู้ช่วยที่มีประโยชน์" ตรงไปที่ "คู่หูการใช้เหตุผล" การเปลี่ยนแปลงทำให้ผมนึกถึงสิ่งที่ Ray Kurzweil พูดถึงเกี่ยวกับการระเบิดของปัญญา—ความก้าวหน้าแต่ละครั้งทำให้อันต่อไปเกิดขึ้นเร็วขึ้นและเร็วขึ้น เรากำลังดูมันเกิดขึ้นใน real time

ตาคุณ: คุณจะสร้างอะไร?

ดังนั้นผมคิดอยู่—จะเกิดอะไรขึ้นเมื่อ AI สามารถใช้เหตุผลในระดับ PhD ได้ทั่วบอร์ด? ปัญหาอะไรที่ดูเป็นไปไม่ได้จู่ๆ แตกออกกว้าง? เราจะค้นพบอะไรเมื่อเครื่องมือของเราสามารถคิดเคียงข้างเรา? และตรงไปตรงมา เราต้องการ guardrail แบบไหนเมื่อ AI ฉลาดขนาดนี้?

ถ้าคุณเป็นนักพัฒนา คุณกำลังวางแผนจะสร้างอะไรกับ API เหล่านั้นอยู่แล้ว นักวิจัยอาจจะมีวันที่ดีคิดเกี่ยวกับสิ่งที่เป็นไปได้อย่างกะทันหัน และถ้าคุณนั่งอยู่ที่นี่คิดว่า "ความสามารถของ Grok 4 หมายถึงอะไร?"—ใช่ ผมเข้าใจ แนวคิดใช้เวลาในการประมวลผล

แต่นี่คือสิ่ง: Grok 4 ลงจอดในอ้อมแขนของเราไม่ว่าเราจะพร้อมหรือไม่ AI เพิ่งพูดว่า "นี่คือสิ่งที่เป็นไปได้ตอนนี้ คิดออกว่าจะทำอะไรกับมัน"

ดังนั้น... คุณจะทำอะไรกับมัน? Grok API อยู่ที่ https://x.ai/api และมีชุมชนทั้งหมดใน X ที่นักพัฒนาและนักวิจัยกำลังผลักดันขีดจำกัดอยู่แล้ว สามสัปดาห์เข้าไป เราเห็นแอปพลิเคชันที่ไม่มีใครคาดการณ์ตอนเปิดตัว โอกาสที่นี่ใหญ่มาก—อย่ามาเสียมันเลย

อ้างอิง

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING