Grok 4 щойно зруйнував стелю AI — ось чому це змінює все

Grok 4 від xAI досягає безпрецедентних результатів у бенчмарках завдяки своїй інфраструктурі з 200 000 GPU, подвоюючи продуктивність конкурентів у тестах критичного мислення. Унікальний мультиагентний підхід моделі та інтеграція з CFD-програмним забезпеченням Tesla сигналізують про перехід від AI-асистентів до справжніх партнерів у міркуванні.

Blake Crosley

Aug 01, 2025 10 min read Disclaimer

Grok 4 щойно зруйнував стелю AI — ось чому це змінює все

Що ж, це ескалувало швидко. Три тижні тому Elon Musk та xAI випустили Grok 4 на нічого не підозрюючий світ, і бенчмарки продовжують змушувати досвідчених AI-дослідників дивитися двічі. Уявіть AI, який розмірковує над проблемами, як команда PhD під кофеїном, що мозкує о 3-й ранку. Тепер, коли початковий ажіотаж вщух і розробники протестували Grok 4 у дії, дозвольте мені пояснити, чому ця модель представляє більше, ніж просто черговий реліз — це погляд у майбутнє, де AI стає справжнім інтелектуальним партнером.

https://x.com/xai/status/1943158495588815072

Запуск, який зламав інтернет (і деякі рекорди)

xAI представили Grok 4 9 липня 2025 року через прямий ефір, який зібрав 1,5 мільйона глядачів — непогано для технічної презентації вночі.¹ Час був... цікавим, всього через день після того, як Grok 3 потрапив у заголовки з неправильних причин через деякі суперечливі відповіді.² Але xAI вирішили, що найкращий захист — це переважаючий наступ.

Musk представив два варіанти: стандартний Grok 4 і Grok 4 Heavy, останній розгортає кількох AI-агентів, які перевіряють роботу один одного, як навчальна група, де всі прочитали матеріал.³ Доступ здійснюється через додаток Grok, веб-сайт або API, а Heavy доступний ексклюзивно підписникам SuperGrok Heavy за $300/місяць — ціна, яка говорить «ми серйозно до цього ставимося».⁴ Для цікавих: https://x.ai/grok для загального доступу, https://x.ai/api для розробників.

Функції, що роблять інші AI схожими на калькулятори

Grok 4 має контекстне вікно на 256 000 токенів (це приблизно обсяг тексту роману, який він може обробити одночасно), аналіз зображень, виклик функцій та голосові режими настільки природні, що ви можете забути, що розмовляєте з кремнієм.⁵ Але ось де стає цікаво: нативне використання інструментів. xAI навчили цю бестію з підкріпленням навчання використовувати інтерпретатор коду та веб-браузер — як розширення її розуму.

Реальний час пошуку по X, веб-сайтах та новинах підтримує свіжість відповідей — більше ніяких виправдань «мій cutoff знань». Мультимодальні можливості дозволяють безперешкодно поєднувати аналіз тексту та зору, а Voice Mode додає аналіз сцени через вашу камеру.⁶ Для корпоративних людей, які переживають про відповідність: SOC 2 Type 2, GDPR та CCPA — все відмічено. Це як мати дотепного дослідницького асистента, який ніколи не спить, ніколи не скаржиться на понаднормові та розуміє ваш жахливий почерк.

Секретний соус: коли груба сила зустрічає тонкощі

За магією Grok 4 стоїть суперкомп'ютер Colossus від xAI — монстр на 200 000 GPU, який робить більшість центрів обробки даних схожими на кишенькові калькулятори.⁷ Але сира потужність не розповідає всю історію. xAI революціонізували свій підхід, масштабуючи навчання з підкріпленням відповідно до обчислень попереднього навчання, зосереджуючись на верифікованих даних з математики, програмування та наукових галузей, що підвищило ефективність у 6 разів, перетворивши обчислювальну м'язову силу на витончений інтелект.⁸

Справжня інновація? Вони витратили стільки ж на пост-тренінгове навчання з підкріпленням, скільки й на попереднє навчання.⁹ Grok 4 Heavy йде далі з паралельними обчисленнями часу тестування — кілька AI-агентів одночасно вирішують проблеми, перш ніж порівнювати нотатки. Уявіть оновлення від самотнього винахідника в гаражі до синхронізованого оркестру лауреатів Нобелівської премії, кожен з яких перевіряє роботу інших.

Перевірка реальності інфраструктури

Суперкомп'ютер Colossus має 200 000 GPU, що просто... я навіть не можу охопити це число. Більшість компаній в захваті, коли отримують кластер з кількома сотнями GPU, що працюють гладко. Але 200 000? Тепловиділення одне лише було б як робота невеликої електростанції.

І це ще до того, як ви подумаєте про їх належне з'єднання, забезпечення їх даними, переконання, що ваша енергомережа просто не відмовиться від вас... Кожна деталь має значення: як ви розташовуєте стійки, який тип охолодження використовуєте (і так, вам потрібне серйозне охолодження, бо ці штуки ГАРЯЧІ), плюс всі мережеві та енергетичні кошмари розподілу, що йдуть з цим. Зіпсуйте будь-який елемент цієї головоломки, і ви спалюєте гроші на неефективному обладнанні. Компаніям, які хочуть побудувати власну AI-інфраструктуру, чи то 10 GPU або 10 000 000, потрібна експертиза у всьому — від розподілу енергії до складних оптоволоконних з'єднань, які підтримують потік даних зі швидкістю світла. Ось тут професійне розгортання інфраструктури робить різницю між теоретичними характеристиками та реальною продуктивністю. Як знає команда Introl з розгортання незліченних AI-кластерів, диявол справді в деталях — правильна інфраструктура може означати різницю між GPU, що працюють з ефективністю 95%, проти залишення 30% вашої продуктивності на столі.

Числа, що змушують статистиків плакати від радості

Давайте поглибимося в бенчмарки, які змушують AI-спільноту гудіти. На нещадно складному тесті ARC-AGI-2 — де моделі повинні демонструвати абстрактне мислення з мінімальними прикладами — Grok 4 (Thinking mode) займає трон з 15,9% приблизно за $4 за завдання.¹⁰ Це майже подвоює показник Claude Opus 4 у 8,6%, і перш ніж ви знехтуєте «лише 15,9%», пам'ятайте, що більшість моделей борються, щоб подолати 5% на цьому тесті.¹¹ Це як дивитися, як хтось вирішує кубики Рубіка із зав'язаними очима, поки всі інші ще з'ясовують, яка сторона червона.

Експерименти масштабування розкривають щось захоплююче. Лише з обчисленнями навчання Grok 4 досягає близько 50% на Humanity's Last Exam (підмножина лише тексту). Додайте інструменти, і він стрибає до 50,7%.¹² Масштабування часу тестування виходить на плато біля 50%, доводячи, що більш інноваційні стратегії виведення — а не просто кидання більших обчислень на проблеми — рухають прориви.

На AIME25 (American Invitational Mathematics Examination) Grok 4 Heavy досягає ідеальних 100%, залишаючи Claude 4 Opus (75,5%) та Gemini 2.5 Pro (88,0%) у пилу.¹³ Навіть без інструментів стандартний Grok 4 набирає 91,7% — це краще, ніж більшість людських учасників математичних змагань.

Але ось шоу-стопер: Humanity's Last Exam (повний набір). Випробування з 2500+ питань по STEM та гуманітарним наукам відокремлює запам'ятовування від справжнього мислення.¹⁴ Grok 4 Heavy набирає 44,4%, майже подвоюючи показник Gemini 2.5 Pro у 25,4% та більш ніж подвоюючи o3 у 21,0%.¹⁵ Коли ваш AI перевершує інших з такими відступами, ви не ітеруєте — ви революціонізуєте.

Реальна продуктивність, що має значення

Поза академічними бенчмарками Grok 4 домінує в практичних тестах. На Vending-Bench (так, це справжній бенчмарк про оптимізацію роботи торгових автоматів) він досягає чистої вартості $4,694 з 4,569 проданими одиницями — більш ніж подвоює показник Claude Opus 4 у $2,077 та п'ятикратно перевершує людську продуктивність у $844.¹⁶

Додаткові перемоги: USAMO'25 (61,9%), GPQA Diamond (88%), LiveCodeBench (79,4%) та MMLU-Pro (87%).¹⁷ Незалежні оцінювачі в Artificial Analysis коронують Grok 4 з 73 балами на їхньому Intelligence Index, випереджаючи OpenAI o3 та Google Gemini 2.5 Pro (обидва по 70).¹⁸ Непогано для моделі, що з'явилася всього три тижні тому.

Вердикт спільноти: захоплені, скептичні та все між ними

З моменту запуску X (колишній Twitter) став полем для тестування можливостей Grok 4. Розробники повідомляють про вставку цілих кодових баз для налагодження з результатами, що перевершують спеціалізовані інструменти як Cursor.¹⁹ Один користувач назвав це «найближчою річчю до AGI поки що», а вчені запитують нерозв'язані проблеми матеріалів та отримують нові інсайти, які виправдовуються.²⁰ Після трьох тижнів використання в реальному світі з'явилися закономірності: модель перевершує у складних завданнях мислення, але показує цікаві дивацтва в творчих застосуваннях.

Але це не все овації стоячи. Користувачі відзначають обмеження швидкості на 75 токенів/секунду (респектабельно, але не блискавично), а модерація контенту залишається мінімальною — Grok 4 менш відфільтрований за конкурентів, викликаючи дебати про нейтральність AI проти безпеки.²¹ Деякі цінують сирі, неприкрашені відповіді; інші турбуються про потенційне зловживання. Демократія в дії, люди.

Що це означає для завтра (спойлер: все змінюється)

Ось де мій оптимізм переходить у надпривід. Grok 4 виходить за межі категорії чат-бота — це попередній перегляд AI як інтелектуального партнера. Коли AI набирає рівень PhD на математичних змаганнях та допомагає вченим досліджувати нерозв'язані проблеми, ми стаємо свідками світанку доповненого відкриття.

Для науки: Уявіть дослідників по всьому світу з доступом до AI, який справді розуміє складну математику і може пропонувати нові гіпотези. Відкриття ліків, моделювання клімату та наука про матеріали — все прискорене.

Для інженерії: Поза налагодженням, ми говоримо про AI, який розуміє архітектури систем і може пропонувати оптимізації, про які люди можуть ніколи не подумати. Це як мати Dijkstra та Turing на швидкому наборі.

Для освіти: Персоналізоване навчання, що адаптується не лише до того, що учні роблять неправильно, а до того, як вони думають. Кожен учень отримує терплячого, блискучого ментора, пристосованого до їхнього когнітивного стилю.

Для бізнесу: Від стратегічного планування до аналізу ринку, можливості мислення Grok 4 могли б трансформувати прийняття рішень від інтуїтивних відчуттів до інсайтів, заснованих на даних з тонким розумінням.

Застереження (бо чесність переможе ажіотаж)

Давайте будемо реалістами — жоден AI не ідеальний, і Grok 4 має простір для зростання. Швидкість 75 токенів/секунду не виграє жодних перегонів проти спеціалізованих серверів виведення. Галюцинації, хоча й зменшені, не зникли повністю (проблема всієї галузі). Мінімальна фільтрація контенту викликає обґрунтовані занепокоєння щодо потенціалу зловживань.

Слухайте, xAI не сказали нам ні біса про свої тренувальні дані, і це... не дуже добре. Ми всі знаємо, як це йде — упередження даних посилюються, коли ви масштабуєтесь так великомасштабно. Всі в AI зараз спостерігають за xAI як яструби. Як вони впораються з етичною частиною, коли Grok 4 розповсюджується? Це буде мати значення — велике значення.

Дорога вперед: все стане дивним

Отже, xAI показали деякі зі своїх планів під час презентації, і одна річ повністю підірвала мій розум. Вони згадали підключення Grok до програмного забезпечення обчислювальної гідродинаміки Tesla — того самого CFD, яке інженери Tesla використовують для аеродинаміки та теплового керування на справжніх транспортних засобах.²²

Мені довелося посидіти з цим хвилину. Ми звикли до AI, який знає факти, відповідає на питання та пише код. Але інтеграція CFD представляє щось інше. Одна річ мати AI, який може пояснити, як працює гідродинаміка. Зовсім інша річ, коли цей AI може використовувати програмне забезпечення CFD для проектування речей, що рухаються повітрям та розсіюють тепло. Це не поступовий прогрес — це зовсім нова можливість.

OpenAI, Anthropic та Google не будуть дивитися збоку. Але Grok 4 змінив гру — ми перейшли з території «корисного асистента» прямо до «партнера з мислення». Зсув нагадує мені те, про що говорить Ray Kurzweil щодо вибуху інтелекту — кожен прорив робить наступний швидшим та швидшим. Ми спостерігаємо, як це відбувається в реальному часі.

Ваша черга: що ви побудуєте?

Тож я думав — що відбувається, коли AI може міркувати на рівні PhD у всіх сферах? Які проблеми, що здавалися неможливими, раптом відкриваються широко? Що ми відкриваємо, коли наші інструменти можуть думати поруч з нами? І чесно, які види запобіжників нам потрібно встановити, коли AI стає настільки розумним?

Якщо ви розробник, ви вже плануєте, що побудувати з цими API. Дослідники, ймовірно, мають польовий день, думаючи про те, що раптом стало можливим. І якщо ви сидите тут, думаючи: «Що взагалі означає можливість Grok 4?» — так, я розумію. Концепція потребує часу для обробки.

Але ось річ: Grok 4 приземлився на наших руках, готові ми чи ні. AI щойно сказав: «Ось що можливо зараз, з'ясуйте, що з цим робити».

Отже... що ВИ збираєтесь з цим робити? Grok API знаходиться за адресою https://x.ai/api, і є ціла спільнота на X, де розробники та дослідники вже розширюють межі. Три тижні потому, ми бачимо застосування, які ніхто не передбачав під час запуску. Можливості тут величезні — не втратимо їх.

Посилання

Scott Rosenberg, "Elon Musk's xAI debuts Grok 4, 'smartest AI in the world,'" Axios, July 10, 2025, https://www.axios.com/2025/07/10/grok4-grok-xai-elon-musk.
"Musk unveils Grok 4 update a day after xAI chatbot made antisemitic remarks," CBS News, July 10, 2025, https://www.cbsnews.com/news/elon-musk-grok-4-ai-chatbot-x/.
"Elon Musk's xAI launches Grok 4 alongside a $300 monthly subscription," TechCrunch, July 9, 2025, https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/.
"Elon Musk's xAI launches Grok 4 alongside a $300 monthly subscription," TechCrunch.
xAI, "Grok 4 Release Announcement," livestream presentation, July 9, 2025.
xAI, "Grok 4 Release Announcement."
"Grok 4 Release: xAI Claims #1 AI Model Crown in Independent Testing," Gear Musk, July 10, 2025, https://gearmusk.com/2025/07/10/xai-unveils-grok-4/.
xAI, "Grok 4 Release Announcement."
"Musk's Grok-4 Crushes Benchmarks, Beats OpenAI & Google in RL," Analytics India Magazine, July 10, 2025, https://analyticsindiamag.com/global-tech/musks-grok-4-crushes-benchmarks-beats-openai-google-in-rl/.
"ARC Prize," X (formerly Twitter), July 10, 2025, [https://twitter.com/arcprize/status/specific-id].
François Chollet, "ARC-AGI: A New Frontier in AI Reasoning," ARC Prize Organization, 2025.
xAI, "Grok 4 Release Announcement."
"Elon Musk's Grok 4 AI Models Set New Benchmark Records," Beebom, July 10, 2025, https://beebom.com/elon-musk-grok-4-ai-models-set-new-benchmark-records/.
"xAI sets AI benchmark records with new reasoning-optimized Grok 4 model," SiliconANGLE, July 10, 2025, https://siliconangle.com/2025/07/10/xai-sets-ai-benchmark-records-new-reasoning-optimized-grok-4-model/.
xAI, "Grok 4 Release Announcement."
xAI, "Grok 4 Release Announcement."
xAI, "Grok 4 Release Announcement."
"Comparison of AI Models across Intelligence, Performance, Price," Artificial Analysis, accessed July 11, 2025, https://artificialanalysis.ai/models.
User testimonials, X (formerly Twitter), July 10-11, 2025.
User testimonials, X (formerly Twitter), July 10-11, 2025.
"What's New in Grok 4? Release Facts, Benchmarks, and Value," SmythOS, July 10, 2025, https://smythos.com/developers/ai-models/whats-new-in-grok-4-release-facts-benchmarks-and-value/.
xAI, "Grok 4 Release Announcement."

Запуск, який зламав інтернет (і деякі рекорди)

Функції, що роблять інші AI схожими на калькулятори

Секретний соус: коли груба сила зустрічає тонкощі

Перевірка реальності інфраструктури

Числа, що змушують статистиків плакати від радості

Реальна продуктивність, що має значення

Вердикт спільноти: захоплені, скептичні та все між ними

Що це означає для завтра (спойлер: все змінюється)

Застереження (бо чесність переможе ажіотаж)

Дорога вперед: все стане дивним

Ваша черга: що ви побудуєте?

Посилання

You Might Also Like

ДБЖ та розподіл електроенергії для ШІ: проєктування стійкої ...

Модернізація застарілих дата-центрів для ШІ: посібник з інте...

xAI Colossus досягає 2 ГВт: 555 000 GPU, $18 млрд, найбільши...

Запросити пропозицію_

Запит отримано_