Масштабування під час інференсу: новий рубіж навчання для міркування ШІ
12 грудня 2025 року
Оновлення за грудень 2025: Масштабування під час інференсу стало домінуючим напрямком досліджень у сфері міркування ШІ. ThreadWeaver досягає зменшення латентності в 1,5 рази, зберігаючи точність. P1 стає першою моделлю з відкритим кодом, що здобула золото на олімпіаді з фізики завдяки RL та агентам часу тестування. DeepSeek-R1 порівнюється з OpenAI o1 при на 70% нижчій вартості. Аналітики прогнозують, що інференс займатиме 75% загальних обчислень ШІ до 2030 року.
Коротко
Парадигма масштабування ШІ змінилася. Замість навчання більших моделей дослідники тепер досягають найкращих результатів у міркуванні, витрачаючи більше обчислень під час інференсу. Ключове розуміння: дозволяючи моделям «думати довше» через розширений ланцюг міркувань, можна досягти здатностей до міркування, яких неможливо досягти лише навчанням. DeepSeek-R1 довів це у масштабі, порівнявшись з o1, генеруючи в 10-100 разів більше токенів на запит. ThreadWeaver паралелізує це міркування для зменшення латентності. P1 поєднує RL-навчання з агентами часу тестування для здобуття золота на олімпіаді з фізики. Для інфраструктури попит на інференс перевищить попит на навчання у 118 разів до 2026 року, переорієнтовуючи закупівлі GPU на обладнання, оптимізоване для інференсу.
Що сталося
Три дослідницькі прориви демонструють зрілість масштабування під час інференсу:
DeepSeek-R1 (січень 2025): DeepSeek випустив R1, довівши, що чисте навчання з підкріпленням може забезпечити здатності до міркування на рівні OpenAI o1. Модель покращила точність на бенчмарку AIME з 15,6% до 71% через розширений ланцюг міркувань, досягнувши 86,7% з голосуванням більшості.1
Модель P1 для фізики (листопад 2025): Дослідники випустили P1 — першу сім'ю моделей з відкритим кодом, що досягла результатів рівня золотої медалі на Міжнародній олімпіаді з фізики (IPhO 2025). P1-235B-A22B набрала 21,2/30 балів, посівши третє місце після Gemini-2.5-Pro та GPT-5.2
ThreadWeaver (2025): ThreadWeaver представив паралельне міркування, досягнувши середнього прискорення латентності токенів у 1,53 рази, зберігаючи точність послідовного міркування. Підхід дозволяє одночасно досліджувати шляхи міркування замість послідовного ланцюга думок.3
Чому це важливо для інфраструктури
Ментальна модель: Традиційне масштабування інвестувало обчислення під час навчання (більші моделі, більше даних). Масштабування під час інференсу інвестує обчислення під час запиту (довші ланцюги міркувань, множинні спроби, самоперевірка). Модель із 7B параметрами зі 100-кратним обчисленням інференсу може зрівнятися з моделлю 70B зі стандартним інференсом. Наслідки для інфраструктури глибокі: кластери інференсу важливіші за кластери навчання.
Інференс стає вузьким місцем: Аналітики прогнозують, що попит на інференс перевищить попит на обчислення для навчання у 118 разів до 2026 року. До 2030 року інференс може займати 75% загальних обчислень ШІ, що призведе до інвестицій в інфраструктуру на 7 трильйонів доларів.4
Моделі міркування споживають більше токенів: DeepSeek-R1, o1 та o3-mini генерують «на порядки більше токенів», ніж моделі без міркування. Витрати OpenAI на інференс у 2024 році досягли 2,3 мільярда доларів: у 15 разів більше за вартість навчання GPT-4.5
Попит на GPU-інфраструктуру зростає: Дженсен Хуан заявив, що моделі міркування наступного покоління потребують «до 100 разів більше обчислювальних ресурсів».6 Ринок інференсу ШІ зростає з 106 млрд доларів (2025) до 255 млрд доларів (2030) із середньорічним темпом зростання 19,2%.
Латентність знову має значення: Паралельне міркування ThreadWeaver вирішує критичне обмеження. Латентність послідовного міркування зростає пропорційно довжині ланцюга. Для застосунків реального часу швидкість інференсу стає конкурентною перевагою.
Технічні деталі
Підхід DeepSeek-R1
DeepSeek-R1-Zero навчав міркування через чисте RL, використовуючи Group Relative Policy Optimization (GRPO):7
| Компонент | Деталі |
|---|---|
| Метод навчання | Чисте RL, без дотренування з учителем |
| Алгоритм | GRPO (адаптація PPO без функції цінності) |
| Ключове розуміння | Розширений CoT під час інференсу створює міркування |
| Продуктивність на AIME | 15,6% → 71% (86,7% з голосуванням більшості) |
| Перевага у вартості | На 70% нижча вартість інференсу порівняно з аналогами |
Примітно, що DeepSeek явно класифікував такі методи, як Process Reward Models та Monte Carlo Tree Search, як «невдалі спроби». Результати свідчать, що чисте RL з довшими відповідями слугує неявним масштабуванням під час інференсу.8
Паралельне міркування ThreadWeaver
ThreadWeaver дозволяє одночасні шляхи міркування замість послідовного ланцюга думок:9
| Інновація | Опис |
|---|---|
| Генератор паралельних траєкторій | Створює дані CoT з паралельними анотаціями |
| Спільне проєктування на основі Trie | Дозволяє паралельне міркування без зміни позиційних ембедингів |
| Алгоритм P-GRPO | Спільно оптимізує точність та зменшення латентності |
Продуктивність на базі Qwen3-8B:
| Бенчмарк | ThreadWeaver | Послідовний | Прискорення |
|---|---|---|---|
| AIME24 | 79,9% | 78,3% | 1,14x |
| AMC23 | — | — | 1,16x |
| MATH500 | — | — | 1,23x |
| OlympiadBench | — | — | 1,21x |
| Minerva Math | — | — | 1,53x |
Модель P1 для фізики
P1 поєднує масштабування під час навчання та тестування:10
Під час навчання (RL Post-Training): - Багатоетапний фреймворк RL на базових мовних моделях - Прогресивне покращення міркування - Вирішення проблем розрідженості винагороди та колапсу ентропії
Під час тестування (агент PhysicsMinions): - Visual Studio: візуальний аналіз - Logic Studio: логічне міркування - Review Studio: перевірка рішень - Багатоетапна рефлексія та самокорекція
Результати на IPhO 2025:
| Модель | Бали | Рейтинг |
|---|---|---|
| Gemini-2.5-Pro | 37,7 | — |
| GPT-5 | 37,4 | — |
| P1-235B + PhysicsMinions | 38,4 | 1-е |
| P1-235B-A22B (окремо) | 21,2/30 | Золото |
Прогнози обчислень для інференсу
| Метрика | Значення | Джерело |
|---|---|---|
| Ринок інференсу 2025 | 106 млрд $ | MarketsandMarkets |
| Ринок інференсу 2030 | 255 млрд $ | MarketsandMarkets |
| Ринок чипів для інференсу 2027 | 102 млрд $ | Reuters |
| Частка інференсу в обчисленнях ШІ (2030) | 75% | Галузевий аналіз |
| Попит на навчання vs інференс (2026) | 1:118 | Оцінки аналітиків |
| Зростання глобальних обчислень ШІ (2025-2027) | 10x | Прогноз AI 2027 |
Наслідки для політики та регулювання
Існуючі регуляції використовують порогові значення обчислень для навчання (наприклад, 10^25 FLOPs в EU AI Act). Однак масштабування під час інференсу змінює розрахунки:11
- Моделі можуть досягати високих можливостей через обчислення інференсу, а не лише навчання
- Менша навчена модель з інтенсивним міркуванням під час тестування може перевищити можливості порогових моделей
- Регулятори ризикують «недооцінити реальний вплив моделі», зосереджуючись лише на обчисленнях для навчання
Що далі
2026: Прогнозується, що попит на інференс перевищить навчання у 118 разів. Планування дата-центрів зміщується до архітектури, оптимізованої для інференсу.
2027: Прогнозується, що глобальні обчислення, релевантні для ШІ, досягнуть 100 млн H100-еквівалентів (10-кратне зростання з березня 2025).12
Поточний період: Дослідження продовжуються у сфері паралельного міркування (ThreadWeaver), мультиагентних систем (PhysicsMinions) та RL-міркування (DeepSeek, P1).
Зміна інфраструктури: Спеціально створена інфраструктура для інференсу (NVIDIA Blackwell, TPU v5e, Groq LPU) стає домінуючою категорією обчислень.
Ключові висновки
Для планувальників інфраструктури: - Прогнозується, що інференс займатиме 75% обчислень ШІ до 2030 року - Моделі міркування споживають у 10-100 разів більше токенів, ніж стандартні моделі - Оптимізація латентності (паралелізм у стилі ThreadWeaver) створює вимоги до обладнання - Враховуйте навантаження з інтенсивним інференсом при моделюванні потужностей
Для операційних команд: - NVIDIA Blackwell оптимізовано для інференсу у масштабі (1,4 екзаFLOPS на стійку) - Моніторте витрати на інференс, які можуть перевищувати витрати на навчання у 15 разів (за даними OpenAI 2024) - Налаштування обчислень під час тестування впливає на компроміси між латентністю та вартістю - Агентні фреймворки (PhysicsMinions) додають накладні витрати багатоетапного інференсу
Для стратегічного планування: - Співвідношення обчислень навчання та інференсу різко змінюється - Менші моделі + інтенсивний інференс можуть зрівнятися з більшими навченими моделями - DeepSeek-R1 демонструє 70% перевагу у вартості завдяки ефективності - Регуляторні рамки можуть розширитися за межі порогів обчислень для навчання
Посилання
Щодо GPU-інфраструктури для інтенсивних інференс-навантажень ШІ звертайтеся до Introl.
-
HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. ↩
-
arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." November 2025. ↩
-
ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. ↩
-
Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. ↩
-
NVIDIA. "AI Inference Solutions." 2025. ↩
-
Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. ↩
-
DeepSeek. "DeepSeek-R1 Technical Report." January 2025. ↩
-
ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. ↩
-
Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. ↩
-
AI 2027. "Compute Forecast." 2025. ↩
-
MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. ↩
-
NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. ↩
-
arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. ↩
-
Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. ↩