GPT-5.2: Перша модель понад 90% ARC-AGI змінює математику інференсу

GPT-5.2 від OpenAI досягає 93,2% GPQA Diamond, 100% AIME, 70,9% GDPval. Контекстне вікно на 400K токенів формує нові вимоги до інфраструктури інференсу.

Blake Crosley

Jan 02, 2026 4 min read Disclaimer

GPT-5.2: Перша модель понад 90% ARC-AGI змінює математику інференсу

1 січня 2026

Оновлення січня 2026: OpenAI випустила GPT-5.2 11 грудня 2025 року, досягнувши показників бенчмарків, які переосмислюють можливе у професійній інтелектуальній роботі. Модель перевершує людських експертів у 70,9% завдань GDPval зі швидкістю в 11 разів вищою та вартістю менше 1%.

Резюме

GPT-5.2 перетинає критичні пороги можливостей: перша модель понад 90% на ARC-AGI-1, ідеальні 100% на AIME 2025 та 40,3% на FrontierMath (покращення на 10% порівняно з 5.1). Контекстне вікно на 400K токенів та 128K вихідних токенів створюють нові вимоги до інфраструктури. Для провайдерів інференсу підвищення ціни в 1,4 рази сигналізує про впевненість OpenAI — та обчислювальну інтенсивність, необхідну для обслуговування цих можливостей.

Що сталося

OpenAI запустила GPT-5.2 11 грудня 2025 року, лише через 11 днів після ймовірного оголошення «червоного коду» у відповідь на домінування Google Gemini 3 у бенчмарках.¹

Запуск включає два варіанти:

Варіант	Випадок використання	Ціна (за 1M токенів)
GPT-5.2	Загальне використання	$1,75 вхід / $14 вихід
GPT-5.2 Pro	Розширене міркування	Вища (рівень xhigh)

Ключові характеристики:²

Контекстне вікно: 400 000 токенів
Максимальний вихід: 128 000 токенів
Дата відсікання знань: 31 серпня 2025 (оновлено з вересня 2024)
Ціна: 1,4x вартості GPT-5.1

GPT-5.2 побудовано на інфраструктурі Azure з використанням GPU NVIDIA H100, H200 та GB200-NVL72.³

Продуктивність бенчмарків

GPT-5.2 встановлює нові рекорди на професійних, наукових та математичних бенчмарках:⁴

Бенчмарк	Оцінка GPT-5.2	Попередній найкращий	Покращення
GPQA Diamond (докторська наука)	93,2%	91,9% (Gemini 3)	+1,3%
ARC-AGI-1 Верифікований	>90%	~85%	Перший понад 90%
AIME 2025 (математика)	100%	96,7% (Gemini 3)	Ідеальний бал
FrontierMath T1-3	40,3%	30% (GPT-5.1)	+10%
GDPval (інтелектуальна робота)	70,9%	—	Перевершує експертів
SWE-Bench Pro (програмування)	55,6%	51% (GPT-5.1)	+4,6%
Tau2 Telecom (використання інструментів)	98,7%	~95%	Майже ідеально

Результат GDPval заслуговує на увагу: GPT-5.2 Thinking видавав результати зі швидкістю >11x та вартістю <1% порівняно з людськими експертами-професіоналами у 44 професіях.⁵

Чому це важливо

Сплеск попиту на інференс

Контекстне вікно на 400K токенів вимагає значної пам'яті на запит. Один інференс з повним контекстом споживає значно більше пам'яті GPU, ніж попередні моделі на 128K. Провайдери повинні планувати:⁶

Масштабування пам'яті: 3x+ пам'яті на запит порівняно з контекстом 128K
Зменшення розміру пакету: Менше одночасних запитів на GPU
Зростання KV-кешу: Довжина контексту × розмір пакету = масивні вимоги до KV-кешу

Зміна структури витрат

Підвищення ціни в 1,4x порівняно з GPT-5.1 відображає реальну обчислювальну інтенсивність:⁷

Модель	Вартість входу	Вартість виходу	Співвідношення до 5.1
GPT-5.1	$1,25/M	$10/M	1,0x
GPT-5.2	$1,75/M	$14/M	1,4x

Для операцій інференсу великого обсягу це означає збільшення TCO на 40% для еквівалентних навантажень.

Автоматизація професійної роботи

Продуктивність GPT-5.2 у GDPval — перевершення експертів у 70,9% завдань за <1% вартості — створює негайний попит на корпоративне впровадження. Організації, які шукають ці можливості, потребують інфраструктури інференсу, здатної обробляти:⁸

Розширені ланцюги міркувань (варіант Pro)
Обробку документів з довгим контекстом
Надійні виклики інструментів (98,7% Tau2)

Технічні деталі

Архітектура

OpenAI не розкрила конкретних архітектурних змін, але патерни бенчмарків вказують на:⁹

Покращені можливості міркування (FrontierMath +10%)
Покращена точність довгого контексту (витяг 256K токенів)
Краща надійність використання інструментів (Tau2 98,7%)

Вимоги до інференсу

Обслуговування GPT-5.2 у масштабі вимагає врахування:¹⁰

Фактор	GPT-5.1	GPT-5.2	Наслідок
Контекстне вікно	200K	400K	2x пам'яті на запит
Максимальний вихід	64K	128K	2x часу генерації
Глибина міркування	Стандартна	Розширена (Pro)	Змінна затримка
Виклики інструментів	95%	98,7%	Складніша оркестрація

Конкурентний контекст

GPT-5.2 повертає деякі бенчмарки від Gemini 3, але не всі:¹¹

Бенчмарк	Лідер	Оцінка
GPQA Diamond	Gemini 3 Deep Think	93,8%
AIME 2025	GPT-5.2 Thinking	100%
SWE-bench Verified	Gemini 3 Pro	76,2%
Humanity's Last Exam	Gemini 3	Лідирує
GDPval	GPT-5.2 Thinking	70,9%

Швидкий темп випусків — GPT-5.2 лише через 11 днів після Gemini 3 — демонструє тиск інфраструктури інференсу, який відчувають обидві компанії.

Що далі

Короткострокова перспектива (Q1 2026)

GPT-5.2 Mini ймовірно скоро (без варіанту Mini при запуску)
Розширення розгортання корпоративного API
Сторонні провайдери інференсу додають підтримку

Наслідки для інфраструктури

Організації, що планують розгортання GPT-5.2, повинні:¹²

Оцінити ємність пам'яті: Контекст 400K вимагає 3x+ пам'яті порівняно з моделями 128K
Планувати KV-кеш: Розширення пам'яті CXL стає все більш актуальним
Бюджетувати обчислення: Збільшення вартості в 1,4x реальне
Розглянути гібридні підходи: Направляти простіші завдання до дешевших моделей

Для розгортання інфраструктури інференсу, що підтримує передові моделі, зверніться до Introl.

Посилання

FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." Грудень 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." Грудень 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
OpenAI. "Introducing GPT-5.2." 11 грудня 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." Грудень 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
Vellum. "GPT-5.2 Benchmarks (Explained)." Грудень 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." Грудень 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
Simon Willison. "GPT-5.2." 11 грудня 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
OpenAI. "GPT-5.2 System Card." Грудень 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
OpenAI. "Introducing GPT-5.2-Codex." Грудень 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." Грудень 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
LM Council. "AI Model Benchmarks Dec 2025." Грудень 2025. https://lmcouncil.ai/benchmarks ↩
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." Грудень 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩

GPT-5.2: Перша модель понад 90% ARC-AGI змінює математику інференсу

Резюме

Що сталося

Продуктивність бенчмарків

Чому це важливо

Сплеск попиту на інференс

Зміна структури витрат

Автоматизація професійної роботи

Технічні деталі

Архітектура

Вимоги до інференсу

Конкурентний контекст

Що далі

Короткострокова перспектива (Q1 2026)

Наслідки для інфраструктури

Посилання

You Might Also Like

CapEx гіперскейлерів досягає $600 млрд у 2026 році: хвиля бо...

Ставка Microsoft на $60 мільярдів у неохмари: виграш часу в ...

DeepSeek V3.2 перевершує GPT-5 на елітних бенчмарках: що озн...

Запросити пропозицію_

Запит отримано_