GPT-5.2: Перша модель понад 90% ARC-AGI змінює математику інференсу

GPT-5.2 від OpenAI досягає 93,2% GPQA Diamond, 100% AIME, 70,9% GDPval. Контекстне вікно на 400K токенів формує нові вимоги до інфраструктури інференсу.

GPT-5.2: Перша модель понад 90% ARC-AGI змінює математику інференсу

GPT-5.2: Перша модель понад 90% ARC-AGI змінює математику інференсу

1 січня 2026

Оновлення січня 2026: OpenAI випустила GPT-5.2 11 грудня 2025 року, досягнувши показників бенчмарків, які переосмислюють можливе у професійній інтелектуальній роботі. Модель перевершує людських експертів у 70,9% завдань GDPval зі швидкістю в 11 разів вищою та вартістю менше 1%.


Резюме

GPT-5.2 перетинає критичні пороги можливостей: перша модель понад 90% на ARC-AGI-1, ідеальні 100% на AIME 2025 та 40,3% на FrontierMath (покращення на 10% порівняно з 5.1). Контекстне вікно на 400K токенів та 128K вихідних токенів створюють нові вимоги до інфраструктури. Для провайдерів інференсу підвищення ціни в 1,4 рази сигналізує про впевненість OpenAI — та обчислювальну інтенсивність, необхідну для обслуговування цих можливостей.


Що сталося

OpenAI запустила GPT-5.2 11 грудня 2025 року, лише через 11 днів після ймовірного оголошення «червоного коду» у відповідь на домінування Google Gemini 3 у бенчмарках.1

Запуск включає два варіанти:

Варіант Випадок використання Ціна (за 1M токенів)
GPT-5.2 Загальне використання $1,75 вхід / $14 вихід
GPT-5.2 Pro Розширене міркування Вища (рівень xhigh)

Ключові характеристики:2

  • Контекстне вікно: 400 000 токенів
  • Максимальний вихід: 128 000 токенів
  • Дата відсікання знань: 31 серпня 2025 (оновлено з вересня 2024)
  • Ціна: 1,4x вартості GPT-5.1

GPT-5.2 побудовано на інфраструктурі Azure з використанням GPU NVIDIA H100, H200 та GB200-NVL72.3


Продуктивність бенчмарків

GPT-5.2 встановлює нові рекорди на професійних, наукових та математичних бенчмарках:4

Бенчмарк Оцінка GPT-5.2 Попередній найкращий Покращення
GPQA Diamond (докторська наука) 93,2% 91,9% (Gemini 3) +1,3%
ARC-AGI-1 Верифікований >90% ~85% Перший понад 90%
AIME 2025 (математика) 100% 96,7% (Gemini 3) Ідеальний бал
FrontierMath T1-3 40,3% 30% (GPT-5.1) +10%
GDPval (інтелектуальна робота) 70,9% Перевершує експертів
SWE-Bench Pro (програмування) 55,6% 51% (GPT-5.1) +4,6%
Tau2 Telecom (використання інструментів) 98,7% ~95% Майже ідеально

Результат GDPval заслуговує на увагу: GPT-5.2 Thinking видавав результати зі швидкістю >11x та вартістю <1% порівняно з людськими експертами-професіоналами у 44 професіях.5


Чому це важливо

Сплеск попиту на інференс

Контекстне вікно на 400K токенів вимагає значної пам'яті на запит. Один інференс з повним контекстом споживає значно більше пам'яті GPU, ніж попередні моделі на 128K. Провайдери повинні планувати:6

  • Масштабування пам'яті: 3x+ пам'яті на запит порівняно з контекстом 128K
  • Зменшення розміру пакету: Менше одночасних запитів на GPU
  • Зростання KV-кешу: Довжина контексту × розмір пакету = масивні вимоги до KV-кешу

Зміна структури витрат

Підвищення ціни в 1,4x порівняно з GPT-5.1 відображає реальну обчислювальну інтенсивність:7

Модель Вартість входу Вартість виходу Співвідношення до 5.1
GPT-5.1 $1,25/M $10/M 1,0x
GPT-5.2 $1,75/M $14/M 1,4x

Для операцій інференсу великого обсягу це означає збільшення TCO на 40% для еквівалентних навантажень.

Автоматизація професійної роботи

Продуктивність GPT-5.2 у GDPval — перевершення експертів у 70,9% завдань за <1% вартості — створює негайний попит на корпоративне впровадження. Організації, які шукають ці можливості, потребують інфраструктури інференсу, здатної обробляти:8

  • Розширені ланцюги міркувань (варіант Pro)
  • Обробку документів з довгим контекстом
  • Надійні виклики інструментів (98,7% Tau2)

Технічні деталі

Архітектура

OpenAI не розкрила конкретних архітектурних змін, але патерни бенчмарків вказують на:9

  • Покращені можливості міркування (FrontierMath +10%)
  • Покращена точність довгого контексту (витяг 256K токенів)
  • Краща надійність використання інструментів (Tau2 98,7%)

Вимоги до інференсу

Обслуговування GPT-5.2 у масштабі вимагає врахування:10

Фактор GPT-5.1 GPT-5.2 Наслідок
Контекстне вікно 200K 400K 2x пам'яті на запит
Максимальний вихід 64K 128K 2x часу генерації
Глибина міркування Стандартна Розширена (Pro) Змінна затримка
Виклики інструментів 95% 98,7% Складніша оркестрація

Конкурентний контекст

GPT-5.2 повертає деякі бенчмарки від Gemini 3, але не всі:11

Бенчмарк Лідер Оцінка
GPQA Diamond Gemini 3 Deep Think 93,8%
AIME 2025 GPT-5.2 Thinking 100%
SWE-bench Verified Gemini 3 Pro 76,2%
Humanity's Last Exam Gemini 3 Лідирує
GDPval GPT-5.2 Thinking 70,9%

Швидкий темп випусків — GPT-5.2 лише через 11 днів після Gemini 3 — демонструє тиск інфраструктури інференсу, який відчувають обидві компанії.


Що далі

Короткострокова перспектива (Q1 2026)

  • GPT-5.2 Mini ймовірно скоро (без варіанту Mini при запуску)
  • Розширення розгортання корпоративного API
  • Сторонні провайдери інференсу додають підтримку

Наслідки для інфраструктури

Організації, що планують розгортання GPT-5.2, повинні:12

  1. Оцінити ємність пам'яті: Контекст 400K вимагає 3x+ пам'яті порівняно з моделями 128K
  2. Планувати KV-кеш: Розширення пам'яті CXL стає все більш актуальним
  3. Бюджетувати обчислення: Збільшення вартості в 1,4x реальне
  4. Розглянути гібридні підходи: Направляти простіші завдання до дешевших моделей

Для розгортання інфраструктури інференсу, що підтримує передові моделі, зверніться до Introl.


Посилання


  1. FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." Грудень 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ 

  2. LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." Грудень 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 

  3. OpenAI. "Introducing GPT-5.2." 11 грудня 2025. https://openai.com/index/introducing-gpt-5-2/ 

  4. DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." Грудень 2025. https://www.datacamp.com/blog/gpt-5-2 

  5. Vellum. "GPT-5.2 Benchmarks (Explained)." Грудень 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks 

  6. Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." Грудень 2025. https://blog.galaxy.ai/model/gpt-5-2 

  7. Simon Willison. "GPT-5.2." 11 грудня 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ 

  8. OpenAI. "GPT-5.2 System Card." Грудень 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf 

  9. OpenAI. "Introducing GPT-5.2-Codex." Грудень 2025. https://openai.com/index/introducing-gpt-5-2-codex/ 

  10. IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." Грудень 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 

  11. LM Council. "AI Model Benchmarks Dec 2025." Грудень 2025. https://lmcouncil.ai/benchmarks 

  12. Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." Грудень 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ 

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ