GPT-5.2: Primeiro Modelo Acima de 90% ARC-AGI Muda a Matemática de Inferência

GPT-5.2 da OpenAI alcança 93,2% GPQA Diamond, 100% AIME, 70,9% GDPval. Janela de contexto de 400K tokens impulsiona novos requisitos de infraestrutura de inferência.

Blake Crosley

Jan 02, 2026 5 min read Disclaimer

GPT-5.2: Primeiro Modelo Acima de 90% ARC-AGI Muda a Matemática de Inferência

1 de janeiro de 2026

Atualização janeiro 2026: A OpenAI lançou o GPT-5.2 em 11 de dezembro de 2025, alcançando pontuações de benchmark que redefinem o que é possível no trabalho de conhecimento profissional. O modelo supera especialistas humanos em 70,9% das tarefas GDPval com 11x a velocidade e <1% do custo.

Resumo

O GPT-5.2 ultrapassa limiares críticos de capacidade: primeiro modelo acima de 90% no ARC-AGI-1, 100% perfeito no AIME 2025, e 40,3% no FrontierMath (melhoria de 10% em relação ao 5.1). A janela de contexto de 400K tokens e 128K tokens de saída criam novas demandas de infraestrutura. Para provedores de inferência, o aumento de preço de 1,4x sinaliza a confiança da OpenAI—e a intensidade computacional necessária para servir essas capacidades.

O Que Aconteceu

A OpenAI lançou o GPT-5.2 em 11 de dezembro de 2025, apenas 11 dias após supostamente declarar "código vermelho" em resposta à dominância de benchmarks do Google Gemini 3.¹

O lançamento inclui duas variantes:

Variante	Caso de Uso	Preço (por 1M tokens)
GPT-5.2	Uso geral	$1,75 entrada / $14 saída
GPT-5.2 Pro	Raciocínio estendido	Maior (tier xhigh reasoning)

Especificações principais:²

Janela de Contexto: 400.000 tokens
Saída Máxima: 128.000 tokens
Corte de Conhecimento: 31 de agosto de 2025 (atualizado de set 2024)
Preço: 1,4x o custo do GPT-5.1

O GPT-5.2 foi construído em infraestrutura Azure usando GPUs NVIDIA H100, H200 e GB200-NVL72.³

Desempenho em Benchmarks

O GPT-5.2 estabelece novos recordes em benchmarks profissionais, científicos e matemáticos:⁴

Benchmark	Pontuação GPT-5.2	Melhor Anterior	Melhoria
GPQA Diamond (ciência PhD)	93,2%	91,9% (Gemini 3)	+1,3%
ARC-AGI-1 Verificado	>90%	~85%	Primeiro acima de 90%
AIME 2025 (matemática)	100%	96,7% (Gemini 3)	Pontuação perfeita
FrontierMath T1-3	40,3%	30% (GPT-5.1)	+10%
GDPval (trabalho de conhecimento)	70,9%	—	Supera especialistas
SWE-Bench Pro (programação)	55,6%	51% (GPT-5.1)	+4,6%
Tau2 Telecom (uso de ferramentas)	98,7%	~95%	Quase perfeito

O resultado GDPval merece atenção: GPT-5.2 Thinking produziu resultados com >11x a velocidade e <1% do custo comparado a profissionais especialistas humanos em 44 ocupações.⁵

Por Que Isso Importa

Pico de Demanda de Inferência

A janela de contexto de 400K tokens requer memória substancial por solicitação. Uma única inferência com contexto completo consome significativamente mais memória GPU do que modelos anteriores de 128K. Provedores devem planejar para:⁶

Escalabilidade de Memória: 3x+ memória por solicitação vs contexto de 128K
Redução de Tamanho de Lote: Menos solicitações simultâneas por GPU
Crescimento de Cache KV: Comprimento do contexto × tamanho do lote = requisitos massivos de cache KV

Mudança na Estrutura de Custos

O aumento de preço de 1,4x em relação ao GPT-5.1 reflete a intensidade computacional real:⁷

Modelo	Custo de Entrada	Custo de Saída	Proporção para 5.1
GPT-5.1	$1,25/M	$10/M	1,0x
GPT-5.2	$1,75/M	$14/M	1,4x

Para operações de inferência de alto volume, isso representa um aumento de 40% no TCO para cargas de trabalho equivalentes.

Automação do Trabalho Profissional

O desempenho do GPT-5.2 no GDPval—superando especialistas em 70,9% das tarefas por <1% do custo—cria demanda imediata para implantação empresarial. Organizações que buscam essas capacidades precisam de infraestrutura de inferência capaz de lidar com:⁸

Cadeias de raciocínio estendidas (variante Pro)
Processamento de documentos de contexto longo
Chamadas de ferramentas confiáveis (98,7% Tau2)

Detalhes Técnicos

Arquitetura

A OpenAI não divulgou mudanças arquiteturais específicas, mas padrões de benchmark sugerem:⁹

Capacidades de raciocínio aprimoradas (FrontierMath +10%)
Precisão de contexto longo melhorada (recuperação de 256K tokens)
Melhor confiabilidade no uso de ferramentas (Tau2 98,7%)

Requisitos de Inferência

Servir GPT-5.2 em escala requer consideração de:¹⁰

Fator	GPT-5.1	GPT-5.2	Implicação
Janela de contexto	200K	400K	2x memória por solicitação
Saída máxima	64K	128K	2x tempo de geração
Profundidade de raciocínio	Padrão	Estendida (Pro)	Latência variável
Chamadas de ferramentas	95%	98,7%	Orquestração mais complexa

Contexto Competitivo

O GPT-5.2 retoma alguns benchmarks do Gemini 3, mas não todos:¹¹

Benchmark	Líder	Pontuação
GPQA Diamond	Gemini 3 Deep Think	93,8%
AIME 2025	GPT-5.2 Thinking	100%
SWE-bench Verified	Gemini 3 Pro	76,2%
Humanity's Last Exam	Gemini 3	Liderando
GDPval	GPT-5.2 Thinking	70,9%

A cadência rápida de lançamentos—GPT-5.2 apenas 11 dias após o Gemini 3—demonstra a pressão de infraestrutura de inferência que ambas as empresas enfrentam.

Próximos Passos

Curto Prazo (Q1 2026)

GPT-5.2 Mini provavelmente em breve (sem variante Mini no lançamento)
Expansão do rollout de API empresarial
Provedores de inferência terceirizados adicionando suporte

Implicações de Infraestrutura

Organizações planejando implantações de GPT-5.2 devem:¹²

Avaliar capacidade de memória: Contexto de 400K requer 3x+ memória vs modelos de 128K
Planejar cache KV: Expansão de memória CXL cada vez mais relevante
Orçar computação: Aumento de custo de 1,4x é real
Considerar abordagens híbridas: Rotear tarefas mais simples para modelos mais baratos

Para implantação de infraestrutura de inferência que suporte modelos de fronteira, entre em contato com Introl.

Referências

FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." Dezembro 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." Dezembro 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
OpenAI. "Introducing GPT-5.2." 11 de dezembro de 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." Dezembro 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
Vellum. "GPT-5.2 Benchmarks (Explained)." Dezembro 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." Dezembro 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
Simon Willison. "GPT-5.2." 11 de dezembro de 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
OpenAI. "GPT-5.2 System Card." Dezembro 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
OpenAI. "Introducing GPT-5.2-Codex." Dezembro 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." Dezembro 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
LM Council. "AI Model Benchmarks Dec 2025." Dezembro 2025. https://lmcouncil.ai/benchmarks ↩
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." Dezembro 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩

GPT-5.2: Primeiro Modelo Acima de 90% ARC-AGI Muda a Matemática de Inferência

Resumo

O Que Aconteceu

Desempenho em Benchmarks

Por Que Isso Importa

Pico de Demanda de Inferência

Mudança na Estrutura de Custos

Automação do Trabalho Profissional

Detalhes Técnicos

Arquitetura

Requisitos de Inferência

Contexto Competitivo

Próximos Passos

Curto Prazo (Q1 2026)

Implicações de Infraestrutura

Referências

You Might Also Like

CapEx de Hyperscalers Atinge US$ 600 Bilhões em 2026: A Onda...

A Aposta de $60 Bilhões da Microsoft em Neoclouds: Ganhando ...

DeepSeek V3.2 supera GPT-5 em benchmarks de elite: o que a a...

Solicitar Orçamento_

Solicitação Recebida_