GPT-5.2: Primeiro Modelo Acima de 90% ARC-AGI Muda a Matemática de Inferência

GPT-5.2 da OpenAI alcança 93,2% GPQA Diamond, 100% AIME, 70,9% GDPval. Janela de contexto de 400K tokens impulsiona novos requisitos de infraestrutura de inferência.

GPT-5.2: Primeiro Modelo Acima de 90% ARC-AGI Muda a Matemática de Inferência

GPT-5.2: Primeiro Modelo Acima de 90% ARC-AGI Muda a Matemática de Inferência

1 de janeiro de 2026

Atualização janeiro 2026: A OpenAI lançou o GPT-5.2 em 11 de dezembro de 2025, alcançando pontuações de benchmark que redefinem o que é possível no trabalho de conhecimento profissional. O modelo supera especialistas humanos em 70,9% das tarefas GDPval com 11x a velocidade e <1% do custo.


Resumo

O GPT-5.2 ultrapassa limiares críticos de capacidade: primeiro modelo acima de 90% no ARC-AGI-1, 100% perfeito no AIME 2025, e 40,3% no FrontierMath (melhoria de 10% em relação ao 5.1). A janela de contexto de 400K tokens e 128K tokens de saída criam novas demandas de infraestrutura. Para provedores de inferência, o aumento de preço de 1,4x sinaliza a confiança da OpenAI—e a intensidade computacional necessária para servir essas capacidades.


O Que Aconteceu

A OpenAI lançou o GPT-5.2 em 11 de dezembro de 2025, apenas 11 dias após supostamente declarar "código vermelho" em resposta à dominância de benchmarks do Google Gemini 3.1

O lançamento inclui duas variantes:

Variante Caso de Uso Preço (por 1M tokens)
GPT-5.2 Uso geral $1,75 entrada / $14 saída
GPT-5.2 Pro Raciocínio estendido Maior (tier xhigh reasoning)

Especificações principais:2

  • Janela de Contexto: 400.000 tokens
  • Saída Máxima: 128.000 tokens
  • Corte de Conhecimento: 31 de agosto de 2025 (atualizado de set 2024)
  • Preço: 1,4x o custo do GPT-5.1

O GPT-5.2 foi construído em infraestrutura Azure usando GPUs NVIDIA H100, H200 e GB200-NVL72.3


Desempenho em Benchmarks

O GPT-5.2 estabelece novos recordes em benchmarks profissionais, científicos e matemáticos:4

Benchmark Pontuação GPT-5.2 Melhor Anterior Melhoria
GPQA Diamond (ciência PhD) 93,2% 91,9% (Gemini 3) +1,3%
ARC-AGI-1 Verificado >90% ~85% Primeiro acima de 90%
AIME 2025 (matemática) 100% 96,7% (Gemini 3) Pontuação perfeita
FrontierMath T1-3 40,3% 30% (GPT-5.1) +10%
GDPval (trabalho de conhecimento) 70,9% Supera especialistas
SWE-Bench Pro (programação) 55,6% 51% (GPT-5.1) +4,6%
Tau2 Telecom (uso de ferramentas) 98,7% ~95% Quase perfeito

O resultado GDPval merece atenção: GPT-5.2 Thinking produziu resultados com >11x a velocidade e <1% do custo comparado a profissionais especialistas humanos em 44 ocupações.5


Por Que Isso Importa

Pico de Demanda de Inferência

A janela de contexto de 400K tokens requer memória substancial por solicitação. Uma única inferência com contexto completo consome significativamente mais memória GPU do que modelos anteriores de 128K. Provedores devem planejar para:6

  • Escalabilidade de Memória: 3x+ memória por solicitação vs contexto de 128K
  • Redução de Tamanho de Lote: Menos solicitações simultâneas por GPU
  • Crescimento de Cache KV: Comprimento do contexto × tamanho do lote = requisitos massivos de cache KV

Mudança na Estrutura de Custos

O aumento de preço de 1,4x em relação ao GPT-5.1 reflete a intensidade computacional real:7

Modelo Custo de Entrada Custo de Saída Proporção para 5.1
GPT-5.1 $1,25/M $10/M 1,0x
GPT-5.2 $1,75/M $14/M 1,4x

Para operações de inferência de alto volume, isso representa um aumento de 40% no TCO para cargas de trabalho equivalentes.

Automação do Trabalho Profissional

O desempenho do GPT-5.2 no GDPval—superando especialistas em 70,9% das tarefas por <1% do custo—cria demanda imediata para implantação empresarial. Organizações que buscam essas capacidades precisam de infraestrutura de inferência capaz de lidar com:8

  • Cadeias de raciocínio estendidas (variante Pro)
  • Processamento de documentos de contexto longo
  • Chamadas de ferramentas confiáveis (98,7% Tau2)

Detalhes Técnicos

Arquitetura

A OpenAI não divulgou mudanças arquiteturais específicas, mas padrões de benchmark sugerem:9

  • Capacidades de raciocínio aprimoradas (FrontierMath +10%)
  • Precisão de contexto longo melhorada (recuperação de 256K tokens)
  • Melhor confiabilidade no uso de ferramentas (Tau2 98,7%)

Requisitos de Inferência

Servir GPT-5.2 em escala requer consideração de:10

Fator GPT-5.1 GPT-5.2 Implicação
Janela de contexto 200K 400K 2x memória por solicitação
Saída máxima 64K 128K 2x tempo de geração
Profundidade de raciocínio Padrão Estendida (Pro) Latência variável
Chamadas de ferramentas 95% 98,7% Orquestração mais complexa

Contexto Competitivo

O GPT-5.2 retoma alguns benchmarks do Gemini 3, mas não todos:11

Benchmark Líder Pontuação
GPQA Diamond Gemini 3 Deep Think 93,8%
AIME 2025 GPT-5.2 Thinking 100%
SWE-bench Verified Gemini 3 Pro 76,2%
Humanity's Last Exam Gemini 3 Liderando
GDPval GPT-5.2 Thinking 70,9%

A cadência rápida de lançamentos—GPT-5.2 apenas 11 dias após o Gemini 3—demonstra a pressão de infraestrutura de inferência que ambas as empresas enfrentam.


Próximos Passos

Curto Prazo (Q1 2026)

  • GPT-5.2 Mini provavelmente em breve (sem variante Mini no lançamento)
  • Expansão do rollout de API empresarial
  • Provedores de inferência terceirizados adicionando suporte

Implicações de Infraestrutura

Organizações planejando implantações de GPT-5.2 devem:12

  1. Avaliar capacidade de memória: Contexto de 400K requer 3x+ memória vs modelos de 128K
  2. Planejar cache KV: Expansão de memória CXL cada vez mais relevante
  3. Orçar computação: Aumento de custo de 1,4x é real
  4. Considerar abordagens híbridas: Rotear tarefas mais simples para modelos mais baratos

Para implantação de infraestrutura de inferência que suporte modelos de fronteira, entre em contato com Introl.


Referências


  1. FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." Dezembro 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ 

  2. LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." Dezembro 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 

  3. OpenAI. "Introducing GPT-5.2." 11 de dezembro de 2025. https://openai.com/index/introducing-gpt-5-2/ 

  4. DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." Dezembro 2025. https://www.datacamp.com/blog/gpt-5-2 

  5. Vellum. "GPT-5.2 Benchmarks (Explained)." Dezembro 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks 

  6. Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." Dezembro 2025. https://blog.galaxy.ai/model/gpt-5-2 

  7. Simon Willison. "GPT-5.2." 11 de dezembro de 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ 

  8. OpenAI. "GPT-5.2 System Card." Dezembro 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf 

  9. OpenAI. "Introducing GPT-5.2-Codex." Dezembro 2025. https://openai.com/index/introducing-gpt-5-2-codex/ 

  10. IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." Dezembro 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 

  11. LM Council. "AI Model Benchmarks Dec 2025." Dezembro 2025. https://lmcouncil.ai/benchmarks 

  12. Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." Dezembro 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ 

Solicitar Orçamento_

Conte-nos sobre seu projeto e responderemos em até 72 horas.

> TRANSMISSÃO_CONCLUÍDA

Solicitação Recebida_

Obrigado por sua consulta. Nossa equipe analisará sua solicitação e responderá em até 72 horas.

EM FILA PARA PROCESSAMENTO