GPT-5.2 vs Gemini 3: Vollständige Benchmark-Analyse für KI-Infrastruktur-Teams

GPT-5.2 erreicht 100% AIME, 400K Kontext. Gemini 3 Pro bietet 1M Kontext mit Deep Think. Vollständiger Benchmark-Vergleich für Entscheidungen zur Unternehmens-KI-Infrastruktur.

Blake Crosley

Feb 06, 2026 9 min read Disclaimer

GPT-5.2 vs Gemini 3: Vollständige Benchmark-Analyse für KI-Infrastruktur-Teams

Einhundert Prozent. Diese perfekte Punktzahl bei AIME 2025 markiert das erste Mal, dass ein großes Sprachmodell einen wettbewerbstauglichen Mathematik-Benchmark ohne externe Tools vollständig gemeistert hat ¹. OpenAIs GPT-5.2 erreichte diesen Meilenstein im Dezember 2025, während Googles Gemini 3 Pro mit aktivierter Code-Ausführung gleichzog und damit die Bühne für einen Wettbewerb der Frontier-Modelle bereitete, der die Entscheidungen für Unternehmens-KI-Infrastrukturen im Jahr 2026 neu gestaltet ².

TL;DR

GPT-5.2 und Gemini 3 Pro repräsentieren die Spitze kommerzieller KI-Fähigkeiten im Februar 2026. GPT-5.2 führt beim mathematischen Denken (100% AIME), mehrsprachigen Programmieren (55,6% SWE-Bench Pro) und der Reduzierung von Halluzinationen (6,2% Rate). Gemini 3 Pro dominiert multimodale Verarbeitung und Long-Context-Anwendungen mit seinem 1M-Token-Kontextfenster und 45,1% ARC-AGI-2-Score im Deep Think-Modus. Claude Opus 4.5 hält die Programmier-Krone mit 80,9% SWE-bench Verified. OpenAIs neue GPT-oss Open-Weight-Modelle unter Apache 2.0-Lizenz signalisieren eine strategische Verschiebung hin zum Open-Source-Wettbewerb.

Vergleich der Modellspezifikationen

Die Frontier-Modell-Landschaft vom Februar 2026 bietet unterschiedliche architektonische Wahlmöglichkeiten für verschiedene Arbeitslasten-Profile ³.

Kontextfenster und Token-Verarbeitung

Spezifikation	GPT-5.2	Gemini 3 Pro	Claude Opus 4.5
Input-Kontext	400K Tokens	1M Tokens	200K (1M Beta)
Output-Tokens	128K	64K	32K
Wissensstand	August 2025	Oktober 2025	Mai 2025
Erscheinungsdatum	11. Dez 2025	18. Nov 2025	Okt 2025

Gemini 3 Pros 1M-Token-Kontextfenster repräsentiert einen 2,5x-Vorteil gegenüber GPT-5.2 und ermöglicht die Verarbeitung ganzer Codebasen, langer Dokumente oder ausgedehnter Unterhaltungsverläufe in einzelnen Inferenz-Aufrufen ⁴. GPT-5.2 kompensiert mit überlegener Kontext-Genauigkeit und behält nahezu 100% Abruf-Genauigkeit über sein gesamtes 400K-Fenster bei, verglichen mit der Verschlechterung, die bei früheren Modellgenerationen beobachtet wurde ⁵.

Denkfähigkeiten

Benchmark	GPT-5.2	Gemini 3 Pro	Gemini 3 Flash
AIME 2025	100%	100% (m/Code)	-
ARC-AGI-2	52,9%	45,1% (Deep Think)	-
GPQA Diamond	89,4%	93,8% (Deep Think)	-
LMArena Elo	~1480	1501	-

GPT-5.2 führt beim reinen mathematischen Denken ohne Tool-Unterstützung und erreicht als erstes Modell eine perfekte AIME-Punktzahl durch reine Modellfähigkeit ⁶. Gemini 3 Pros Deep Think-Modus liefert überlegene Leistung bei komplexen Wissenschaftsfragen, evaluiert mehrere Hypothesen gleichzeitig und synthetisiert Einsichten über parallele Denkerketten ⁷.

Analyse der Programmierleistung

Programmier-Benchmarks offenbaren nuancierte Leistungsunterschiede abhängig von Aufgabenkomplexität und Sprachabdeckung ⁸.

SWE-Bench-Ergebnisse

Benchmark	GPT-5.2	Gemini 3 Pro	Gemini 3 Flash	Claude Opus 4.5
SWE-Bench Verified	74,9-80%	76,2%	78%	80,9%
SWE-Bench Pro	55,6%	43,3%	-	-

Die SWE-Bench Pro-Ergebnisse erweisen sich als besonders aufschlussreich. GPT-5.2s 55,6%-Score bestätigt überlegene Fähigkeiten bei komplexen, mehrdatei-Ingenieur-Aufgaben über vier Programmiersprachen hinweg und übertrifft Geminis 43,3% um eine bedeutende Spanne ⁹.

Jedoch liefert Gemini 3 Flash ein überraschendes Ergebnis: 78% bei SWE-bench Verified, übertrifft sowohl Gemini 3 Pro (76,2%) als auch erreicht oder übertrifft GPT-5.2 bei diesem spezifischen Benchmark ¹⁰. Google erreichte diese Leistung, während es Inferenz zu weniger als einem Viertel der Kosten von Gemini 3 Pro liefert und 3x schneller läuft.

Claude Opus 4.5 behält die Programmier-Krone mit 80,9% bei SWE-bench Verified und erweist sich als besonders zuverlässig für agentische Programmier-Workflows, wo Implementierungskonsistenz wichtiger ist als reine Benchmark-Werte ¹¹.

Bewertung der Code-Qualität

Unabhängige Code-Qualitätsanalyse von Sonar enthüllt zusätzliche Leistungsmerkmale über Produktions-Arbeitslasten hinweg ¹²:

Modell	Fehlerrate	Code Smell Rate	Sicherheitsproblem-Rate
GPT-5.2 High	Niedrig	Niedrig	Niedrig
Claude Opus 4.5	Niedrig	Mittel	Niedrig
Gemini 3 Pro	Mittel	Niedrig	Niedrig

GPT-5.2s "High"-Denkmodus produziert konsistent niedrigere Defektraten über alle Kategorien hinweg, obwohl der Kostenaufschlag für erweiterte Denk-Tokens die Gesamtbetriebskosten für hochvolumige Anwendungen beeinflusst.

Halluzinationen und Genauigkeit

Die Reduzierung von Halluzinationen stellt ein kritisches Unternehmensanliegen dar, wobei GPT-5.2 signifikante Verbesserungen gegenüber früheren Generationen beansprucht ¹³.

Gemeldete Halluzinationsraten

Metrik	GPT-5.2	GPT-5.1	Verbesserung
OpenAI Behauptet	6,2%	8,8%	30% Reduktion
Vectara Unabhängig	8,4%	-	-
DeepSeek V3.2 (Referenz)	6,3%	-	Marktführer

OpenAI berichtet von einer 30%igen Halluzinationsreduktion von 8,8% bei GPT-5.1 auf 6,2% bei GPT-5.2 ¹⁴. Unabhängige Tests von Vectara fanden eine 8,4%-Rate, hinter DeepSeeks 6,3% ¹⁵. Die Varianz zwischen gemeldeten und gemessenen Raten deutet darauf hin, dass die Benchmark-Methodik die Ergebnisse erheblich beeinflusst.

Kontext-Genauigkeit

GPT-5.2 demonstriert dramatische Verbesserungen bei der Kontextnutzung ¹⁶:

GPT-5.1: Genauigkeit verschlechterte sich von 90% bei 8K Tokens auf unter 50% bei 256K Tokens
GPT-5.2: Nahezu 100% Genauigkeit über das gesamte Kontextfenster beibehalten
Four-Needle Challenge: Erstes Modell, das nahezu perfekte Genauigkeit beim Abrufen von vier spezifischen Fakten über 200.000 Wörter erreicht

Die Verbesserung der Kontext-Genauigkeit behebt eine langjährige Begrenzung großer Kontextfenster, wo Modelle Schwierigkeiten hatten, Informationen aus der Mitte langer Eingaben abzurufen.

Multimodale und Vision-Fähigkeiten

Gemini 3 Pro führt entscheidend in der multimodalen Verarbeitung, ein architektonischer Kernvorteil von Googles Trainingsansatz ¹⁷.

Vision-Leistung

Fähigkeit	GPT-5.2	Gemini 3 Pro
Video-Verständnis	Begrenzt	Native Unterstützung
Räumliches Denken	Gut	State-of-the-art
Dokument-OCR	Stark	Stark
Mehrsprachige Vision	Gut	Führend

Gemini 3s multimodale Fähigkeiten erstrecken sich auf Video-Verständnis und state-of-the-art räumliches Denken und ermöglichen Anwendungen wie Architekturanalyse, Qualitätskontrolle in der Fertigung und medizinische Bildinterpretation, die für text-primäre Modelle herausfordernd bleiben ¹⁸.

Preise und Kostenanalyse

Unternehmens-Deployment erfordert das Verständnis der Gesamtbetriebskosten über verschiedene Nutzungsmuster hinweg ¹⁹.

API-Preisvergleich

Modell	Eingabe (pro 1M Tokens)	Ausgabe (pro 1M Tokens)	Gecachte Eingabe
GPT-5.2	$1,75	$14,00	$0,18 (90% Rabatt)
GPT-5.2 Pro	Höher	Höher	Verfügbar
Gemini 3 Pro	~$1,25	~$5,00	Verfügbar
Gemini 3 Flash	~$0,075	~$0,30	Verfügbar
Claude Opus 4.5	$15,00	$75,00	Verfügbar

GPT-5.2-Preise repräsentieren etwa eine 40%ige Erhöhung gegenüber GPT-5.1-Basissätzen ²⁰. Der 90%-Rabatt auf gecachte Eingabe-Tokens bietet erhebliche Einsparungen für Anwendungen mit repetitivem Kontext und reduziert Kosten auf nur $0,18 pro Million Tokens.

Gemini 3 Flash erweist sich als Kosteneffizienz-Leader und erreicht 78% SWE-bench Verified bei weniger als 5% von Gemini 3 Pros Kosten bei gleichzeitig schnelleren Antwortzeiten ²¹.

Kosten für Denk-Tokens

GPT-5.2s "Thinking"-Modelle generieren interne Denk-Tokens, die zu Ausgabe-Sätzen ($14/1M) abgerechnet werden, was die Kosten für komplexe Anfragen, die umfangreiche Denkketten erfordern, erheblich erhöht ²². Eine Anfrage, die 10.000 Denk-Tokens generiert, fügt $0,14 zu jedem Inferenz-Aufruf hinzu.

OpenAIs Open-Weight-Pivot

OpenAIs Veröffentlichung von GPT-oss-Modellen unter Apache 2.0-Lizenz signalisiert eine strategische Verschiebung hin zum Open-Source-Wettbewerb ²³.

GPT-oss-Modellspezifikationen

Modell	Parameter	Lizenz	Hauptstärken
GPT-oss-120b	120B	Apache 2.0	Übertrifft o3-mini, erreicht oder übertrifft o4-mini
GPT-oss-20b	20B	Apache 2.0	Effizientes Denken, Tool-Nutzung

Die Apache 2.0-Lizenz ermöglicht kommerzielle Nutzung, Modifikation und Weiterverteilung ohne Copyleft-Beschränkungen oder Patentrisiko ²⁴. Organisationen können Gewichte herunterladen, auf privater Infrastruktur ausführen und für spezifische Domänen feinabstimmen.

GPT-oss-120b übertrifft OpenAIs o3-mini und erreicht oder übertrifft o4-mini beim Wettbewerbs-Programmieren, allgemeiner Problemlösung, Tool-Aufrufen und gesundheitsbezogenen Anfragen ²⁵. Die Modelle unterstützen Deployment auf vLLM, Ollama und llama.cpp Inferenz-Stacks.

Infrastruktur-Implikationen

Für Organisationen, die KI-Infrastruktur-Investitionen planen, präsentiert die Frontier-Modell-Landschaft mehrere strategische Überlegungen.

Compute-Anforderungen

Modell	Inferenz-Hardware	Speicher-Anforderung	Typische Latenz
GPT-5.2	Nur API	N/A (Cloud)	50-200ms
Gemini 3 Pro	Nur API	N/A (Cloud)	40-150ms
GPT-oss-120b	8x H100/B200	240GB+	100-500ms
GPT-oss-20b	2x H100/B200	40GB+	30-100ms

Selbst-gehostetes GPT-oss-Deployment erfordert erhebliche GPU-Infrastruktur, eliminiert aber Pro-Token-API-Kosten und ermöglicht vollständige Datenhoheit ²⁶. Organisationen, die täglich Millionen von Tokens verarbeiten, können Kostenparität innerhalb von Monaten erreichen.

Modellauswahlframework

Strategische Modellauswahl hängt von Arbeitslast-Charakteristika ab:

Wählen Sie GPT-5.2 wenn:

Mathematisches Denken die Anforderungen dominiert
Mehrsprachiges Programmieren über Python, JavaScript, TypeScript und Go hinweg
Halluzinationsreduktion sich als kritisch für Compliance erweist
Kontext-Genauigkeit wichtiger ist als Kontext-Länge

Wählen Sie Gemini 3 Pro wenn:

Dokumentenverarbeitung 400K Tokens überschreitet
Video-Verständnis oder räumliches Denken erforderlich
Multimodale Anwendungen primäre Anwendungsfälle antreiben
Kostenoptimierung für hochvolumige Inferenz

Wählen Sie Gemini 3 Flash wenn:

Programmier-Unterstützung im großen Maßstab
Kostensensitive Anwendungen
Latenz-kritische Deployments
Alltägliche Aufgaben mit einfacheren Denkanforderungen

Wählen Sie Claude Opus 4.5 wenn:

Produktions-Code-Generierung, die Zuverlässigkeit erfordert
Agentische Workflows mit Tool-Nutzung
Langform-Inhaltsgenerierung
Anwendungen, die nuancierte Anweisungsbefolgung erfordern

Wählen Sie GPT-oss für Self-Hosting wenn:

Datenhoheits-Anforderungen Cloud-APIs verbieten
Token-Volumen Infrastruktur-Investition rechtfertigt
Fine-Tuning für spezifische Domänen erforderlich
Regulatorische Compliance On-Premises-Deployment verlangt

Wettbewerbsdynamik

Das Frontier-Modell-Rennen intensiviert sich mit chinesischen Wettbewerbern, die bemerkenswerte Benchmarks erreichen ²⁷.

Globaler Wettbewerb

Modell	Organisation	Haupterrungenschaft
Kimi K2.5	Moonshot AI	Video-Generierung, agentische Fähigkeiten
Qwen3-Max-Thinking	Alibaba	Übertraf bei "Humanity's Last Exam"
DeepSeek V3.2	DeepSeek	6,3% Halluzinationsrate, Kosteneffizienz

Kimi K2.5 liefert unvergleichliche autonome Aufgabenbearbeitung mit integrierter Video-Generierung ²⁸. Alibabas Qwen3-Max-Thinking erreichte Benchmark-Führerschaft bei herausfordernden examens-basierten Bewertungen. DeepSeek V3.2 bietet die niedrigste gemessene Halluzinationsrate bei wettbewerbsfähiger Preisgestaltung.

Modell-Routing-Strategien

Unternehmens-Deployments übernehmen zunehmend Modell-Routing zur Optimierung von Kosten und Fähigkeiten ²⁹:

Aufgabentyp	Empfohlenes Modell	Begründung
Komplexes Denken	GPT-5.2 Pro	Höchste Genauigkeit bei schweren Problemen
Produktions-Coding	Claude Opus 4.5	Bestes SWE-bench Verified, Zuverlässigkeit
Einfache Anfragen	Gemini 3 Flash	78% Programmieren zu Bruchteil der Kosten
Hochvolumen-Inferenz	DeepSeek V3.2	Kosteneffizienz, niedrige Halluzination
Lange Dokumente	Gemini 3 Pro	1M Token Kontextfenster
Self-Hosted	GPT-oss-120b	Datenhoheit, keine API-Kosten

Sophistizierte Orchestrierungsebenen routen Anfragen basierend auf Anfragenkomplexität, Kostenbeschränkungen und Latenz-Anforderungen und erreichen 60-80% Kostenreduktion im Vergleich zu Single-Modell-Deployments ³⁰.

Wichtige Erkenntnisse

Für Infrastruktur-Planer

Die 2026 Frontier-Modelle erfordern strategische Planung rund um Kontextfenster-Anforderungen (400K vs 1M), Self-Hosting-Fähigkeiten (GPT-oss) und Modell-Routing-Infrastruktur. Organisationen sollten Arbeitslast-Muster bewerten, bevor sie sich auf Single-Vendor-Strategien festlegen.

Für Operations-Teams

Gemini 3 Flashs 78% SWE-bench bei 3x schnellerer Inferenz und <25% Kosten stellt Annahmen über Flagship-Modell-Anforderungen in Frage. Bewerten Sie, ob Produktions-Arbeitslasten tatsächlich Pro-Tier-Fähigkeiten erfordern oder von Flash-Tier-Effizienz profitieren können.

Für strategische Entscheidungsträger

OpenAIs GPT-oss-Veröffentlichung ändert fundamental die Build-versus-Buy-Berechnung für Organisationen, die hohe Token-Volumen verarbeiten. Die Apache 2.0-Lizenz ermöglicht neue Deployment-Muster, die zuvor mit Nur-API-Zugang unmöglich waren. Erwägen Sie Hybrid-Strategien, die Cloud-APIs für Burst-Kapazität mit selbst-gehosteten Modellen für Baseline-Arbeitslasten kombinieren.

Referenzen

OpenAI. "Introducing GPT-5.2." Dezember 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
LM Council. "AI Model Benchmarks Feb 2026." 2026. https://lmcouncil.ai/benchmarks ↩
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks, and More." 2026. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
Google. "Gemini 3: Introducing the latest Gemini AI model from Google." November 2025. https://blog.google/products/gemini/gemini-3/ ↩
WisdomAI. "What GPT-5.2 Adds: Better Memory, Vision." 2026. https://www.wisdomai.com/insights/SkillLeapAI/gpt-5-2-context-window-vision-capabilities-hallucination-reduction-055940f7 ↩
Vellum. "GPT-5.2 Benchmarks (Explained)." 2026. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
Google DeepMind. "Gemini 3 Pro." 2025. https://deepmind.google/models/gemini/pro/ ↩
DEV Community. "Gemini 3 vs GPT 5.2: SWE-bench and Beyond." 2026. https://dev.to/blamsa0mine/gemini-3-vs-gpt-52-swe-bench-and-beyond-42pf ↩
Vertu. "GPT-5.2 vs Gemini 3 Pro Benchmark: Coding, Reasoning, and Professional Performance Comparison." 2026. https://vertu.com/ai-tools/gpt-5-2-vs-gemini-3-pro-complete-benchmark-comparison-performance-analysis-2025/ ↩
Google. "Introducing Gemini 3 Flash: Benchmarks, global availability." Dezember 2025. https://blog.google/products/gemini/gemini-3-flash/ ↩
Composio. "Claude 4.5 Opus vs. Gemini 3 Pro vs. GPT-5.2-codex-max: The SOTA coding model." 2026. https://composio.dev/blog/claude-4-5-opus-vs-gemini-3-pro-vs-gpt-5-codex-max-the-sota-coding-model ↩
SonarSource. "New data on code quality: GPT-5.2 high, Opus 4.5, Gemini 3, and more." 2026. https://www.sonarsource.com/blog/new-data-on-code-quality-gpt-5-2-high-opus-4-5-gemini-3-and-more/ ↩
Chatbase. "GPT-5.2: Is it the best OpenAI model?" 2026. https://www.chatbase.co/blog/gpt-5-2 ↩
MindSet AI. "ChatGPT-5.2 Review: Everything You Need To Know." 2026. https://www.mindset.ai/blogs/in-the-loop-ep43-chatgpt-5-2-review ↩
Digital Applied. "GPT-5.2 Complete Guide: Features, Benchmarks & API." 2026. https://www.digitalapplied.com/blog/gpt-5-2-complete-guide ↩
OverChat. "Introducing GPT-5.2 — OpenAI's New Best AI Model." 2026. https://overchat.ai/ai-hub/gpt-5-2 ↩
Google Cloud. "Gemini 3 Pro | Generative AI on Vertex AI." 2026. https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-pro ↩
Labellerr. "Google's Gemini 3: Explained." 2026. https://www.labellerr.com/blog/googles-gemini-3-explained/ ↩
OpenAI. "Pricing | OpenAI API." 2026. https://platform.openai.com/docs/pricing ↩
Helicone. "OpenAI gpt-5.2 Pricing Calculator." 2026. https://www.helicone.ai/llm-cost/provider/openai/model/gpt-5.2 ↩
VentureBeat. "Gemini 3 Flash arrives with reduced costs and latency." Dezember 2025. https://venturebeat.com/technology/gemini-3-flash-arrives-with-reduced-costs-and-latency-a-powerful-combo-for ↩
CostGoat. "OpenAI ChatGPT API Pricing Calculator (Jan 2026)." 2026. https://costgoat.com/pricing/openai-api ↩
OpenAI. "Introducing gpt-oss." 2026. https://openai.com/index/introducing-gpt-oss/ ↩
Hugging Face. "Welcome GPT OSS, the new open-source model family from OpenAI!" 2026. https://huggingface.co/blog/welcome-openai-gpt-oss ↩
OpenAI. "gpt-oss-120b & gpt-oss-20b Model Card." 2026. https://openai.com/index/gpt-oss-model-card/ ↩
LM Studio. "gpt-oss." 2026. https://lmstudio.ai/models/gpt-oss ↩
Medium. "Four Giants, One Winner: Kimi K2.5 vs GPT-5.2 vs Claude Opus 4.5 vs Gemini 3 Pro Comparison." Januar 2026. https://medium.com/@cognidownunder/four-giants-one-winner-kimi-k2-5-vs-gpt-5-2-vs-claude-opus-4-5-vs-gemini-3-pro-comparison-38124c85d990 ↩
Mean CEO Blog. "New AI Model Releases News | February, 2026." 2026. https://blog.mean.ceo/new-ai-model-releases-news-february-2026/ ↩
AdwaitX. "AI Guide 2026: GPT-5.2, Claude 4.5, Gemini 3 & Llama 4 Compared." 2026. https://www.adwaitx.com/ai-implementation-guide-2026-models-tools/ ↩
JenovaAI. "GPT vs Claude vs Gemini: Complete AI Model Comparison for 2026." 2026. https://www.jenova.ai/en/resources/gpt-vs-claude-vs-gemini ↩
AI Fire. "GPT-5.2 Review: Benchmarks vs. Gemini 3.0 & Claude 4.5." 2026. https://www.aifire.co/p/gpt-5-2-review-benchmarks-vs-gemini-3-0-claude-4-5 ↩
Vellum. "Google Gemini 3 Benchmarks (Explained)." 2026. https://www.vellum.ai/blog/google-gemini-3-benchmarks ↩
LLM Stats. "Gemini 3 Pro: Complete Guide, Pricing, Context Window, Benchmarks, and API Access." 2026. https://llm-stats.com/blog/research/gemini-3-pro-launch ↩
Roboflow. "Gemini 3 Pro Sets New Vision Benchmarks: Try It Here." 2026. https://blog.roboflow.com/gemini-3-pro/ ↩
Macaron. "GPT‑5.2: Key Improvements, Benchmarks vs. Gemini 3, and Implications." 2026. https://macaron.im/blog/chatgpt5-2-vs-gemeni-3-pro ↩
Evolink AI. "GPT-5.2 vs Gemini 3 Pro: Which AI Model is Better in 2026?" 2026. https://evolink.ai/blog/gpt-5-2-vs-gemini-3-pro-comparison-2026 ↩
Shakudo. "Top 9 Large Language Models as of February 2026." 2026. https://www.shakudo.io/blog/top-9-large-language-models ↩
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." 2026. https://www.datacamp.com/blog/gpt-5-2 ↩
Vertu. "GPT-5.2 Review: Benchmarks (AIME 100%), Visual AI, SWEbench, and Competitive Analysis." 2026. https://vertu.com/lifestyle/gpt-5-2-review-benchmark-results-real-world-testing-and-competitive-analysis/ ↩
Ollama. "gpt-oss." 2026. https://ollama.com/library/gpt-oss ↩
Hugging Face. "openai/gpt-oss-120b." 2026. https://huggingface.co/openai/gpt-oss-120b ↩
OpenAI Platform. "gpt-5.2 Model." 2026. https://platform.openai.com/docs/models/gpt-5.2 ↩