Gemini 3 Flash: 구글의 스피드 챔피언, 6배 저렴한 비용으로 GPT-5.2와 대등한 성능
요약
구글은 2025년 12월 17일 Gemini 3 Flash를 출시하여 Flash급 속도와 비용으로 프론티어급 성능을 제공합니다. 이 모델은 GPQA Diamond에서 90.4%, SWE-bench Verified에서 78%를 달성하면서 입력 토큰 100만 개당 $0.50의 비용만 부과하며, 이는 Claude Opus 4.5보다 약 6배 저렴합니다. 추론 집약적 배포 환경에서 Gemini 3 Flash는 초당 218토큰을 처리하여 GPT-5.1(125 t/s)과 DeepSeek V3.2 추론 모드(30 t/s)를 능가합니다.
무슨 일이 있었나
구글은 Gemini 3 Pro가 LMArena 리더보드 1위를 차지한 지 한 달 만인 2025년 12월 17일 Gemini 3 Flash를 출시했습니다. 이 모델은 Pro급 추론 능력과 Flash급 지연 시간 및 효율성을 결합하여 비용과 속도가 성능만큼 중요한 대용량 프로덕션 워크로드를 목표로 합니다.
Gemini 3 Flash는 즉시 Gemini 앱의 기본 모델과 Google 검색의 AI 모드로 채택되었으며, 이는 소비자 규모에서 프론티어 인텔리전스를 배포하는 것에 대한 구글의 자신감을 보여줍니다.
Artificial Analysis 테스트에 따르면 이 모델은 Gemini 2.5 Pro를 벤치마크 전반에서 능가하면서 3배 빠르게 실행됩니다. 여러 벤치마크에서 OpenAI가 Gemini 3 Pro에 대응하기 위해 서둘러 출시한 GPT-5.2와 대등한 성능을 보여줍니다.
JetBrains, Figma, Cursor, Harvey, Latitude 등의 기업들이 이미 프로덕션 환경에서 Gemini 3 Flash를 사용하고 있습니다.
왜 중요한가
AI 애플리케이션의 추론 비용 방정식이 바뀌었습니다. Gemini 3 Flash는 일반 수준의 가격으로 프론티어급 추론을 제공하여 데이터센터 운영자와 애플리케이션 개발자를 위한 새로운 배포 경제학을 창출합니다.
비용 우위: 입력 토큰 100만 개당 $0.50으로 Gemini 3 Flash는 Claude Opus 4.5($3.00)보다 6배 저렴하면서 대부분의 벤치마크에서 비슷한 성능을 달성합니다. 컨텍스트 캐싱을 통해 반복 토큰 사용 워크로드에서 90% 비용 절감이 가능합니다.
추론 속도: Artificial Analysis 벤치마킹에서 초당 218 출력 토큰을 기록하여 GPT-5.1(125 t/s)을 74%, DeepSeek V3.2 추론 모드(30 t/s)를 7배 앞섰습니다. 짧은 프롬프트에 대한 1초 미만의 지연 시간으로 반응형 채팅 인터페이스와 빠른 에이전트 루프 반복이 가능합니다.
에이전트 워크플로우: 이 모델은 SWE-bench Verified에서 78%를 달성하여 에이전트 코딩 작업에서 2.5 시리즈와 Gemini 3 Pro를 모두 능가합니다. AI 에이전트를 구축하는 기업에게 낮은 비용으로 비슷한 성능을 제공하는 것은 배포 ROI에 직접적인 영향을 미칩니다.
멀티모달 처리: Resemble AI는 2.5 Pro 대비 4배 빠른 멀티모달 분석을 보고했으며, 워크플로우 병목 현상 없이 원시 기술 출력을 처리합니다.
기술 세부사항
사양
| 사양 | Gemini 3 Flash |
|---|---|
| 입력 모달리티 | 텍스트, 이미지, 비디오, 오디오, PDF |
| 출력 모달리티 | 텍스트 |
| 최대 입력 토큰 | 1,048,576 (1M) |
| 최대 출력 토큰 | 65,536 |
| 지식 기준일 | 2025년 1월 |
| 출시일 | 2025년 12월 17일 |
벤치마크 성능
| 벤치마크 | Gemini 3 Flash | Gemini 3 Pro | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|---|
| GPQA Diamond | 90.4% | 91.9% | 88.4% | 88.0% |
| SWE-bench Verified | 78% | 76.2% | — | 80.9% |
| MMMU-Pro | 81.2% | — | 79.5% | — |
| Humanity's Last Exam | 33.7% | — | — | — |
| LMArena Elo | — | 1501 | — | — |
Gemini 3 Flash는 2.5 Flash를 전 분야에서 능가하며 여러 벤치마크에서 2.5 Pro를 크게 앞서고, MMMU Pro, Toolathlon, MPC Atlas 등의 영역에서 3 Pro와 대등하거나 우위를 보입니다.
가격 비교
| 모델 | 입력 (토큰 100만 개당) | 출력 (토큰 100만 개당) |
|---|---|---|
| Gemini 3 Flash | $0.50 | $3.00 |
| Gemini 2.5 Flash | $0.30 | $2.50 |
| Gemini 3 Pro | ~$2.00 | ~$10.00 |
| Claude Opus 4.5 | $3.00 | $15.00 |
| GPT-5.2 | ~$2.50 | ~$10.00 |
Gemini 3 Flash는 비슷한 추론 능력을 제공하면서 Gemini 3 Pro의 1/4 미만 비용입니다. Batch API는 더 높은 속도 제한과 함께 비동기 처리에 대해 50% 추가 절감을 제공합니다.
속도 지표
| 모델 | 초당 출력 토큰 |
|---|---|
| Gemini 3 Flash | 218 |
| Gemini 2.5 Flash | ~280 |
| GPT-5.1 High | 125 |
| DeepSeek V3.2 Reasoning | 30 |
Gemini 3 Flash는 2.5 Flash보다 22% 느리게 실행되지만 경쟁 프론티어 모델보다 훨씬 빠르며, 추론 가능 시스템 중 속도 선두를 차지합니다.
향후 전망
Gemini 3 Flash는 현재 출시 중이며 Google AI Studio, Gemini CLI, Android Studio, 그리고 기업 배포를 위한 Vertex AI에서 사용 가능합니다. 구글이 프로덕션 피드백을 수집하는 동안 이 모델은 프리뷰 상태로 유지됩니다.
2025년 12월 모델 선택 가이드: - 장시간 코딩 세션 및 버그 수정: Claude Opus 4.5가 SWE-bench 80.9%로 선두 - 알고리즘 설계 및 경쟁 프로그래밍: Gemini 3 Pro가 LiveCodeBench Elo 2,439로 압도 - 저비용 대용량 추론: Gemini 3 Flash가 최고의 품질 대비 비용 제공 - 순수 추론 및 수학: GPT-5.2가 AIME 2025에서 100% 달성
Artificial Analysis 비교에서 Gemini 3 Flash는 Claude Sonnet 4.5의 62.8 대비 71.3의 인텔리전스 인덱스 점수를 보여주며, 3배 빠른 응답 시간과 4배 더 나은 출력 속도를 결합합니다.
Introl 관점
고처리량 AI 추론 워크로드는 일관된 저지연 성능에 최적화된 GPU 인프라를 필요로 합니다. Introl의 550명 현장 엔지니어 네트워크는 전 세계 257개 지역에서 가속기 클러스터를 배포하고 유지관리합니다. 서비스 지역에 대해 자세히 알아보기.
게시일: 2025년 12월 29일