Gemini 3 Flash: 구글의 스피드 챔피언, 6배 저렴한 비용으로 GPT-5.2와 대등한 성능

구글의 Gemini 3 Flash가 GPQA Diamond 90.4%, SWE-bench 78%를 달성하며 토큰 100만 개당 $0.50의 비용을 제시합니다. 가장 빠른 프론티어 모델이 AI 인프라에 미치는 의미를 분석합니다.

Blake Crosley

Dec 29, 2025 3 min read Disclaimer

Gemini 3 Flash: 구글의 스피드 챔피언, 6배 저렴한 비용으로 GPT-5.2와 대등한 성능

요약

구글은 2025년 12월 17일 Gemini 3 Flash를 출시하여 Flash급 속도와 비용으로 프론티어급 성능을 제공합니다. 이 모델은 GPQA Diamond에서 90.4%, SWE-bench Verified에서 78%를 달성하면서 입력 토큰 100만 개당 $0.50의 비용만 부과하며, 이는 Claude Opus 4.5보다 약 6배 저렴합니다. 추론 집약적 배포 환경에서 Gemini 3 Flash는 초당 218토큰을 처리하여 GPT-5.1(125 t/s)과 DeepSeek V3.2 추론 모드(30 t/s)를 능가합니다.

무슨 일이 있었나

구글은 Gemini 3 Pro가 LMArena 리더보드 1위를 차지한 지 한 달 만인 2025년 12월 17일 Gemini 3 Flash를 출시했습니다. 이 모델은 Pro급 추론 능력과 Flash급 지연 시간 및 효율성을 결합하여 비용과 속도가 성능만큼 중요한 대용량 프로덕션 워크로드를 목표로 합니다.

Gemini 3 Flash는 즉시 Gemini 앱의 기본 모델과 Google 검색의 AI 모드로 채택되었으며, 이는 소비자 규모에서 프론티어 인텔리전스를 배포하는 것에 대한 구글의 자신감을 보여줍니다.

Artificial Analysis 테스트에 따르면 이 모델은 Gemini 2.5 Pro를 벤치마크 전반에서 능가하면서 3배 빠르게 실행됩니다. 여러 벤치마크에서 OpenAI가 Gemini 3 Pro에 대응하기 위해 서둘러 출시한 GPT-5.2와 대등한 성능을 보여줍니다.

JetBrains, Figma, Cursor, Harvey, Latitude 등의 기업들이 이미 프로덕션 환경에서 Gemini 3 Flash를 사용하고 있습니다.

왜 중요한가

AI 애플리케이션의 추론 비용 방정식이 바뀌었습니다. Gemini 3 Flash는 일반 수준의 가격으로 프론티어급 추론을 제공하여 데이터센터 운영자와 애플리케이션 개발자를 위한 새로운 배포 경제학을 창출합니다.

비용 우위: 입력 토큰 100만 개당 $0.50으로 Gemini 3 Flash는 Claude Opus 4.5($3.00)보다 6배 저렴하면서 대부분의 벤치마크에서 비슷한 성능을 달성합니다. 컨텍스트 캐싱을 통해 반복 토큰 사용 워크로드에서 90% 비용 절감이 가능합니다.

추론 속도: Artificial Analysis 벤치마킹에서 초당 218 출력 토큰을 기록하여 GPT-5.1(125 t/s)을 74%, DeepSeek V3.2 추론 모드(30 t/s)를 7배 앞섰습니다. 짧은 프롬프트에 대한 1초 미만의 지연 시간으로 반응형 채팅 인터페이스와 빠른 에이전트 루프 반복이 가능합니다.

에이전트 워크플로우: 이 모델은 SWE-bench Verified에서 78%를 달성하여 에이전트 코딩 작업에서 2.5 시리즈와 Gemini 3 Pro를 모두 능가합니다. AI 에이전트를 구축하는 기업에게 낮은 비용으로 비슷한 성능을 제공하는 것은 배포 ROI에 직접적인 영향을 미칩니다.

멀티모달 처리: Resemble AI는 2.5 Pro 대비 4배 빠른 멀티모달 분석을 보고했으며, 워크플로우 병목 현상 없이 원시 기술 출력을 처리합니다.

기술 세부사항

사양

사양	Gemini 3 Flash
입력 모달리티	텍스트, 이미지, 비디오, 오디오, PDF
출력 모달리티	텍스트
최대 입력 토큰	1,048,576 (1M)
최대 출력 토큰	65,536
지식 기준일	2025년 1월
출시일	2025년 12월 17일

벤치마크 성능

벤치마크	Gemini 3 Flash	Gemini 3 Pro	GPT-5.2	Claude Opus 4.5
GPQA Diamond	90.4%	91.9%	88.4%	88.0%
SWE-bench Verified	78%	76.2%	—	80.9%
MMMU-Pro	81.2%	—	79.5%	—
Humanity's Last Exam	33.7%	—	—	—
LMArena Elo	—	1501	—	—

Gemini 3 Flash는 2.5 Flash를 전 분야에서 능가하며 여러 벤치마크에서 2.5 Pro를 크게 앞서고, MMMU Pro, Toolathlon, MPC Atlas 등의 영역에서 3 Pro와 대등하거나 우위를 보입니다.

가격 비교

모델	입력 (토큰 100만 개당)	출력 (토큰 100만 개당)
Gemini 3 Flash	$0.50	$3.00
Gemini 2.5 Flash	$0.30	$2.50
Gemini 3 Pro	~$2.00	~$10.00
Claude Opus 4.5	$3.00	$15.00
GPT-5.2	~$2.50	~$10.00

Gemini 3 Flash는 비슷한 추론 능력을 제공하면서 Gemini 3 Pro의 1/4 미만 비용입니다. Batch API는 더 높은 속도 제한과 함께 비동기 처리에 대해 50% 추가 절감을 제공합니다.

속도 지표

모델	초당 출력 토큰
Gemini 3 Flash	218
Gemini 2.5 Flash	~280
GPT-5.1 High	125
DeepSeek V3.2 Reasoning	30

Gemini 3 Flash는 2.5 Flash보다 22% 느리게 실행되지만 경쟁 프론티어 모델보다 훨씬 빠르며, 추론 가능 시스템 중 속도 선두를 차지합니다.

향후 전망

Gemini 3 Flash는 현재 출시 중이며 Google AI Studio, Gemini CLI, Android Studio, 그리고 기업 배포를 위한 Vertex AI에서 사용 가능합니다. 구글이 프로덕션 피드백을 수집하는 동안 이 모델은 프리뷰 상태로 유지됩니다.

2025년 12월 모델 선택 가이드: - 장시간 코딩 세션 및 버그 수정: Claude Opus 4.5가 SWE-bench 80.9%로 선두 - 알고리즘 설계 및 경쟁 프로그래밍: Gemini 3 Pro가 LiveCodeBench Elo 2,439로 압도 - 저비용 대용량 추론: Gemini 3 Flash가 최고의 품질 대비 비용 제공 - 순수 추론 및 수학: GPT-5.2가 AIME 2025에서 100% 달성

Artificial Analysis 비교에서 Gemini 3 Flash는 Claude Sonnet 4.5의 62.8 대비 71.3의 인텔리전스 인덱스 점수를 보여주며, 3배 빠른 응답 시간과 4배 더 나은 출력 속도를 결합합니다.

Introl 관점

고처리량 AI 추론 워크로드는 일관된 저지연 성능에 최적화된 GPU 인프라를 필요로 합니다. Introl의 550명 현장 엔지니어 네트워크는 전 세계 257개 지역에서 가속기 클러스터를 배포하고 유지관리합니다. 서비스 지역에 대해 자세히 알아보기.

게시일: 2025년 12월 29일

Gemini 3 Flash: 구글의 스피드 챔피언, 6배 저렴한 비용으로 GPT-5.2와 대등한 성능

요약

무슨 일이 있었나

왜 중요한가

기술 세부사항

사양

벤치마크 성능

가격 비교

속도 지표

향후 전망

Introl 관점

You Might Also Like

데이터센터를 위한 AIOps: LLM을 활용한 AI 인프라 관리

AI 추론을 위한 로드 밸런싱: 1000개 이상의 GPU에 요청 분산하기

AI를 위한 분산 컴퓨팅: 구성 가능한 인프라 아키텍처

견적 요청_

요청이 접수되었습니다_