GPU를 넘어선 AI 가속기: 대안 실리콘 생태계
2025년 12월 11일 업데이트
2025년 12월 업데이트: AWS Trainium3가 칩당 2.52 PFLOPS FP8과 144GB HBM3e를 탑재하여 출하 중입니다. Google TPU v7 Ironwood는 칩당 4,614 TFLOPS를 제공하며—분석가들은 이를 "Blackwell과 대등한 수준"이라고 평가합니다. Intel은 2026-2027년 차세대 GPU 출시 시 Gaudi 단종을 확정했습니다. Groq LPU는 소형 모델에서 초당 750 토큰을 달성하고, Cerebras WSE-3는 125 PFLOPS 피크 성능을 기록했습니다. NVIDIA의 80% 시장 지배에도 불구하고 대안 실리콘이 특정 워크로드에서 입지를 넓히고 있습니다.
NVIDIA가 AI 가속기 시장의 약 80%를 점유하고 있지만, 비용 효율적이고 수직 통합된 인프라에 대한 수요 증가로 대안 실리콘 채택이 서서히 늘어나고 있습니다.¹ Google은 2025년 11월 7세대 TPU Ironwood를 출시했으며, 분석가들은 이를 "NVIDIA Blackwell과 대등한 수준"이라고 평가합니다.² AWS는 Anthropic의 모델 훈련을 위해 500,000개 이상의 Trainium2 칩을 배치했으며—이는 현재 운영 중인 가장 큰 비NVIDIA AI 클러스터입니다.³ Cerebras는 4조 개의 트랜지스터와 125 페타플롭스 피크 성능의 WSE-3를 출시했습니다.⁴ AI 가속기 생태계는 GPU를 훨씬 넘어서며, 기업들이 점점 더 평가하는 특정 워크로드에 최적화된 아키텍처를 제공합니다.
GPU는 유연성과 생태계 성숙도 면에서 여전히 기본 선택지입니다. CUDA의 지배력과 NVIDIA의 지속적인 혁신으로 인해 전환 비용이 상당합니다. 그러나 자체 실리콘을 설계하는 하이퍼스케일러들, 칩 아키텍처에 대한 기존 가정에 도전하는 스타트업들, 그리고 Intel의 공격적인 가격 정책이 5년 전에는 존재하지 않았던 선택지들을 만들어내고 있습니다. 대규모로 AI를 운영하는 조직들은 이제 가속기 선택을 일반 조달이 아닌 전략적 인프라 결정으로 평가합니다.
Google TPU: 하이퍼스케일러의 기준점
Google은 2024년 5월 Trillium(TPU v6)을 발표하고 2025년에 정식 출시했습니다.⁵ 6세대 TPU는 TPU v5e 대비 칩당 4.7배의 피크 연산 성능을 달성합니다.⁶ Google은 매트릭스 곱셈 유닛 크기를 확장하고 클럭 속도를 높여 약 926 테라플롭스의 BF16 성능에 도달했습니다.⁷
메모리 용량과 대역폭이 이전 세대 대비 두 배로 증가했습니다.⁸ Trillium은 칩당 32기가바이트의 HBM 용량과 비례하여 증가한 대역폭을 제공합니다.⁹ 칩 간 인터커넥트 대역폭도 두 배가 되어 멀티칩 확장 효율성이 개선되었습니다.¹⁰
에너지 효율이 TPU v5e 대비 67% 이상 개선되었습니다.¹¹ 업계 분석가들은 TPU v6가 GPU 대비 60-65% 더 효율적으로 운영된다고 추정하며, 이는 이전 세대의 40-45% 효율 우위와 비교됩니다.¹² 효율성 향상은 전력 제약이 배치 밀도를 제한하는 데이터 센터 규모에서 복리로 작용합니다.
Trillium은 단일 고대역폭, 저지연 포드에서 256개의 TPU로 확장됩니다.¹³ 포드 수준의 확장성을 넘어, 멀티슬라이스 기술과 Titanium Intelligence Processing Unit을 통해 수백 개의 포드로 확장하여 건물 규모의 슈퍼컴퓨터에서 수만 개의 칩을 연결할 수 있습니다.¹⁴ 최대 규모의 Trillium 클러스터는 91 엑사플롭스를 제공하며—이는 최대 TPU v5p 클러스터의 4배입니다.¹⁵
훈련 벤치마크가 성능 향상을 입증합니다. Trillium은 Gemma 2-27B, MaxText Default-32B, Llama2-70B에서 TPU v5e 대비 4배 이상의 훈련 성능 향상을 보였습니다.¹⁶ Stable Diffusion XL의 추론 처리량은 3배 개선되었습니다.¹⁷ Google은 Trillium을 사용하여 Gemini 2.0을 훈련했습니다.¹⁸
Google은 2025년 4월 Cloud Next에서 TPU v7(Ironwood)을 공개했습니다.¹⁹ Ironwood는 칩당 4,614 테라플롭스를 제공하며 256개 칩 및 9,216개 칩 구성으로 출하될 예정입니다.²⁰ SemiAnalysis 팀은 이 실리콘을 칭찬하며, 하이퍼스케일러 중 Google의 우위는 타의 추종을 불허한다고 밝혔습니다.²¹
TPU 접근에는 Google Cloud가 필요합니다. 멀티클라우드 또는 온프레미스 배포에 전념하는 조직은 TPU 인프라를 직접 사용할 수 없습니다. 클라우드 전용 모델은 Google Cloud 리전이 충족하지 못하는 데이터 상주 또는 주권 요구사항이 있는 조직의 채택을 제한합니다.
AWS Trainium: Anthropic과의 파트너십
AWS는 2025년 12월 회사 최초의 3nm AI 칩인 Trainium3를 출시했습니다.²² 각 Trainium3 칩은 144기가바이트의 HBM3e 메모리와 초당 4.9테라바이트의 메모리 대역폭으로 2.52 페타플롭스의 FP8 연산을 제공합니다.²³ 이 사양은 Trainium2 대비 1.5배 더 많은 메모리 용량과 1.7배 더 많은 대역폭을 나타냅니다.²⁴
Trn3 UltraServer는 144개의 Trainium3 칩으로 확장되어 총 362 페타플롭스의 FP8 성능을 제공합니다.²⁵ 완전히 구성된 UltraServer는 20.7테라바이트의 HBM3e와 초당 706테라바이트의 총 메모리 대역폭을 제공합니다.²⁶ AWS는 Trainium2 기반 시스템 대비 4.4배 더 많은 연산 성능, 4배 더 높은 에너지 효율, 거의 4배 더 많은 메모리 대역폭을 주장합니다.²⁷
NeuronSwitch-v1 패브릭은 Trn2 UltraServer 대비 칩 간 인터커넥트 대역폭을 두 배로 늘렸습니다.²⁸ 올투올(all-to-all) 패브릭 아키텍처는 전체 칩 구성에서 효율적인 분산 훈련을 가능하게 합니다.
Project Rainier는 AWS의 최대 AI 인프라 배치입니다. AWS는 Anthropic과 협력하여 500,000개 이상의 Trainium2 칩을 세계 최대 AI 컴퓨팅 클러스터로 연결했으며—이는 Anthropic의 이전 세대 모델 훈련에 사용된 인프라의 5배 규모입니다.²⁹ 이 파트너십은 프론티어 모델 훈련에 대한 Trainium의 실행 가능성을 입증합니다.
Trainium2 기반 EC2 Trn2 인스턴스는 AWS에 따르면 GPU 기반 EC2 P5e 및 P5en 인스턴스보다 30-40% 더 나은 가격 대비 성능을 제공합니다.³⁰ 이 비용 우위는 연산 비용이 예산의 대부분을 차지하는 지속적인 훈련 워크로드에서 중요합니다.
AWS는 추론 워크로드가 점점 더 연산 요구사항 면에서 훈련과 유사해지고 있어 Inferentia 라인을 단종했습니다.³¹ Trainium 아키텍처가 이제 훈련과 추론을 모두 처리하여 칩 포트폴리오를 단순화합니다.
Trainium4가 2026년 말 또는 2027년 초 예상 출시로 개발 중입니다.³² AWS는 Trainium3 대비 최소 6배 FP4 처리량, 3배 FP8 성능, 4배 더 많은 메모리 대역폭을 발표했습니다.³³ Trainium4는 NVIDIA NVLink Fusion 인터커넥트 기술을 지원하여 공통 랙 구성에서 NVIDIA GPU와의 통합을 가능하게 합니다.³⁴
Intel Gaudi: 가격 경쟁자
Intel은 2024년 Gaudi 3를 출시하며 NVIDIA H100에 대한 비용 효율적인 대안으로 포지셔닝했습니다.³⁵ Gaudi 3는 64개의 텐서 프로세서 코어, 8개의 매트릭스 곱셈 엔진, 초당 19.2테라바이트 대역폭의 96메가바이트 온다이 SRAM 캐시를 갖춘 두 개의 칩렛을 사용합니다.³⁶ 이 칩은 초당 3.67테라바이트 대역폭의 128기가바이트 HBM2e 메모리를 통합합니다.³⁷
Gaudi 3는 약 600와트 TDP에서 1,835 BF16/FP8 매트릭스 테라플롭스를 제공합니다.³⁸ NVIDIA H100과 비교하면, Gaudi 3는 더 높은 BF16 매트릭스 성능(스파시티 없이 1,835 대 1,979 테라플롭스)과 더 많은 HBM 용량(128 대 80기가바이트)을 제공합니다.³⁹ 메모리 대역폭도 H100을 초과합니다.⁴⁰
Intel은 Gaudi 3가 일반적으로 NVIDIA H100보다 40% 빠르며, FP8 정밀도로 Llama2-13B 훈련 시 H100을 최대 1.7배까지 능가할 수 있다고 주장합니다.⁴¹ 전력 효율 주장은 더욱 극적입니다—Llama 벤치마크에서 H100 대비 최대 220%, Falcon에서 230%입니다.⁴²
가격 우위가 상당합니다. 8 가속기 Gaudi 3 시스템의 가격은 $157,613이며, 동등한 H100 시스템은 $300,107입니다.⁴³ 칩당 가격은 Gaudi 3가 약 $15,625, H100이 $30,678입니다.⁴⁴ 이 비용 차이로 조직은 동일한 예산으로 약 두 배의 연산 용량을 배치할 수 있습니다.
Gaudi 3는 HBM3나 HBM3e가 아닌 HBM2e를 사용하여 비용은 낮지만 현 세대 대안 대비 메모리 대역폭이 제한됩니다.⁴⁵ 메모리 대역폭 제한 워크로드를 실행하는 조직은 이 트레이드오프를 신중히 평가해야 합니다.
생태계 문제가 Gaudi 채택을 제한합니다. NVIDIA의 CUDA가 AI 개발을 지배하며, Intel의 도구로 전환하려면 엔지니어링 투자가 필요합니다.⁴⁶ 경쟁력 있는 하드웨어에도 불구하고 AI 가속기에서 Intel의 시장 점유율은 미미한 수준입니다.⁴⁷
Intel은 2026-2027년 차세대 AI GPU 출시 시 Gaudi가 단종될 것이라고 발표했습니다.⁴⁸ 이 단종 발표는 다년간 Gaudi 배치를 고려하는 조직에 채택 위험을 야기합니다. 파트너들은 수명 종료가 발표된 제품 라인에 투자하기를 주저할 수 있습니다.
Groq LPU: 추론 속도 선두
Groq의 Language Processing Unit(LPU)은 훈련보다 추론에 특별히 최적화된 근본적으로 다른 아키텍처 접근 방식을 취합니다.⁴⁹ Tensor Streaming Processor 아키텍처는 INT8에서 750 TOPS, FP16에서 188 테라플롭스를 달성하며, 초당 80테라바이트의 대규모 온칩 SRAM 대역폭을 제공합니다.⁵⁰
1세대 LPU는 900 MHz로 작동하는 14nm 칩에서 제곱밀리미터당 초당 1 테라옵 이상을 제공합니다.⁵¹ 2세대 LPU는 Samsung의 4nm 공정을 사용할 예정입니다.⁵²
추론 속도가 Groq의 가치 제안을 정의합니다. LPU는 Mixtral 8x7B를 초당 480 토큰으로, Llama 2 70B를 초당 300 토큰으로 서비스합니다.⁵³ Llama 2 7B와 같은 소형 모델은 초당 750 토큰을 달성합니다.⁵⁴ Groq는 Llama2-70B에서 초당 100 토큰을 돌파한 최초의 API 제공업체였습니다.⁵⁵
LPU는 언어 모델에서 기존 GPU보다 최대 18배 빠른 추론을 제공하며 결정론적 서브밀리초 지연 시간을 보장합니다.⁵⁶ 에너지 효율은 토큰당 1-3줄에 도달합니다.⁵⁷
LPU 카드의 가격은 약 $20,000로—고급 NVIDIA GPU와 비슷하지만—추론 속도와 효율성에서 특히 뛰어납니다.⁵⁸ 트레이드오프는 분명합니다: LPU는 훈련이 아닌 추론만 처리합니다.⁵⁹
Groq의 배치 범위가 2025년에 크게 확장되었습니다. 회사는 미국, 캐나다, 중동, 유럽 전역에 12개의 데이터 센터를 운영합니다.⁶⁰ 2025년 9월, Groq는 69억 달러 가치 평가로 7억 5천만 달러를 유치했습니다.⁶¹
2025년 2월 발표된 사우디아라비아 파트너십은 Groq가 세계 최대 AI 추론 데이터 센터로 설명하는 담맘 시설 구축에 15억 달러를 투자합니다.⁶² 초기 배치에는 19,000개의 LPU가 포함되며 2027년까지 100,000개 이상의 LPU로 용량 확장이 계획되어 있습니다.⁶³
Cerebras WSE-3: 웨이퍼 스케일 통합
Cerebras는 웨이퍼를 개별 프로세서로 다이싱하는 대신 웨이퍼 규모로 칩을 구축하는 가장 급진적인 아키텍처 접근 방식을 취합니다.⁶⁴ WSE-3는 전체 웨이퍼에 걸쳐 4조 개의 트랜지스터를 포함합니다—46,225 제곱밀리미터의 실리콘입니다.⁶⁵
WSE-3는 125 페타플롭스의 피크 AI 성능을 제공하는 900,000개의 AI 최적화 연산 코어를 탑재합니다.⁶⁶ 온칩 SRAM은 초당 21 페타바이트 메모리 대역폭으로 44기가바이트에 도달합니다.⁶⁷ 패브릭 대역폭은 초당 214 페타비트를 달성합니다.⁶⁸ 이 칩은 TSMC의 5nm 공정으로 제조됩니다.⁶⁹
CS-3 시스템은 동일한 15킬로와트 전력 범위에서 CS-2의 성능을 두 배로 높입니다.⁷⁰ 단일 CS-3는 15U의 랙 공간에 들어갑니다.⁷¹ 외부 메모리 옵션은 구성에 따라 1.5테라바이트, 12테라바이트 또는 1.2페타바이트까지 용량을 확장합니다.⁷²
모델 용량이 극적으로 확장됩니다. CS-3는 최대 24조 파라미터의 신경망 모델을 훈련할 수 있습니다.⁷³ 클러스터는 2,048개의 CS-3 시스템으로 확장되어 최대 256 엑사플롭스의 FP16 연산을 제공합니다.⁷⁴
Cerebras는 상당한 사용 편의성 우위를 주장합니다. 이 플랫폼은 LLM에서 GPU보다 97% 적은 코드가 필요하며, 1억에서 24조 파라미터의 모델을 순수 데이터 병렬 모드로 훈련합니다.⁷⁵ 컴팩트한 4시스템 구성으로 70B 모델을 하루 만에 파인튜닝할 수 있습니다.⁷⁶ 전체 2,048 시스템 규모에서 Llama 70B는 하루 만에 처음부터 훈련됩니다.⁷⁷
댈러스의 Condor Galaxy 3 슈퍼컴퓨터는 8 엑사플롭스의 FP16 연산을 위해 64개의 CS-3 시스템을 배치할 예정입니다.⁷⁸ TIME Magazine은 WSE-3를 2024년 최고의 발명품으로 선정했습니다.⁷⁹
SambaNova SN40L: 재구성 가능한 데이터플로우
SambaNova의 Reconfigurable Dataflow Unit(RDU) 아키텍처는 GPU와 맞춤형 ASIC 모두와 다릅니다.⁸⁰ SN40L은 온칩 데이터플로우 유연성과 3계층 메모리 시스템(온칩 SRAM, 온패키지 HBM, 오프패키지 DRAM)을 결합합니다.⁸¹
SN40L은 듀얼 다이 CoWoS 패키지의 TSMC 5nm 공정을 사용합니다.⁸² 각 소켓은 640 BF16 테라플롭스와 520메가바이트의 온칩 SRAM을 제공하는 1,020억 개의 트랜지스터를 포함합니다.⁸³ DDR 계층은 최대 1.5테라바이트의 메모리 용량을 지원합니다.
[번역을 위해 콘텐츠 잘림]