GPU를 넘어선 AI 가속기: TPU, Trainium, Gaudi, Groq, Cerebras 2025

Google TPU Trillium, AWS Trainium3, Intel Gaudi 3, Groq LPU, Cerebras WSE-3, SambaNova SN40L. NVIDIA GPU 지배력에 도전하는 AI 가속기 분석.

GPU를 넘어선 AI 가속기: TPU, Trainium, Gaudi, Groq, Cerebras 2025

GPU를 넘어선 AI 가속기: 대안 실리콘 환경

2025년 12월 11일 업데이트

2025년 12월 업데이트: AWS Trainium3가 칩당 2.52 PFLOPS FP8와 144GB HBM3e로 출하 중. Google TPU v7 Ironwood가 칩당 4,614 TFLOPS를 제공하며 분석가들은 이를 "Blackwell과 동등"이라고 평가. Intel은 차세대 GPU가 출시되는 2026-2027년에 Gaudi 중단을 확인. Groq LPU는 소형 모델에서 750 토큰/초를 달성하고 Cerebras WSE-3는 125 PFLOPS 피크를 기록. NVIDIA의 80% 시장 지배력에도 불구하고 특정 워크로드에서 대안 실리콘이 견인력을 얻고 있음.

NVIDIA는 AI 가속기 시장의 약 80%를 차지하고 있지만, 비용 효율적이고 수직 통합된 인프라에 대한 수요 증가로 대안 실리콘의 채택이 서서히 증가하고 있습니다.¹ Google은 2025년 11월에 7세대 TPU Ironwood를 출시했으며, 분석가들은 이를 "NVIDIA Blackwell과 비교할 만하다"고 평가합니다.² AWS는 Anthropic의 모델 훈련을 위해 500,000개 이상의 Trainium2 칩을 배포했습니다. 이는 프로덕션에서 가장 큰 비NVIDIA AI 클러스터입니다.³ Cerebras는 4조 개의 트랜지스터와 125 페타플롭스의 피크 성능을 가진 WSE-3를 출시했습니다.⁴ AI 가속기 환경은 GPU를 훨씬 넘어서며, 기업들이 점점 더 평가하는 특정 워크로드에 최적화된 아키텍처를 제공합니다.

GPU는 유연성과 생태계 성숙도 면에서 여전히 기본 선택입니다. CUDA의 지배력과 NVIDIA의 지속적인 혁신은 전환 비용을 상당하게 만듭니다. 그러나 자체 실리콘을 설계하는 하이퍼스케일러, 칩 아키텍처에 대한 가정에 도전하는 스타트업, 그리고 Intel의 공격적인 가격 정책은 모두 5년 전에는 존재하지 않았던 옵션들을 만들어냅니다. 대규모로 AI를 운영하는 조직들은 이제 가속기 선택을 상품 조달이 아닌 전략적 인프라 결정으로 평가합니다.

Google TPU: 하이퍼스케일러 벤치마크

Google은 2024년 5월에 Trillium(TPU v6)을 발표하고 2025년에 일반 공급을 시작했습니다.⁵ 6세대 TPU는 TPU v5e 대비 칩당 4.7배의 피크 컴퓨팅 성능을 달성합니다.⁶ Google은 매트릭스 곱셈 유닛 크기를 확대하고 클록 속도를 높여 약 926 테라플롭스의 BF16 성능에 도달했습니다.⁷

메모리 용량과 대역폭이 이전 세대 대비 두 배로 늘었습니다.⁸ Trillium은 칩당 32기가바이트의 HBM 용량을 제공하며 비례적으로 대역폭도 증가했습니다.⁹ 칩 간 인터커넥트 대역폭도 두 배로 늘어나 멀티칩 스케일링 효율성이 향상되었습니다.¹⁰

에너지 효율성은 TPU v5e 대비 67% 이상 개선되었습니다.¹¹ 업계 분석가들은 TPU v6가 이전 세대의 40-45% 효율성 장점 대비 60-65% 더 효율적으로 작동한다고 추정합니다.¹² 효율성 향상은 전력 제약이 배포 밀도를 제한하는 데이터센터 규모에서 복합적으로 작용합니다.

Trillium은 단일 고대역폭, 저지연 포드에서 256개의 TPU까지 확장됩니다.¹³ 포드 수준 확장성을 넘어서, 멀티슬라이스 기술과 Titanium Intelligence Processing Unit은 수백 개의 포드로 확장을 가능하게 하여 수만 개의 칩을 빌딩 규모 슈퍼컴퓨터에 연결합니다.¹⁴ 가장 큰 Trillium 클러스터는 91 엑사플롭스를 제공하며, 이는 가장 큰 TPU v5p 클러스터보다 4배 더 많습니다.¹⁵

훈련 벤치마크는 성능 향상을 보여줍니다. Trillium은 TPU v5e 대비 Gemma 2-27B, MaxText Default-32B, Llama2-70B에서 4배 이상의 훈련 성능 향상을 제공했습니다.¹⁶ Stable Diffusion XL의 추론 처리량은 3배 개선되었습니다.¹⁷ Google은 Trillium을 사용하여 Gemini 2.0을 훈련했습니다.¹⁸

Google은 2025년 4월 Cloud Next에서 TPU v7(Ironwood)을 공개했습니다.¹⁹ Ironwood는 칩당 4,614 테라플롭스를 제공하며 256칩 및 9,216칩 구성으로 출하될 예정입니다.²⁰ SemiAnalysis 팀은 이 실리콘을 칭찬하며 하이퍼스케일러 중 Google의 우위는 비할 바 없다고 언급했습니다.²¹

TPU 접근에는 Google Cloud가 필요합니다. 멀티클라우드 또는 온프레미스 배포에 전념하는 조직은 TPU 인프라를 직접 사용할 수 없습니다. 클라우드 전용 모델은 Google Cloud 리전이 만족하지 못하는 데이터 거주지 또는 주권 요구사항을 가진 조직의 채택을 제한합니다.

AWS Trainium: Anthropic 파트너십

AWS는 2025년 12월에 회사 최초의 3nm AI 칩인 Trainium3를 출시했습니다.²² 각 Trainium3 칩은 144기가바이트의 HBM3e 메모리와 초당 4.9테라바이트의 메모리 대역폭으로 2.52페타플롭스의 FP8 컴퓨팅을 제공합니다.²³ 이 사양은 Trainium2 대비 1.5배 더 많은 메모리 용량과 1.7배 더 많은 대역폭을 나타냅니다.²⁴

Trn3 UltraServer는 144개의 Trainium3 칩으로 확장되어 총 362페타플롭스의 FP8 성능을 제공합니다.²⁵ 완전 구성된 UltraServer는 20.7테라바이트의 HBM3e와 초당 706테라바이트의 집계 메모리 대역폭을 제공합니다.²⁶ AWS는 Trainium2 기반 시스템 대비 4.4배 더 많은 컴퓨팅 성능, 4배 더 높은 에너지 효율성, 거의 4배 더 많은 메모리 대역폭을 주장합니다.²⁷

NeuronSwitch-v1 패브릭은 Trn2 UltraServer 대비 칩 간 인터커넥트 대역폭을 두 배로 늘립니다.²⁸ 모든 대 모든 패브릭 아키텍처는 전체 칩 보완에서 효율적인 분산 훈련을 가능하게 합니다.

프로젝트 Rainier는 AWS의 가장 큰 AI 인프라 배포를 나타냅니다. AWS는 Anthropic과 협력하여 500,000개 이상의 Trainium2 칩을 세계 최대의 AI 컴퓨팅 클러스터로 연결했습니다. 이는 Anthropic의 이전 세대 모델 훈련에 사용된 인프라보다 5배 더 큽니다.²⁹ 이 파트너십은 최첨단 모델 훈련을 위한 Trainium의 실행 가능성을 보여줍니다.

Trainium2 기반 EC2 Trn2 인스턴스는 AWS에 따르면 GPU 기반 EC2 P5e 및 P5en 인스턴스보다 30-40% 더 나은 가격 대비 성능을 제공합니다.³⁰ 비용 이점은 컴퓨팅 비용이 예산을 지배하는 지속적인 훈련 워크로드에서 중요합니다.

AWS는 추론 워크로드가 계산 요구사항에서 점점 더 훈련과 유사해지기 때문에 Inferentia 라인을 중단했습니다.³¹ Trainium 아키텍처는 이제 훈련과 추론을 모두 처리하여 칩 포트폴리오를 단순화합니다.

Trainium4는 2026년 말 또는 2027년 초 배송이 예상되는 개발 중입니다.³² AWS는 Trainium3 대비 최소 6배의 FP4 처리량, 3배의 FP8 성능, 4배 더 많은 메모리 대역폭을 발표했습니다.³³ Trainium4는 NVIDIA NVLink Fusion 인터커넥트 기술을 지원하여 공통 랙 구성에서 NVIDIA GPU와의 통합을 가능하게 합니다.³⁴

Intel Gaudi: 가격 경쟁자

Intel은 2024년에 Gaudi 3를 출시하여 NVIDIA H100의 비용 효율적인 대안으로 포지셔닝했습니다.³⁵ Gaudi 3는 64개의 텐서 프로세서 코어, 8개의 매트릭스 곱셈 엔진, 그리고 초당 19.2테라바이트 대역폭을 가진 96메가바이트의 온다이 SRAM 캐시를 가진 두 개의 칩릿을 사용합니다.³⁶ 칩은 초당 3.67테라바이트 대역폭을 가진 128기가바이트의 HBM2e 메모리를 통합합니다.³⁷

Gaudi 3는 약 600와트 TDP에서 1,835 BF16/FP8 매트릭스 테라플롭스를 제공합니다.³⁸ NVIDIA H100과 비교하여 Gaudi 3는 더 높은 BF16 매트릭스 성능(희소성 없이 1,835 대 1,979 테라플롭스)과 더 많은 HBM 용량(128 대 80기가바이트)을 제공합니다.³⁹ 메모리 대역폭도 H100을 초과합니다.⁴⁰

Intel은 Gaudi 3가 일반적으로 NVIDIA H100보다 40% 빠르며 FP8 정밀도에서 Llama2-13B를 훈련할 때 H100을 최대 1.7배까지 능가할 수 있다고 주장합니다.⁴¹ 전력 효율성 주장은 더욱 극적입니다. Llama 벤치마크에서 H100 값의 최대 220%, Falcon에서 230%입니다.⁴²

가격 이점은 상당합니다. 8개 가속기 Gaudi 3 시스템은 동등한 H100 시스템의 $300,107 대비 $157,613입니다.⁴³ 칩당 가격은 H100의 $30,678 대비 Gaudi 3가 약 $15,625입니다.⁴⁴ 비용 차이는 조직이 동등한 예산으로 약 두 배의 컴퓨팅 용량을 배포할 수 있게 합니다.

Gaudi 3는 HBM3 또는 HBM3e가 아닌 HBM2e를 사용하여 낮은 비용에 기여하지만 현재 세대 대안 대비 메모리 대역폭을 제한합니다.⁴⁵ 메모리 대역폭에 제약을 받는 워크로드를 실행하는 조직은 이 트레이드오프를 신중히 평가해야 합니다.

생태계 과제가 Gaudi 채택을 제한합니다. NVIDIA의 CUDA가 AI 개발을 지배하고 있으며, Intel의 도구로 전환하려면 엔지니어링 투자가 필요합니다.⁴⁶ AI 가속기에서 Intel의 시장 점유율은 경쟁력 있는 하드웨어에도 불구하고 여전히 미미합니다.⁴⁷

Intel은 차세대 AI GPU가 2026-2027년에 출시될 때 Gaudi가 중단될 것이라고 발표했습니다.⁴⁸ 중단 발표는 다년간 Gaudi 배포를 고려하는 조직에 채택 위험을 만듭니다. 파트너들은 발표된 수명 종료가 있는 제품 라인에 투자하기를 주저할 수 있습니다.

Groq LPU: 추론 속도 리더십

Groq의 Language Processing Unit(LPU)는 훈련보다는 추론에 특별히 최적화된 근본적으로 다른 아키텍처 접근법을 취합니다.⁴⁹ Tensor Streaming Processor 아키텍처는 INT8에서 750 TOPS, FP16에서 188테라플롭스를 달성하며 초당 80테라바이트의 대규모 온칩 SRAM 대역폭을 제공합니다.⁵⁰

1세대 LPU는 900MHz에서 작동하는 14nm 칩에서 제곱밀리미터당 초당 1테라옵 이상을 제공합니다.⁵¹ 2세대 LPU는 Samsung의 4nm 공정을 사용할 예정입니다.⁵²

추론 속도는 Groq의 가치 제안을 정의합니다. LPU는 Mixtral 8x7B를 초당 480토큰으로, Llama 2 70B를 초당 300토큰으로 서빙합니다.⁵³ Llama 2 7B와 같은 작은 모델은 초당 750토큰을 달성합니다.⁵⁴ Groq는 Llama2-70B에서 초당 100토큰을 돌파한 최초의 API 제공업체였습니다.⁵⁵

LPU는 결정적인 밀리초 이하 지연시간으로 언어 모델에 대해 기존 GPU보다 최대 18배 빠른 추론을 제공합니다.⁵⁶ 에너지 효율성은 토큰당 1-3줄에 도달합니다.⁵⁷

LPU 카드는 약 $20,000로 고급 NVIDIA GPU와 비슷하지만 추론 속도와 효율성에서 특히 뛰어납니다.⁵⁸ 트레이드오프는 명확합니다. LPU는 훈련이 아닌 추론만 처리합니다.⁵⁹

Groq의 배포 범위는 2025년에 크게 확장되었습니다. 회사는 미국, 캐나다, 중동, 유럽에 걸쳐 12개의 데이터센터를 운영합니다.⁶⁰ 2025년 9월, Groq는 69억 달러 평가로 7억 5천만 달러를 조달했습니다.⁶¹

2025년 2월에 발표된 사우디아라비아 파트너십은 담맘에 Groq가 세계 최대의 AI 추론 데이터센터라고 설명하는 것을 구축하기 위해 15억 달러를 약속합니다.⁶² 초기 배포는 19,000개의 LPU를 특징으로 하며 2027년까지 100,000개의 LPU를 초과하는 용량 확장이 계획되어 있습니다.⁶³

Cerebras WSE-3: 웨이퍼 스케일 통합

Cerebras는 웨이퍼를 개별 프로세서로 절단하는 대신 웨이퍼 스케일로 칩을 구축하는 가장 급진적인 아키텍처 접근법을 취합니다.⁶⁴ WSE-3는 전체 웨이퍼에 4조 개의 트랜지스터를 포함하며, 46,225 제곱밀리미터의 실리콘입니다.⁶⁵

WSE-3는 125페타플롭스의 피크 AI 성능을 제공하는 900,000개의 AI 최적화 컴퓨팅 코어를 포함합니다.⁶⁶ 온칩 SRAM은 초당 21페타바이트의 메모리 대역폭으로 44기가바이트에 도달합니다.⁶⁷ 패브릭 대역폭은 초당 214페타비트에 도달합니다.⁶⁸ 칩은 TSMC의 5nm 공정에서 제조됩니다.⁶⁹

CS-3 시스템은 동일한 15킬로와트 전력 엔벨로프에서 CS-2의 성능을 두 배로 늘립니다.⁷⁰ 단일 CS-3는 15U 랙 공간에 맞습니다.⁷¹ 외부 메모리 옵션은 구성에 따라 용량을 1.5테라바이트, 12테라바이트 또는 1.2페타바이트까지 확장합니다.⁷²

모델 용량이 극적으로 확장됩니다. CS-3는 최대 24조 파라미터의 신경망 모델을 훈련할 수 있습니다.⁷³ 클러스터는 최대 256엑사플롭스의 FP16 컴퓨팅을 제공하는 2,048개의 CS-3 시스템으로 확장됩니다.⁷⁴

Cerebras는 상당한 사용 편의성 장점을 주장합니다. 플랫폼은 LLM에 대해 GPU보다 97% 적은 코드를 요구하며 순수 데이터 병렬 모드에서 10억에서 24조 파라미터 모델을 훈련합니다.⁷⁵ 컴팩트한 4시스템 구성은 하루에 70B 모델을 미세 조정할 수 있습니다.⁷⁶ 전체 2,048시스템 규모에서 Llama 70B는 하루에 처음부터 훈련됩니다.⁷⁷

달라스의 Condor Galaxy 3 슈퍼컴퓨터는 8엑사플롭스의 FP16 컴퓨팅을 위해 64개의 CS-3 시스템을 배포할 예정입니다.⁷⁸ TIME Magazine은 WSE-3를 2024년 최고 발명품으로 인정했습니다.⁷⁹

SambaNova SN40L: 재구성 가능 데이터플로우

SambaNova의 Reconfigurable Dataflow Unit(RDU) 아키텍처는 GPU와 맞춤형 ASIC 모두와 다릅니다.⁸⁰ SN40L은 온칩 데이터플로우 유연성과 3계층 메모리 시스템을 결합합니다: 온칩 SRAM, 온패키지 HBM, 오프패키지 DRAM.⁸¹

SN40L은 듀얼다이 CoWoS 패키지에서 TSMC의 5nm 공정을 사용합니다.⁸² 각 소켓은 640 BF16 테라플롭스와 520메가바이트의 온칩 SRAM을 제공하는 1,020억 개의 트랜지스터를 포함합니다.⁸³ DDR 계층은 초당

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중