Amazon의 Trainium3, AI 칩 전쟁에 도전장을 내밀다

Trainium3가 TSMC 3nm 공정으로 출하, 칩당 2.52 PFLOPS FP8과 144GB HBM3e 탑재. 풀 UltraServer(144개 칩)는 362 PFLOPS 제공. Anthropic, Decart, Amazon Bedrock이 프로덕션 워크로드 운영 중....

Blake Crosley

Apr 01, 2026 6 min read Disclaimer

Amazon의 Trainium3, AI 칩 전쟁에 도전장을 내밀다

2025년 12월 11일 업데이트

2025년 12월 업데이트: Trainium3가 TSMC 3nm 공정으로 출하되며 칩당 2.52 PFLOPS FP8과 144GB HBM3e를 제공합니다. 풀 UltraServer(144개 칩)는 362 PFLOPS를 구현합니다. Anthropic, Decart, Amazon Bedrock이 프로덕션 워크로드를 운영 중입니다. 고객들은 GPU 대안 대비 50% 비용 절감을 보고하고 있습니다. Trainium4는 2026년 말/2027년 초 출시 예정이며, 이기종 클러스터를 지원하는 NVIDIA NVLink Fusion을 탑재할 예정입니다.

AWS는 re:Invent 2025에서 Trainium3 UltraServer를 출시했으며, 그 사양은 주목할 만합니다. TSMC의 3nm 공정으로 제작된 각 Trainium3 칩은 144GB HBM3e 메모리와 함께 2.52 페타플롭스의 FP8 연산 성능을 제공합니다.¹ 144개 칩으로 구성된 풀 UltraServer로 확장하면 고객은 362 페타플롭스의 AI 처리 능력에 접근할 수 있습니다.

이 수치는 Trainium2 대비 4.4배의 성능 향상과 4배 더 나은 에너지 효율을 나타냅니다.² Amazon은 고객들이 이미 GPU 대안 대비 50% 낮은 학습 및 추론 비용을 달성하고 있다고 주장합니다.³ Claude를 개발한 Anthropic은 새로운 실리콘에서 프로덕션 워크로드를 운영하고 있습니다. 하이퍼스케일러 AI 칩 전쟁이 더욱 격화되었습니다.

성능 측면의 경쟁력

AWS는 순수한 성능보다는 경제성을 통해 NVIDIA의 지배력에 도전하도록 Trainium3를 설계했습니다. 이 칩은 이전 Trainium 세대보다 메가와트당 5배 더 많은 토큰을 제공하며, 대규모 AI를 감당하기 어렵게 만드는 비용 구조를 공략합니다.⁴

메모리 대역폭은 이전 세대의 거의 4배인 초당 4.9테라바이트에 달합니다.⁵ 대규모 언어 모델은 메모리와 연산 유닛 사이에서 데이터를 이동하는 데 많은 시간을 소비합니다. 더 높은 대역폭은 더 빠른 추론 및 학습 처리량으로 직결됩니다. AWS는 Trainium2 대비 모델 학습 지연 시간이 4배 감소했다고 주장합니다.

네트워킹 아키텍처는 인상적으로 확장됩니다. NeuronSwitch-v1은 각 UltraServer 내에서 2배 더 많은 대역폭을 제공하며, Neuron Fabric 네트워킹은 칩 간 통신을 10마이크로초 미만으로 줄입니다.⁶ EC2 UltraClusters 3.0은 수천 대의 서버를 연결하여 단일 논리적 클러스터에서 100만 개의 Trainium3 칩까지 확장합니다. 프론티어 모델 학습에는 정확히 그러한 규모가 필요합니다.

고객 검증

증거는 프로덕션 배포에 있습니다. Decart는 GPU의 절반 비용으로 실시간 생성형 비디오에서 4배 더 빠른 추론을 달성했습니다.⁷ Karakuri, Metagenomi, NetoAI, Ricoh, Splash Music 모두 학습 및 추론 워크로드에서 50% 비용 절감을 보고합니다. Amazon Bedrock은 이미 Trainium3 인프라에서 프로덕션 트래픽을 제공하고 있습니다.

고객 목록에 Anthropic이 포함된 것은 특별한 의미가 있습니다. 이 회사는 AI 역량의 최전선에서 운영되며 OpenAI 및 Google과 직접 경쟁하는 모델을 학습시킵니다. Anthropic이 프로덕션 워크로드에 Trainium3를 선택한 것은 AWS 실리콘이 가장 까다로운 AI 애플리케이션에 대해 엔터프라이즈급 준비가 되었음을 검증합니다.

비용 이점은 시간이 지남에 따라 복리로 증가합니다. 이전에 몇 달이 걸리던 학습 실행이 이제 몇 주 만에 완료됩니다.⁸ 더 빠른 반복 주기는 연구 속도를 가속화합니다. 더 낮은 추론 비용은 더 광범위한 배포를 가능하게 합니다. 이전에 AI 실험에서 비용 때문에 배제되었던 조직들이 이제 AWS의 낮은 가격대에서 참여할 수 있습니다.

Trainium4 로드맵이 시사하는 더 큰 야망

AWS는 Trainium3 출시와 함께 2026년 말 또는 2027년 초 출시를 목표로 하는 Trainium4 계획을 공개했습니다.⁹ 이 로드맵은 점진적 개선을 넘어서는 전략적 야망을 드러냅니다.

Trainium4는 네이티브 FP4 지원을 통한 6배 성능 향상, 약 288GB에 달하는 2배 메모리 용량, 4배 대역폭 향상을 약속합니다.¹⁰ 이러한 사양은 같은 시기에 NVIDIA가 출시하는 제품과 경쟁할 수 있는 위치에 Trainium4를 놓을 것입니다.

더 중요한 것은 Trainium4가 UALink와 함께 NVIDIA의 NVLink Fusion 인터커넥트 기술을 지원한다는 점입니다.¹¹ AWS는 NVIDIA의 고속 인터커넥트를 사용하여 커스텀 Graviton CPU와 Trainium XPU를 결합하는 이기종 클러스터를 구축하는 것을 목표로 합니다. 이 움직임은 일종의 데탕트를 나타냅니다: AWS는 액셀러레이터에서 NVIDIA와 경쟁하면서도 NVIDIA의 연결 표준을 통합합니다.

NVLink 지원은 AWS가 특별한 계약을 협상할 만큼 충분한 NVIDIA GPU를 구매한다는 것을 시사합니다. NVIDIA는 일반적으로 NVLink를 자사 액셀러레이터에만 제한합니다. AWS에 접근을 허용한 것은 경쟁과 협력이 공존하는 실용적인 관계를 나타냅니다. AWS는 경쟁 실리콘을 개발하면서도 NVIDIA의 최대 클라우드 고객으로 남아 있습니다.

경쟁이 기업에 의미하는 것

Trainium3 출시는 기업에게 AI 인프라에 대한 실질적인 대안을 제공합니다. NVIDIA의 지배력은 지속되지만, AWS는 이제 Trainium 아키텍처에 최적화할 의향이 있는 고객에게 더 낮은 비용으로 경쟁력 있는 성능을 제공합니다.

최적화 요구 사항이 중요합니다. NVIDIA의 CUDA 생태계는 수십 년간의 소프트웨어 투자를 나타냅니다. 개발자들은 CUDA를 알고 있습니다. 프레임워크는 CUDA를 기본 지원합니다. Trainium으로 이동하려면 AWS의 Neuron SDK를 채택하고 잠재적으로 성능에 중요한 코드를 다시 작성해야 합니다. 성능 및 비용 이점이 그 마이그레이션 노력을 정당화해야 합니다.

추론 워크로드의 경우 계산이 종종 Trainium에 유리합니다. 추론은 예측 가능한 메모리 접근 패턴으로 표준화된 모델을 반복적으로 실행합니다. Trainium용 추론 코드를 최적화하면 규모에 따라 복리로 증가하는 지속 가능한 비용 절감을 제공합니다. 매일 수백만 건의 추론 요청을 실행하는 조직은 AWS 실리콘으로 전환하여 의미 있는 절감을 달성할 수 있습니다.

학습은 더 복잡한 결정을 제시합니다. 프론티어 모델 학습에는 최첨단 하드웨어, 확립된 도구, 검증된 신뢰성이 필요합니다. NVIDIA의 실적과 생태계는 GPU 클러스터가 학습 실행을 성공적으로 완료할 것이라는 확신을 제공합니다. Trainium의 상대적 새로움은 기업이 중요한 학습 작업에서 피하고 싶어할 수 있는 위험을 도입합니다.

더 넓은 시사점

Amazon의 AI 실리콘 투자는 전략적 필수 요건을 반영합니다: 단일 공급업체에 대한 의존도를 줄이는 것. NVIDIA의 시장 지배력은 프리미엄 가격 책정을 가능하게 합니다. 그 프리미엄을 지불하는 모든 하이퍼스케일러는 NVIDIA의 R&D 예산에 자금을 지원하여 경쟁자를 강화합니다. 대안 실리콘을 개발하면 Trainium이 NVIDIA GPU를 완전히 대체하지 못하더라도 그 역학을 깨뜨립니다.

Google은 TPU로 같은 전략을 추구합니다. Microsoft는 AMD와 파트너십을 맺으면서 커스텀 액셀러레이터를 개발하고 있는 것으로 알려져 있습니다. 하이퍼스케일러들은 집단적으로 NVIDIA의 위치에 도전할 자원, 규모, 동기를 보유하고 있습니다. Trainium3는 그 장기 게임에서 Amazon의 최신 행보를 나타냅니다.

더 넓은 AI 생태계에서 경쟁은 모두에게 이익이 됩니다. NVIDIA는 가격 대비 성능을 개선해야 하는 압박에 직면합니다. 고객은 대안과 협상력을 얻습니다. 여러 자금력 있는 경쟁자들이 선두를 차지하기 위해 경쟁하면서 실리콘 혁신이 가속화됩니다. AI 칩 시장은 독점에서 건전한 경쟁으로 진화합니다.

Trainium3만으로는 NVIDIA를 왕좌에서 끌어내리지 못할 것입니다. 그러나 Google의 TPU, AMD의 MI 시리즈, Intel 및 스타트업의 신흥 대안과 결합하면 경쟁 압력이 강화됩니다. NVIDIA의 해자는 여전히 강력합니다. 도전자들은 그럼에도 불구하고 계속 파고듭니다.

핵심 시사점

인프라 아키텍트를 위해: - Trainium3는 칩당 144GB HBM3e와 함께 2.52 페타플롭스 FP8을 제공; 풀 UltraServer(144개 칩)는 362 페타플롭스 제공 - 성능: Trainium2 대비 4.4배 향상, 4배 더 나은 에너지 효율, 메가와트당 5배 더 많은 토큰 - 메모리 대역폭 4.9TB/s(이전의 거의 4배); Neuron Fabric을 통한 칩 간 통신 10마이크로초 미만

비용 최적화 팀을 위해: - AWS는 GPU 대안 대비 50% 낮은 학습 및 추론 비용 주장; Anthropic 프로덕션 워크로드로 검증됨 - 추론 워크로드는 Trainium에 유리: 예측 가능한 메모리 접근의 표준화된 모델; 규모에 따른 비용 절감 복리 효과 - 트레이드오프: Neuron SDK 채택 및 잠재적 코드 재작성 필요; 마이그레이션 노력이 절감을 정당화해야 함

조달 팀을 위해: - EC2 UltraClusters 3.0은 단일 논리적 클러스터에서 100만 개의 Trainium3 칩으로 확장; 프론티어 모델 학습 규모 달성 - 고객 검증: Anthropic, Decart(4배 더 빠른 추론), Karakuri, Metagenomi, NetoAI, Ricoh, Splash Music 모두 50% 비용 절감 보고 - 학습 복잡성은 위험 회피적 조직에게 NVIDIA가 유리; Trainium의 상대적 새로움은 실행 불확실성 도입

전략적 계획을 위해: - Trainium4 로드맵(2026년 말/2027년 초): FP4를 통한 6배 성능, 2배 메모리(~288GB), 4배 대역폭, NVLink Fusion 지원 - AWS는 실리콘에서 NVIDIA와 경쟁하면서 NVIDIA의 NVLink 인터커넥트 통합; 데탕트가 이기종 클러스터 가능하게 함 - 하이퍼스케일러 실리콘 전략: 단일 공급업체 의존도 감소; 지불된 모든 프리미엄이 경쟁자 강화하는 NVIDIA R&D에 자금 지원

더 넓은 생태계를 위해: - 경쟁은 모두에게 이익: NVIDIA는 가격 압박 직면, 고객은 대안과 레버리지 획득, 혁신 가속화 - Google TPU, AMD MI 시리즈, Intel, 스타트업의 결합된 압력 강화; NVIDIA의 해자는 강력하지만 침식 중 - AWS는 경쟁 실리콘을 개발하면서도 NVIDIA의 최대 클라우드 고객으로 유지; 협력적 경쟁이 시장을 정의

참고 문헌

Amazon. "Trainium3 UltraServers now available: Enabling customers to train and deploy AI models faster at lower cost." About Amazon, December 2, 2025. https://www.aboutamazon.com/news/aws/trainium-3-ultraserver-faster-ai-training-lower-cost
Amazon. "Trainium3 UltraServers now available."
Amazon. "Trainium3 UltraServers now available."
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks." December 3, 2025. https://www.nextplatform.com/2025/12/03/with-trainium4-aws-will-crank-up-everything-but-the-clocks/
Amazon. "Trainium3 UltraServers now available."
Amazon. "Trainium3 UltraServers now available."
Amazon. "Trainium3 UltraServers now available."
Amazon. "Trainium3 UltraServers now available."
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."

Alt 2: trainium3-vs-nvidia-gpu-enterprise-ai-costs

Amazon의 Trainium3, AI 칩 전쟁에 도전장을 내밀다

성능 측면의 경쟁력

고객 검증

Trainium4 로드맵이 시사하는 더 큰 야망

경쟁이 기업에 의미하는 것

더 넓은 시사점

핵심 시사점

참고 문헌

You Might Also Like

AI 워크로드 스케줄링: 시간대별 GPU 활용 최적화

추측적 디코딩: LLM 추론 속도 2-3배 향상 달성

데이터센터를 위한 광섬유: 2025년 최신 기술 동향

견적 요청_

요청이 접수되었습니다_