AI accelerators selain GPU: lanskap silikon alternatif
Diperbarui 11 Desember 2025
Pembaruan Desember 2025: AWS Trainium3 mulai dikirim dengan 2,52 PFLOPS FP8 per chip dan 144GB HBM3e. Google TPU v7 Ironwood menghadirkan 4.614 TFLOPS per chip—analis menyebutnya "setara dengan Blackwell." Intel mengkonfirmasi penghentian Gaudi ketika GPU generasi selanjutnya diluncurkan 2026-2027. Groq LPU mencapai 750 token/detik pada model kecil sementara Cerebras WSE-3 mencapai 125 PFLOPS puncak. Silikon alternatif mendapat traksi untuk beban kerja spesifik meskipun NVIDIA memiliki 80% dominasi pasar.
NVIDIA menguasai sekitar 80% pasar AI accelerator, namun permintaan yang terus meningkat untuk infrastruktur yang hemat biaya dan terintegrasi vertikal perlahan-lahan meningkatkan adopsi silikon alternatif.¹ Google merilis TPU generasi ketujuh Ironwood pada November 2025, yang oleh analis digambarkan sebagai "dapat dikatakan setara dengan NVIDIA Blackwell."² AWS menerapkan lebih dari 500.000 chip Trainium2 untuk pelatihan model Anthropic—kluster AI non-NVIDIA terbesar dalam produksi.³ Cerebras meluncurkan WSE-3 dengan 4 triliun transistor dan 125 petaflop performa puncak.⁴ Lanskap AI accelerator meluas jauh melampaui GPU, menawarkan arsitektur yang dioptimalkan untuk beban kerja spesifik yang semakin dievaluasi oleh perusahaan.
GPU tetap menjadi pilihan default untuk fleksibilitas dan kematangan ekosistem. Dominasi CUDA dan inovasi berkelanjutan NVIDIA membuat biaya perpindahan menjadi substansial. Namun hyperscaler yang merancang silikon mereka sendiri, startup yang menantang asumsi tentang arsitektur chip, dan harga agresif Intel semuanya menciptakan opsi yang tidak ada lima tahun lalu. Organisasi yang menjalankan AI dalam skala besar kini mengevaluasi pilihan akselerator sebagai keputusan infrastruktur strategis daripada pengadaan komoditas.
Google TPU: benchmark hyperscaler
Google mengumumkan Trillium (TPU v6) pada Mei 2024 dan membuatnya tersedia secara umum pada 2025.⁵ TPU generasi keenam mencapai 4,7 kali performa komputasi puncak per chip dibanding TPU v5e.⁶ Google memperluas ukuran matrix multiply unit dan meningkatkan kecepatan clock untuk mencapai sekitar 926 teraflops performa BF16.⁷
Kapasitas memori dan bandwidth berlipat ganda dari generasi sebelumnya.⁸ Trillium menyediakan 32 gigabyte kapasitas HBM per chip dengan bandwidth yang meningkat proporsional.⁹ Bandwidth interchip interconnect juga berlipat ganda, meningkatkan efisiensi penskalaan multi-chip.¹⁰
Efisiensi energi meningkat lebih dari 67% dibanding TPU v5e.¹¹ Analis industri memperkirakan TPU v6 beroperasi 60-65% lebih efisien dari GPU, dibanding keunggulan efisiensi 40-45% pada generasi sebelumnya.¹² Peningkatan efisiensi saling memperkuat pada skala data center di mana keterbatasan daya membatasi kepadatan deployment.
Trillium dapat diskalakan hingga 256 TPU dalam pod bandwidth tinggi dan latensi rendah tunggal.¹³ Melampaui skalabilitas tingkat pod, teknologi multislice dan Titanium Intelligence Processing Units memungkinkan penskalaan hingga ratusan pod, menghubungkan puluhan ribu chip dalam superkomputer skala bangunan.¹⁴ Kluster Trillium terbesar menghadirkan 91 exaflops—empat kali lebih besar dari kluster TPU v5p terbesar.¹⁵
Benchmark pelatihan mendemonstrasikan peningkatan performa. Trillium menghadirkan lebih dari empat kali peningkatan performa pelatihan untuk Gemma 2-27B, MaxText Default-32B, dan Llama2-70B dibanding TPU v5e.¹⁶ Throughput inferensi meningkat tiga kali untuk Stable Diffusion XL.¹⁷ Google menggunakan Trillium untuk melatih Gemini 2.0.¹⁸
Google meluncurkan TPU v7 (Ironwood) di Cloud Next April 2025.¹⁹ Ironwood menghadirkan 4.614 teraflops per chip dan akan dikirim dalam konfigurasi 256 chip dan 9.216 chip.²⁰ Tim SemiAnalysis memuji silikon tersebut, menyatakan supremasi Google di antara hyperscaler tidak tertandingi.²¹
Akses TPU memerlukan Google Cloud. Organisasi yang berkomitmen pada deployment multi-cloud atau on-premises tidak dapat langsung menggunakan infrastruktur TPU. Model cloud-only membatasi adopsi untuk organisasi dengan persyaratan residensi data atau kedaulatan yang tidak dipenuhi oleh region Google Cloud.
AWS Trainium: kemitraan Anthropic
AWS meluncurkan Trainium3 pada Desember 2025—chip AI 3nm pertama perusahaan.²² Setiap chip Trainium3 menyediakan 2,52 petaflops komputasi FP8 dengan 144 gigabyte memori HBM3e dan 4,9 terabyte per detik bandwidth memori.²³ Spesifikasi tersebut mewakili 1,5 kali lebih banyak kapasitas memori dan 1,7 kali lebih banyak bandwidth dari Trainium2.²⁴
Trn3 UltraServer dapat diskalakan hingga 144 chip Trainium3 menghadirkan 362 petaflops total performa FP8.²⁵ UltraServer yang dikonfigurasi penuh menyediakan 20,7 terabyte HBM3e dan 706 terabyte per detik bandwidth memori agregat.²⁶ AWS mengklaim 4,4 kali lebih banyak performa komputasi, 4 kali efisiensi energi lebih besar, dan hampir 4 kali lebih banyak bandwidth memori dari sistem berbasis Trainium2.²⁷
Fabrik NeuronSwitch-v1 menggandakan bandwidth interchip interconnect dari Trn2 UltraServer.²⁸ Arsitektur fabrik all-to-all memungkinkan pelatihan terdistribusi yang efisien di seluruh komplemen chip.
Project Rainier mewakili deployment infrastruktur AI terbesar AWS. AWS berkolaborasi dengan Anthropic untuk menghubungkan lebih dari 500.000 chip Trainium2 menjadi kluster komputasi AI terbesar di dunia—lima kali lebih besar dari infrastruktur yang digunakan untuk melatih generasi model Anthropic sebelumnya.²⁹ Kemitraan tersebut mendemonstrasikan viabilitas Trainium untuk pelatihan model frontier.
Instance EC2 Trn2 berbasis Trainium2 menawarkan 30-40% performa harga yang lebih baik dari instance EC2 P5e dan P5en berbasis GPU menurut AWS.³⁰ Keunggulan biaya penting untuk beban kerja pelatihan berkelanjutan di mana biaya komputasi mendominasi anggaran.
AWS menghentikan lini Inferentia karena beban kerja inferensi semakin menyerupai pelatihan dalam persyaratan komputasi mereka.³¹ Arsitektur Trainium kini menangani pelatihan dan inferensi, menyederhanakan portofolio chip.
Trainium4 sedang dalam pengembangan dengan pengiriman yang diharapkan pada akhir 2026 atau awal 2027.³² AWS mengumumkan setidaknya 6 kali throughput FP4, 3 kali performa FP8, dan 4 kali lebih banyak bandwidth memori dibanding Trainium3.³³ Trainium4 akan mendukung teknologi interkoneksi NVIDIA NVLink Fusion, memungkinkan integrasi dengan GPU NVIDIA dalam konfigurasi rack umum.³⁴
Intel Gaudi: pesaing harga
Intel meluncurkan Gaudi 3 pada 2024, memposisikannya sebagai alternatif hemat biaya untuk NVIDIA H100.³⁵ Gaudi 3 menggunakan dua chiplet dengan 64 tensor processor core, delapan matrix multiplication engine, dan 96 megabyte cache SRAM on-die dengan bandwidth 19,2 terabyte per detik.³⁶ Chip mengintegrasikan 128 gigabyte memori HBM2e dengan bandwidth 3,67 terabyte per detik.³⁷
Gaudi 3 menghadirkan 1.835 BF16/FP8 matrix teraflops pada sekitar 600 watt TDP.³⁸ Dibanding NVIDIA H100, Gaudi 3 menawarkan performa BF16 matrix lebih tinggi (1.835 versus 1.979 teraflops tanpa sparsity) dan lebih banyak kapasitas HBM (128 versus 80 gigabyte).³⁹ Bandwidth memori juga melebihi H100.⁴⁰
Intel mengklaim Gaudi 3 biasanya 40% lebih cepat dari NVIDIA H100 dan dapat melampaui H100 hingga 1,7 kali dalam melatih Llama2-13B pada presisi FP8.⁴¹ Klaim efisiensi daya lebih dramatis—hingga 220% dari nilai H100 pada benchmark Llama dan 230% pada Falcon.⁴²
Keunggulan harga substansial. Sistem delapan-akselerator Gaudi 3 berharga $157.613 dibanding $300.107 untuk sistem H100 setara.⁴³ Harga per-chip berjalan sekitar $15.625 untuk Gaudi 3 versus $30.678 untuk H100.⁴⁴ Perbedaan biaya memungkinkan organisasi untuk menerapkan sekitar dua kali kapasitas komputasi untuk anggaran setara.
Gaudi 3 menggunakan HBM2e bukan HBM3 atau HBM3e, berkontribusi pada biaya lebih rendah namun membatasi bandwidth memori dibanding alternatif generasi saat ini.⁴⁵ Organisasi yang menjalankan beban kerja terbatas bandwidth memori harus mengevaluasi trade-off ini dengan hati-hati.
Tantangan ekosistem membatasi adopsi Gaudi. CUDA NVIDIA mendominasi pengembangan AI, dan transisi ke tools Intel memerlukan investasi engineering.⁴⁶ Pangsa pasar Intel dalam AI accelerator tetap diabaikan meskipun hardware yang kompetitif.⁴⁷
Intel mengumumkan Gaudi akan dihentikan ketika AI GPU generasi berikutnya diluncurkan pada 2026-2027.⁴⁸ Pengumuman penghentian menciptakan risiko adopsi untuk organisasi yang mempertimbangkan deployment Gaudi multi-tahun. Partner mungkin ragu untuk berinvestasi dalam lini produk dengan end-of-life yang diumumkan.
Groq LPU: kepemimpinan kecepatan inferensi
Language Processing Unit (LPU) Groq mengambil pendekatan arsitektur yang fundamentally berbeda, mengoptimalkan khusus untuk inferensi daripada pelatihan.⁴⁹ Arsitektur Tensor Streaming Processor mencapai 750 TOPS pada INT8 dan 188 teraflops pada FP16 dengan bandwidth SRAM on-chip masif 80 terabyte per detik.⁵⁰
LPU generasi pertama menghadirkan lebih dari 1 teraop per detik per milimeter persegi pada chip 14nm yang beroperasi pada 900 MHz.⁵¹ LPU generasi kedua akan menggunakan proses 4nm Samsung.⁵²
Kecepatan inferensi mendefinisikan proposisi nilai Groq. LPU melayani Mixtral 8x7B pada 480 token per detik dan Llama 2 70B pada 300 token per detik.⁵³ Model kecil seperti Llama 2 7B mencapai 750 token per detik.⁵⁴ Groq adalah penyedia API pertama yang menembus 100 token per detik pada Llama2-70B.⁵⁵
LPU menghadirkan hingga 18 kali inferensi lebih cepat dari GPU tradisional untuk model bahasa dengan latensi deterministik sub-milidetik.⁵⁶ Efisiensi energi mencapai 1-3 joule per token.⁵⁷
Kartu LPU berharga sekitar $20.000—sebanding dengan GPU NVIDIA high-end—namun unggul khusus dalam kecepatan dan efisiensi inferensi.⁵⁸ Trade-off jelas: LPU menangani inferensi saja, bukan pelatihan.⁵⁹
Jejak deployment Groq berkembang signifikan pada 2025. Perusahaan mengoperasikan belasan data center di AS, Kanada, Timur Tengah, dan Eropa.⁶⁰ Pada September 2025, Groq mengumpulkan $750 juta pada valuasi $6,9 miliar.⁶¹
Kemitraan Arab Saudi yang diumumkan pada Februari 2025 berkomitmen $1,5 miliar untuk membangun apa yang Groq gambarkan sebagai data center inferensi AI terbesar di dunia di Dammam.⁶² Deployment awal menampilkan 19.000 LPU dengan ekspansi kapasitas direncanakan melebihi 100.000 LPU pada 2027.⁶³
Cerebras WSE-3: integrasi wafer-scale
Cerebras mengambil pendekatan arsitektur paling radikal, membangun chip pada skala wafer daripada memotong wafer menjadi prosesor individual.⁶⁴ WSE-3 berisi 4 triliun transistor di seluruh wafer—46.225 milimeter persegi silikon.⁶⁵
WSE-3 mengemas 900.000 AI-optimized compute core menghadirkan 125 petaflops performa AI puncak.⁶⁶ SRAM on-chip mencapai 44 gigabyte dengan bandwidth memori 21 petabyte per detik.⁶⁷ Bandwidth fabric mencapai 214 petabit per detik.⁶⁸ Chip difabrikasi pada proses 5nm TSMC.⁶⁹
Sistem CS-3 menggandakan performa CS-2 dalam envelope daya 15-kilowatt yang sama.⁷⁰ CS-3 tunggal muat dalam 15U ruang rack.⁷¹ Opsi memori eksternal memperluas kapasitas hingga 1,5 terabyte, 12 terabyte, atau 1,2 petabyte tergantung konfigurasi.⁷²
Kapasitas model skala dramatis. CS-3 dapat melatih model neural network hingga 24 triliun parameter.⁷³ Kluster skala hingga 2.048 sistem CS-3 menghadirkan hingga 256 exaflops komputasi FP16.⁷⁴
Cerebras mengklaim keunggulan kemudahan penggunaan signifikan. Platform memerlukan 97% lebih sedikit kode dari GPU untuk LLM dan melatih model dari 1 miliar hingga 24 triliun parameter dalam mode purely data parallel.⁷⁵ Konfigurasi empat-sistem kompak dapat fine-tune model 70B dalam sehari.⁷⁶ Pada skala penuh 2.048-sistem, Llama 70B dilatih dari nol dalam sehari.⁷⁷
Superkomputer Condor Galaxy 3 di Dallas akan menerapkan 64 sistem CS-3 untuk 8 exaflops komputasi FP16.⁷⁸ Majalah TIME mengakui WSE-3 sebagai Best Invention 2024.⁷⁹
SambaNova SN40L: dataflow yang dapat dikonfigurasi ulang
Arsitektur Reconfigurable Dataflow Unit (RDU) SambaNova berbeda dari GPU dan ASIC khusus.⁸⁰ SN40L menggabungkan fleksibilitas dataflow on-chip dengan sistem memori tiga-tier: SRAM on-chip, HBM on-package, dan DRAM off-package.⁸¹
SN40L menggunakan proses 5nm TSMC dalam paket dual-die CoWoS.⁸² Setiap socket berisi 102 miliar transistor menghadirkan 640 BF16 teraflops dan 520 megabyte SRAM on-chip.⁸³ Tier DDR mendukung hingga 1,5 terabyte kapasitas memori pada lebih dari