Akselerator AI di luar GPU: lanskap silikon alternatif
Diperbarui 11 Desember 2025
Pembaruan Desember 2025: AWS Trainium3 mulai dikirim dengan 2,52 PFLOPS FP8 per chip dan 144GB HBM3e. Google TPU v7 Ironwood menghasilkan 4.614 TFLOPS per chip—analis menyebutnya "setara dengan Blackwell." Intel mengonfirmasi penghentian Gaudi saat GPU generasi berikutnya diluncurkan 2026-2027. Groq LPU mencapai 750 token/detik pada model yang lebih kecil sementara Cerebras WSE-3 mencapai 125 PFLOPS puncak. Silikon alternatif mendapatkan daya tarik untuk beban kerja spesifik meskipun NVIDIA mendominasi 80% pasar.
NVIDIA menguasai sekitar 80% pasar akselerator AI, tetapi permintaan yang meningkat untuk infrastruktur yang hemat biaya dan terintegrasi secara vertikal perlahan meningkatkan adopsi silikon alternatif.¹ Google merilis TPU Ironwood generasi ketujuh pada November 2025, yang digambarkan analis sebagai "bisa dibilang setara dengan NVIDIA Blackwell."² AWS mengerahkan lebih dari 500.000 chip Trainium2 untuk pelatihan model Anthropic—kluster AI non-NVIDIA terbesar dalam produksi.³ Cerebras meluncurkan WSE-3 dengan 4 triliun transistor dan 125 petaflops kinerja puncak.⁴ Lanskap akselerator AI meluas jauh melampaui GPU, menawarkan arsitektur yang dioptimalkan untuk beban kerja spesifik yang semakin dievaluasi oleh perusahaan.
GPU tetap menjadi pilihan default untuk fleksibilitas dan kematangan ekosistem. Dominasi CUDA dan inovasi berkelanjutan NVIDIA membuat biaya peralihan menjadi substansial. Namun hyperscaler yang mendesain silikon mereka sendiri, startup yang menantang asumsi tentang arsitektur chip, dan penetapan harga agresif Intel semuanya menciptakan opsi yang tidak ada lima tahun lalu. Organisasi yang menjalankan AI dalam skala besar sekarang mengevaluasi pilihan akselerator sebagai keputusan infrastruktur strategis daripada pengadaan komoditas.
Google TPU: tolok ukur hyperscaler
Google mengumumkan Trillium (TPU v6) pada Mei 2024 dan membuatnya tersedia secara umum pada 2025.⁵ TPU generasi keenam mencapai 4,7 kali kinerja komputasi puncak per chip dibandingkan dengan TPU v5e.⁶ Google memperbesar ukuran unit matrix multiply dan meningkatkan kecepatan clock untuk mencapai sekitar 926 teraflops kinerja BF16.⁷
Kapasitas memori dan bandwidth berlipat ganda dari generasi sebelumnya.⁸ Trillium menyediakan 32 gigabyte kapasitas HBM per chip dengan bandwidth yang meningkat secara proporsional.⁹ Bandwidth interkoneksi antar-chip juga berlipat ganda, meningkatkan efisiensi penskalaan multi-chip.¹⁰
Efisiensi energi meningkat lebih dari 67% dibandingkan TPU v5e.¹¹ Analis industri memperkirakan TPU v6 beroperasi 60-65% lebih efisien daripada GPU, dibandingkan dengan keunggulan efisiensi 40-45% pada generasi sebelumnya.¹² Keuntungan efisiensi bertambah pada skala pusat data di mana kendala daya membatasi kepadatan deployment.
Trillium dapat diskalakan hingga 256 TPU dalam satu pod dengan bandwidth tinggi dan latensi rendah.¹³ Di luar skalabilitas tingkat pod, teknologi multislice dan Titanium Intelligence Processing Units memungkinkan penskalaan ke ratusan pod, menghubungkan puluhan ribu chip dalam superkomputer skala gedung.¹⁴ Kluster Trillium terbesar menghasilkan 91 exaflops—empat kali lebih besar dari kluster TPU v5p terbesar.¹⁵
Benchmark pelatihan menunjukkan peningkatan kinerja. Trillium memberikan peningkatan kinerja pelatihan lebih dari empat kali untuk Gemma 2-27B, MaxText Default-32B, dan Llama2-70B dibandingkan TPU v5e.¹⁶ Throughput inferensi meningkat tiga kali untuk Stable Diffusion XL.¹⁷ Google menggunakan Trillium untuk melatih Gemini 2.0.¹⁸
Google meluncurkan TPU v7 (Ironwood) di Cloud Next pada April 2025.¹⁹ Ironwood menghasilkan 4.614 teraflops per chip dan akan dikirim dalam konfigurasi 256 chip dan 9.216 chip.²⁰ Tim SemiAnalysis memuji silikonnya, menyatakan supremasi Google di antara hyperscaler tidak tertandingi.²¹
Akses TPU memerlukan Google Cloud. Organisasi yang berkomitmen pada deployment multi-cloud atau on-premises tidak dapat langsung menggunakan infrastruktur TPU. Model cloud-only membatasi adopsi untuk organisasi dengan persyaratan residensi data atau kedaulatan yang tidak dapat dipenuhi oleh region Google Cloud.
AWS Trainium: kemitraan Anthropic
AWS meluncurkan Trainium3 pada Desember 2025—chip AI 3nm pertama perusahaan.²² Setiap chip Trainium3 menyediakan 2,52 petaflops komputasi FP8 dengan 144 gigabyte memori HBM3e dan 4,9 terabyte per detik bandwidth memori.²³ Spesifikasi tersebut mewakili 1,5 kali lebih banyak kapasitas memori dan 1,7 kali lebih banyak bandwidth daripada Trainium2.²⁴
Trn3 UltraServers dapat diskalakan hingga 144 chip Trainium3 yang menghasilkan total 362 petaflops kinerja FP8.²⁵ UltraServer yang dikonfigurasi penuh menyediakan 20,7 terabyte HBM3e dan 706 terabyte per detik bandwidth memori agregat.²⁶ AWS mengklaim 4,4 kali lebih banyak kinerja komputasi, 4 kali efisiensi energi yang lebih besar, dan hampir 4 kali lebih banyak bandwidth memori daripada sistem berbasis Trainium2.²⁷
Fabric NeuronSwitch-v1 menggandakan bandwidth interkoneksi antar-chip dibandingkan Trn2 UltraServer.²⁸ Arsitektur fabric all-to-all memungkinkan pelatihan terdistribusi yang efisien di seluruh komplemen chip.
Project Rainier mewakili deployment infrastruktur AI terbesar AWS. AWS berkolaborasi dengan Anthropic untuk menghubungkan lebih dari 500.000 chip Trainium2 ke dalam kluster komputasi AI terbesar di dunia—lima kali lebih besar dari infrastruktur yang digunakan untuk melatih model generasi sebelumnya dari Anthropic.²⁹ Kemitraan ini menunjukkan kelayakan Trainium untuk pelatihan model frontier.
Instance EC2 Trn2 berbasis Trainium2 menawarkan kinerja harga 30-40% lebih baik daripada instance EC2 P5e dan P5en berbasis GPU menurut AWS.³⁰ Keunggulan biaya penting untuk beban kerja pelatihan berkelanjutan di mana biaya komputasi mendominasi anggaran.
AWS menghentikan lini Inferentia karena beban kerja inferensi semakin menyerupai pelatihan dalam persyaratan komputasionalnya.³¹ Arsitektur Trainium sekarang menangani pelatihan dan inferensi, menyederhanakan portofolio chip.
Trainium4 sedang dalam pengembangan dengan perkiraan pengiriman pada akhir 2026 atau awal 2027.³² AWS mengumumkan setidaknya 6 kali throughput FP4, 3 kali kinerja FP8, dan 4 kali lebih banyak bandwidth memori dibandingkan Trainium3.³³ Trainium4 akan mendukung teknologi interkoneksi NVIDIA NVLink Fusion, memungkinkan integrasi dengan GPU NVIDIA dalam konfigurasi rack umum.³⁴
Intel Gaudi: pesaing harga
Intel meluncurkan Gaudi 3 pada 2024, memposisikannya sebagai alternatif hemat biaya untuk NVIDIA H100.³⁵ Gaudi 3 menggunakan dua chiplet dengan 64 tensor processor core, delapan mesin matrix multiplication, dan 96 megabyte cache SRAM on-die dengan bandwidth 19,2 terabyte per detik.³⁶ Chip ini mengintegrasikan 128 gigabyte memori HBM2e dengan bandwidth 3,67 terabyte per detik.³⁷
Gaudi 3 menghasilkan 1.835 BF16/FP8 matrix teraflops pada sekitar 600 watt TDP.³⁸ Dibandingkan dengan NVIDIA H100, Gaudi 3 menawarkan kinerja matrix BF16 yang lebih tinggi (1.835 versus 1.979 teraflops tanpa sparsity) dan lebih banyak kapasitas HBM (128 versus 80 gigabyte).³⁹ Bandwidth memori juga melebihi H100.⁴⁰
Intel mengklaim Gaudi 3 biasanya 40% lebih cepat dari NVIDIA H100 dan bisa melampaui H100 hingga 1,7 kali dalam melatih Llama2-13B pada presisi FP8.⁴¹ Klaim efisiensi daya lebih dramatis—hingga 220% dari nilai H100 pada benchmark Llama dan 230% pada Falcon.⁴²
Keunggulan harga cukup substansial. Sistem Gaudi 3 delapan akselerator berharga $157.613 dibandingkan dengan $300.107 untuk sistem H100 yang setara.⁴³ Harga per chip sekitar $15.625 untuk Gaudi 3 versus $30.678 untuk H100.⁴⁴ Perbedaan biaya memungkinkan organisasi untuk mengerahkan sekitar dua kali kapasitas komputasi dengan anggaran yang setara.
Gaudi 3 menggunakan HBM2e daripada HBM3 atau HBM3e, berkontribusi pada biaya yang lebih rendah tetapi membatasi bandwidth memori dibandingkan alternatif generasi saat ini.⁴⁵ Organisasi yang menjalankan beban kerja yang dibatasi bandwidth memori harus mengevaluasi tradeoff ini dengan cermat.
Tantangan ekosistem membatasi adopsi Gaudi. CUDA NVIDIA mendominasi pengembangan AI, dan beralih ke alat Intel memerlukan investasi teknik.⁴⁶ Pangsa pasar Intel dalam akselerator AI tetap dapat diabaikan meskipun perangkat kerasnya kompetitif.⁴⁷
Intel mengumumkan Gaudi akan dihentikan saat GPU AI generasi berikutnya diluncurkan pada 2026-2027.⁴⁸ Pengumuman penghentian menciptakan risiko adopsi untuk organisasi yang mempertimbangkan deployment Gaudi multi-tahun. Mitra mungkin ragu untuk berinvestasi dalam lini produk dengan akhir masa pakai yang diumumkan.
Groq LPU: kepemimpinan kecepatan inferensi
Language Processing Unit (LPU) Groq mengambil pendekatan arsitektur yang fundamental berbeda, mengoptimalkan secara khusus untuk inferensi daripada pelatihan.⁴⁹ Arsitektur Tensor Streaming Processor mencapai 750 TOPS pada INT8 dan 188 teraflops pada FP16 dengan bandwidth SRAM on-chip yang masif sebesar 80 terabyte per detik.⁵⁰
LPU generasi pertama menghasilkan lebih dari 1 teraop per detik per milimeter persegi pada chip 14nm yang beroperasi pada 900 MHz.⁵¹ LPU generasi kedua akan menggunakan proses 4nm Samsung.⁵²
Kecepatan inferensi mendefinisikan proposisi nilai Groq. LPU melayani Mixtral 8x7B pada 480 token per detik dan Llama 2 70B pada 300 token per detik.⁵³ Model yang lebih kecil seperti Llama 2 7B mencapai 750 token per detik.⁵⁴ Groq adalah penyedia API pertama yang menembus 100 token per detik pada Llama2-70B.⁵⁵
LPU menghasilkan inferensi hingga 18 kali lebih cepat daripada GPU tradisional untuk model bahasa dengan latensi deterministik sub-milidetik.⁵⁶ Efisiensi energi mencapai 1-3 joule per token.⁵⁷
Kartu LPU berharga sekitar $20.000—sebanding dengan GPU NVIDIA kelas atas—tetapi unggul secara khusus dalam kecepatan dan efisiensi inferensi.⁵⁸ Tradeoffnya jelas: LPU hanya menangani inferensi, bukan pelatihan.⁵⁹
Jejak deployment Groq berkembang secara signifikan pada 2025. Perusahaan mengoperasikan selusin pusat data di seluruh AS, Kanada, Timur Tengah, dan Eropa.⁶⁰ Pada September 2025, Groq mengumpulkan $750 juta pada valuasi $6,9 miliar.⁶¹
Kemitraan Arab Saudi yang diumumkan pada Februari 2025 mengkomitmenkan $1,5 miliar untuk membangun apa yang digambarkan Groq sebagai pusat data inferensi AI terbesar di dunia di Dammam.⁶² Deployment awal menampilkan 19.000 LPU dengan ekspansi kapasitas yang direncanakan melebihi 100.000 LPU pada 2027.⁶³
Cerebras WSE-3: integrasi skala wafer
Cerebras mengambil pendekatan arsitektur paling radikal, membangun chip pada skala wafer daripada memotong wafer menjadi prosesor individual.⁶⁴ WSE-3 berisi 4 triliun transistor di seluruh wafer—46.225 milimeter persegi silikon.⁶⁵
WSE-3 mengemas 900.000 core komputasi yang dioptimalkan AI yang menghasilkan 125 petaflops kinerja AI puncak.⁶⁶ SRAM on-chip mencapai 44 gigabyte dengan bandwidth memori 21 petabyte per detik.⁶⁷ Bandwidth fabric mencapai 214 petabit per detik.⁶⁸ Chip ini difabrikasi pada proses 5nm TSMC.⁶⁹
Sistem CS-3 menggandakan kinerja CS-2 dalam amplop daya 15 kilowatt yang sama.⁷⁰ Satu CS-3 muat dalam 15U ruang rack.⁷¹ Opsi memori eksternal memperluas kapasitas hingga 1,5 terabyte, 12 terabyte, atau 1,2 petabyte tergantung pada konfigurasi.⁷²
Kapasitas model meningkat secara dramatis. CS-3 dapat melatih model jaringan saraf hingga 24 triliun parameter.⁷³ Kluster dapat diskalakan hingga 2.048 sistem CS-3 yang menghasilkan hingga 256 exaflops komputasi FP16.⁷⁴
Cerebras mengklaim keunggulan kemudahan penggunaan yang signifikan. Platform ini membutuhkan 97% lebih sedikit kode daripada GPU untuk LLM dan melatih model dari 1 miliar hingga 24 triliun parameter dalam mode data parallel murni.⁷⁵ Konfigurasi empat sistem yang ringkas dapat melakukan fine-tune model 70B dalam sehari.⁷⁶ Pada skala penuh 2.048 sistem, Llama 70B dilatih dari awal dalam satu hari.⁷⁷
Superkomputer Condor Galaxy 3 di Dallas akan mengerahkan 64 sistem CS-3 untuk 8 exaflops komputasi FP16.⁷⁸ TIME Magazine mengakui WSE-3 sebagai Penemuan Terbaik 2024.⁷⁹
SambaNova SN40L: dataflow yang dapat dikonfigurasi ulang
Arsitektur Reconfigurable Dataflow Unit (RDU) SambaNova berbeda dari GPU maupun ASIC khusus.⁸⁰ SN40L menggabungkan fleksibilitas dataflow on-chip dengan sistem memori tiga tingkat: SRAM on-chip, HBM on-package, dan DRAM off-package.⁸¹
SN40L menggunakan proses 5nm TSMC dalam paket CoWoS dual-die.⁸² Setiap soket berisi 102 miliar transistor yang menghasilkan 640 BF16 teraflops dan 520 megabyte SRAM on-chip.⁸³ Tingkat DDR mendukung hingga 1,5 terabyte kapasitas memori dengan lebih dari
[Konten dipotong untuk terjemahan]