AI accelerators ที่นอกเหนือจาก GPUs: ภูมิทัศน์ของซิลิคอนทางเลือก
อัปเดตเมื่อวันที่ 11 ธันวาคม 2025
อัปเดตประจำเดือนธันวาคม 2025: AWS Trainium3 เริ่มจัดส่งแล้วพร้อม 2.52 PFLOPS FP8 ต่อชิปและ 144GB HBM3e Google TPU v7 Ironwood ส่งมอบประสิทธิภาพ 4,614 TFLOPS ต่อชิป—นักวิเคราะห์เรียกว่า "เทียบเท่ากับ Blackwell" Intel ยืนยันการยกเลิก Gaudi เมื่อ GPU รุ่นใหม่เปิดตัว 2026-2027 Groq LPU ประสบความสำเร็จ 750 tokens/sec ในโมเดลขนาดเล็กขณะที่ Cerebras WSE-3 แตะ 125 PFLOPS สูงสุด ซิลิคอนทางเลือกกำลังได้รับการยอมรับสำหรับ workloads เฉพาะแม้ว่า NVIDIA ยังคงครองตลาด 80%
NVIDIA ครองประมาณ 80% ของตลาด AI accelerator แต่ความต้องการที่เพิ่มขึ้นสำหรับโครงสร้างพื้นฐานที่มีต้นทุนประสิทธิภาพและการรวมตัวแนวตั้งกำลังเพิ่มการนำซิลิคอนทางเลือกมาใช้อย่างช้าๆ¹ Google เปิดตัว TPU รุ่นที่เจ็ด Ironwood ในเดือนพฤศจิกายน 2025 ซึ่งนักวิเคราะห์อธิบายว่า "เทียบเท่ากับ NVIDIA Blackwell"² AWS นำ Trainium2 chips กว่า 500,000 ตัวมาใช้สำหรับการฝึก model ของ Anthropic—เป็น AI cluster ที่ไม่ใช่ NVIDIA ที่ใหญ่ที่สุดในการใช้งานจริง³ Cerebras เปิดตัว WSE-3 พร้อม 4 ล้านล้าน transistors และประสิทธิภาพสูงสุด 125 petaflops⁴ ภูมิทัศน์ AI accelerator ขยายไปไกลเกินกว่า GPUs โดยเสนอสถาปัตยกรรมที่ปรับให้เหมาะสมสำหรับ workloads เฉพาะที่องค์กรประเมินมากขึ้น
GPU ยังคงเป็นตัวเลือกเริ่มต้นสำหรับความยืดหยุ่นและความสมบูรณ์ของระบบนิเวศ การครอบงำของ CUDA และนวัตกรรมอย่างต่อเนื่องของ NVIDIA ทำให้ต้นทุนการเปลี่ยนแปลงสูง อย่างไรก็ตาม hyperscalers ที่ออกแบบซิลิคอนของตนเอง startups ที่ท้าทายสมมติฐานเกี่ยวกับสถาปัตยกรรมชิป และราคาที่แข่งขันได้ของ Intel ล้วนสร้างตัวเลือกที่ไม่มีมาก่อนเมื่อห้าปีที่แล้ว องค์กรที่ใช้ AI ในระดับใหญ่ขณะนี้ประเมินทางเลือก accelerator เป็นการตัดสินใจโครงสร้างพื้นฐานเชิงกลยุทธ์มากกว่าการจัดซื้อสินค้าทั่วไป
Google TPU: มาตรฐานของ hyperscaler
Google ประกาศ Trillium (TPU v6) ในเดือนพฤษภาคม 2024 และเปิดให้ใช้งานทั่วไปในปี 2025⁵ TPU รุ่นที่หกประสบความสำเร็จประสิทธิภาพการคำนวณสูงสุด 4.7 เท่าต่อชิปเมื่อเปรียบเทียบกับ TPU v5e⁶ Google ขยายขนาด matrix multiply units และเพิ่มความเร็วสัญญาณนาฬิกาเพื่อถึงประมาณ 926 teraflops ของประสิทธิภาพ BF16⁷
ความจุหน่วยความจำและแบนด์วิธเพิ่มขึ้นเป็นสองเท่าจากรุ่นก่อนหน้า⁸ Trillium ให้ความจุ HBM 32 gigabytes ต่อชิปพร้อมแบนด์วิธที่เพิ่มขึ้นตามสัดส่วน⁹ แบนด์วิธ interchip interconnect ก็เพิ่มขึ้นเป็นสองเท่า ปรับปรุงประสิทธิภาพการปรับขนาด multi-chip¹⁰
ประสิทธิภาพพลังงานดีขึ้นกว่า 67% เมื่อเปรียบเทียบกับ TPU v5e¹¹ นักวิเคราะห์อุตสาหกรรมประเมินว่า TPU v6 ทำงานได้อย่างมีประสิทธิภาพ 60-65% มากกว่า GPUs เมื่อเปรียบเทียบกับข้อได้เปรียบด้านประสิทธิภาพ 40-45% ในรุ่นก่อนหน้า¹² การเพิ่มประสิทธิภาพสะสมในระดับดาต้าเซ็นเตอร์ที่ข้อจำกัดด้านไฟฟ้าจำกัดความหนาแน่นการติดตั้ง
Trillium ปรับขนาดได้ถึง 256 TPUs ใน pod เดียวที่มีแบนด์วิธสูงและ latency ต่ำ¹³ นอกจากการปรับขนาดระดับ pod แล้ว เทคโนโลยี multislice และ Titanium Intelligence Processing Units ยังช่วยให้ปรับขนาดได้หลายร้อย pods เชื่อมต่อชิปหลายหมื่นตัวใน supercomputers ขนาดอาคาร¹⁴ Trillium cluster ที่ใหญ่ที่สุดส่งมอบ 91 exaflops—สี่เท่าจาก TPU v5p cluster ที่ใหญ่ที่สุด¹⁵
การทดสอบ benchmarks การฝึกแสดงให้เห็นการปรับปรุงประสิทธิภาพ Trillium ส่งมอบการเพิ่มประสิทธิภาพการฝึกมากกว่าสี่เท่าสำหรับ Gemma 2-27B, MaxText Default-32B และ Llama2-70B เมื่อเปรียบเทียบกับ TPU v5e¹⁶ ปริมาณงาน inference ดีขึ้นสามเท่าสำหรับ Stable Diffusion XL¹⁷ Google ใช้ Trillium ในการฝึก Gemini 2.0¹⁸
Google เปิดตัว TPU v7 (Ironwood) ที่งาน Cloud Next ในเดือนเมษายน 2025¹⁹ Ironwood ส่งมอบ 4,614 teraflops ต่อชิปและจะจัดส่งในการกำหนดค่า 256 ชิปและ 9,216 ชิป²⁰ ทีม SemiAnalysis ชมซิลิคอนโดยระบุว่าการเหนือกว่าของ Google ในหมู่ hyperscalers นั้นไม่มีใครเทียบได้²¹
การเข้าถึง TPU ต้องใช้ Google Cloud องค์กรที่มุ่งมั่นกับ multi-cloud หรือการติดตั้งภายในองค์กรไม่สามารถใช้โครงสร้างพื้นฐาน TPU โดยตรง โมเดลเฉพาะคลาวด์จำกัดการนำมาใช้สำหรับองค์กรที่มีข้อกำหนดเกี่ยวกับการเก็บข้อมูลหรืออธิปไตยที่ regions ของ Google Cloud ไม่สามารถตอบสนองได้
AWS Trainium: ความร่วมมือกับ Anthropic
AWS เปิดตัว Trainium3 ในเดือนธันวาคม 2025—ชิป AI 3nm ตัวแรกของบริษัท²² ชิป Trainium3 แต่ละตัวให้ 2.52 petaflops ของการคำนวณ FP8 พร้อมหน่วยความจำ HBM3e 144 gigabytes และแบนด์วิธหน่วยความจำ 4.9 terabytes ต่อวินาที²³ สเปคแสดงความจุหน่วยความจำมากกว่า 1.5 เท่าและแบนด์วิธมากกว่า 1.7 เท่าเมื่อเทียบกับ Trainium2²⁴
Trn3 UltraServers ปรับขนาดได้ถึง 144 ชิป Trainium3 ส่งมอบประสิทธิภาพ FP8 รวม 362 petaflops²⁵ UltraServer ที่กำหนดค่าเต็มรูปแบบให้ HBM3e 20.7 terabytes และแบนด์วิธหน่วยความจำรวม 706 terabytes ต่อวินาที²⁶ AWS อ้างว่ามีประสิทธิภาพการคำนวณมากกว่า 4.4 เท่า ประสิทธิภาพพลังงานมากกว่า 4 เท่า และแบนด์วิธหน่วยความจำเกือบ 4 เท่าเมื่อเทียบกับระบบที่ใช้ Trainium2²⁷
NeuronSwitch-v1 fabric เพิ่มแบนด์วิธ interchip interconnect เป็นสองเท่าจาก Trn2 UltraServer²⁸ สถาปัตยกรรม all-to-all fabric ช่วยให้เกิดการฝึก distributed ที่มีประสิทธิภาพทั่วทั้งชุดชิป
Project Rainier แทนการติดตั้งโครงสร้างพื้นฐาน AI ที่ใหญ่ที่สุดของ AWS AWS ร่วมมือกับ Anthropic เชื่อมต่อชิป Trainium2 มากกว่า 500,000 ตัวเข้าใน AI compute cluster ที่ใหญ่ที่สุดในโลก—ใหญ่กว่าโครงสร้างพื้นฐานที่ใช้ฝึก models รุ่นก่อนหน้าของ Anthropic ห้าเท่า²⁹ ความร่วมมือแสดงให้เห็นความเป็นไปได้ของ Trainium สำหรับการฝึก frontier model
Instances EC2 Trn2 ที่ใช้ Trainium2 เสนอประสิทธิภาพด้านราคาที่ดีกว่า 30-40% เมื่อเทียบกับ instances EC2 P5e และ P5en ที่ใช้ GPU ตาม AWS³⁰ ข้อได้เปรียบด้านต้นทุนมีความสำคัญสำหรับ workloads การฝึกแบบต่อเนื่องที่ต้นทุนการคำนวณครองงบประมาณ
AWS ยกเลิกสาย Inferentia เพราะ workloads การอนุมานมีความคล้ายคลึงกับการฝึกในข้อกำหนดการคำนวณมากขึ้น³¹ สถาปัตยกรรม Trainium ขณะนี้จัดการทั้งการฝึกและการอนุมาน ลดความซับซ้อนของชุดชิป
Trainium4 อยู่ระหว่างการพัฒนาและคาดว่าจะส่งมอบในปลายปี 2026 หรือต้นปี 2027³² AWS ประกาศปริมาณงาน FP4 อย่างน้อย 6 เท่า ประสิทธิภาพ FP8 3 เท่า และแบนด์วิธหน่วยความจำมากกว่า 4 เท่าเมื่อเทียบกับ Trainium3³³ Trainium4 จะรองรับเทคโนโลยี NVIDIA NVLink Fusion interconnect ช่วยให้สามารถรวมกับ NVIDIA GPUs ในการกำหนดค่า rack ทั่วไป³⁴
Intel Gaudi: คู่แข่งด้านราคา
Intel เปิดตัว Gaudi 3 ในปี 2024 โดยวางตำแหน่งเป็นทางเลือกที่คุ้มต้นทุนแทน NVIDIA H100³⁵ Gaudi 3 ใช้ chiplets สองตัวพร้อม tensor processor cores 64 ตัว matrix multiplication engines แปดตัว และ on-die SRAM cache 96 megabytes พร้อมแบนด์วิธ 19.2 terabytes ต่อวินาที³⁶ ชิปรวมหน่วยความจำ HBM2e 128 gigabytes พร้อมแบนด์วิธ 3.67 terabytes ต่อวินาที³⁷
Gaudi 3 ส่งมอบ 1,835 BF16/FP8 matrix teraflops ที่ประมาณ 600 watts TDP³⁸ เมื่อเปรียบเทียบกับ NVIDIA H100, Gaudi 3 เสนอประสิทธิภาพ BF16 matrix ที่สูงกว่า (1,835 เทียบกับ 1,979 teraflops โดยไม่มี sparsity) และความจุ HBM มากกว่า (128 เทียบกับ 80 gigabytes)³⁹ แบนด์วิธหน่วยความจำก็เกิน H100⁴⁰
Intel อ้างว่า Gaudi 3 โดยทั่วไปเร็วกว่า NVIDIA H100 40% และอาจเกิน H100 ได้ถึง 1.7 เท่าในการฝึก Llama2-13B ที่ความแม่นยำ FP8⁴¹ การอ้างประสิทธิภาพพลังงานมีความน่าสนใจมากกว่า—ถึง 220% ของค่า H100 ใน Llama benchmarks และ 230% ใน Falcon⁴²
ข้อได้เปรียบด้านราคาค่อนข้างมาก ระบบ Gaudi 3 แปด accelerator มีราคา $157,613 เมื่อเปรียบเทียบกับ $300,107 สำหรับระบบ H100 ที่เทียบเท่า⁴³ ราคาต่อชิปอยู่ที่ประมาณ $15,625 สำหรับ Gaudi 3 เทียบกับ $30,678 สำหรับ H100⁴⁴ ความแตกต่างด้านต้นทุนช่วยให้องค์กรสามารถติดตั้งความสามารถการคำนวณได้ประมาณสองเท่าสำหรับงบประมาณที่เท่ากัน
Gaudi 3 ใช้ HBM2e มากกว่า HBM3 หรือ HBM3e ช่วยลดต้นทุนแต่จำกัดแบนด์วิธหน่วยความจำเมื่อเทียบกับทางเลือกรุ่นปัจจุบัน⁴⁵ องค์กรที่ใช้ workloads ที่จำกัดด้วย memory-bandwidth ควรประเมิน tradeoff นี้อย่างระมัดระวัง
ความท้าทายของระบบนิเวศจำกัดการนำ Gaudi มาใช้ CUDA ของ NVIDIA ครอง AI development และการเปลี่ยนไปใช้เครื่องมือของ Intel ต้องการการลงทุนด้านวิศวกรรม⁴⁶ ส่วนแบ่งตลาดของ Intel ใน AI accelerators ยังคงเป็นศูนย์แม้จะมีฮาร์ดแวร์ที่แข่งขันได้⁴⁷
Intel ประกาศว่า Gaudi จะถูกยกเลิกเมื่อ AI GPUs รุ่นใหม่เปิดตัวใน 2026-2027⁴⁸ การประกาศยกเลิกสร้างความเสี่ยงในการนำมาใช้สำหรับองค์กรที่พิจารณาการติดตั้ง Gaudi หลายปี พันธมิตรอาจลังเลที่จะลงทุนในสายผลิตภัณฑ์ที่มีการประกาศสิ้นสุดอายุ
Groq LPU: ผู้นำด้านความเร็ว inference
Language Processing Unit (LPU) ของ Groq ใช้แนวทางสถาปัตยกรรมที่แตกต่างโดยพื้นฐาน โดยปรับให้เหมาะสมเฉพาะสำหรับ inference มากกว่าการฝึก⁴⁹ สถาปัตยกรรม Tensor Streaming Processor ประสบความสำเร็จ 750 TOPS ที่ INT8 และ 188 teraflops ที่ FP16 พร้อม on-chip SRAM bandwidth ขนาดใหญ่ 80 terabytes ต่อวินาที⁵⁰
LPU รุ่นแรกส่งมอบมากกว่า 1 teraop ต่อวินาทีต่อตารางมิลลิเมตรบนชิป 14nm ที่ทำงานที่ 900 MHz⁵¹ LPU รุ่นที่สองจะใช้กระบวนการ 4nm ของ Samsung⁵²
ความเร็ว inference กำหนดข้อเสนอคุณค่าของ Groq LPU ให้บริการ Mixtral 8x7B ที่ 480 tokens ต่อวินาทีและ Llama 2 70B ที่ 300 tokens ต่อวินาที⁵³ โมเดลขนาดเล็กอย่าง Llama 2 7B ประสบความสำเร็จ 750 tokens ต่อวินาที⁵⁴ Groq เป็น API provider แรกที่แตก 100 tokens ต่อวินาทีใน Llama2-70B⁵⁵
LPU ส่งมอบ inference ที่เร็วกว่า GPUs ดั้งเดิมถึง 18 เท่าสำหรับ language models พร้อม latency แบบ deterministic ต่ำกว่ามิลลิวินาที⁵⁶ ประสิทธิภาพพลังงานถึง 1-3 joules ต่อ token⁵⁷
LPU cards มีราคาประมาณ $20,000—เทียบเท่ากับ NVIDIA GPUs ระดับไฮเอนด์—แต่เป็นเลิศเฉพาะในความเร็วและประสิทธิภาพ inference⁵⁸ Tradeoff ชัดเจน: LPUs จัดการเฉพาะ inference ไม่ใช่การฝึก⁵⁹
การติดตั้งของ Groq ขยายตัวอย่างมากในปี 2025 บริษัทดำเนินการดาต้าเซ็นเตอร์หลายสิบแห่งทั่วสหรัฐอเมริกา แคนาดา ตะวันออกกลาง และยุโรป⁶⁰ ในเดือนกันยายน 2025, Groq ระดมทุนได้ $750 ล้านที่มูลค่า $6.9 พันล้าน⁶¹
ความร่วมมือกับซาอุดิอาระเบียที่ประกาศในเดือนกุมภาพันธ์ 2025 มุ่งมั่น $1.5 พันล้านเพื่อสร้างสิ่งที่ Groq อธิบายว่าเป็นดาต้าเซ็นเตอร์ AI inferencing ที่ใหญ่ที่สุดในโลกในดัมมาม⁶² การติดตั้งเริ่มต้นมี LPUs 19,000 ตัวพร้อมแผนขยายความจุเกิน 100,000 LPUs ภายในปี 2027⁶³
Cerebras WSE-3: การรวม wafer-scale
Cerebras ใช้แนวทางสถาปัตยกรรมที่รุนแรงที่สุด โดยสร้างชิปในขนาด wafer แทนการตัด wafers เป็น processors แต่ละตัว⁶⁴ WSE-3 ประกอบด้วย transistors 4 ล้านล้านตัวทั่วทั้ง wafer—46,225 ตารางมิลลิเมตรของซิลิคอน⁶⁵
WSE-3 บรรจุ AI-optimized compute cores 900,000 ตัวส่งมอบประสิทธิภาพ AI สูงสุด 125 petaflops⁶⁶ On-chip SRAM ถึง 44 gigabytes พร้อมแบนด์วิธหน่วยความจำ 21 petabytes ต่อวินาที⁶⁷ Fabric bandwidth แตะ 214 petabits ต่อวินาที⁶⁸ ชิปผลิตบนกระบวนการ 5nm ของ TSMC⁶⁹
ระบบ CS-3 เพิ่มประสิทธิภาพเป็นสองเท่าของ CS-2 ในกรอบพลังงาน 15-kilowatt เดียวกัน⁷⁰ CS-3 เดียวพอดีภายใน 15U ของพื้นที่ rack⁷¹ ตัวเลือกหน่วยความจำภายนอกขยายความจุได้ถึง 1.5 terabytes, 12 terabytes หรือ 1.2 petabytes ขึ้นอยู่กับการกำหนดค่า⁷²
ความจุ model ปรับขนาดอย่างมาก CS-3 สามารถฝึก neural network models ได้ถึง 24 ล้านล้าน parameters⁷³ Clusters ปรับขนาดได้ถึง 2,048 ระบบ CS-3 ส่งมอบได้ถึง 256 exaflops ของการคำนวณ FP16⁷⁴
Cerebras อ้างข้อได้เปรียบด้านความง่ายในการใช้งานอย่างมาก แพลตฟอร์มต้องการโค้ดน้อยกว่า 97% เมื่อเทียบกับ GPUs สำหรับ LLMs และฝึก models จาก 1 พันล้านถึง 24 ล้านล้าน parameters ในโหมด purely data parallel⁷⁵ การกำหนดค่าสี่ระบบขนาดกะทัดรัดสามารถปรับแต่ง 70B models ในหนึ่งวัน⁷⁶ ที่ขนาด 2,048 ระบบเต็ม Llama 70B ฝึกตั้งแต่เริ่มต้นในหนึ่งวัน⁷⁷
Condor Galaxy 3 supercomputer ในดัลลาสจะติดตั้งระบบ CS-3 64 ระบบสำหรับ 8 exaflops ของการคำนวณ FP16⁷⁸ นิตยสาร TIME ยอมรับ WSE-3 เป็นสิ่งประดิษฐ์ที่ดีที่สุดของปี 2024⁷⁹
SambaNova SN40L: reconfigurable dataflow
สถาปัตยกรรม Reconfigurable Dataflow Unit (RDU) ของ SambaNova แตกต่างจากทั้ง GPUs และ custom ASICs⁸⁰ SN40L รวมความยืดหยุ่น on-chip dataflow กับระบบหน่วยความจำสามชั้น: on-chip SRAM, on-package HBM และ off-package DRAM⁸¹
SN40L ใช้กระบวนการ 5nm ของ TSMC ใน dual-die CoWoS package⁸² แต่ละ socket ประกอบด้วย transistors 102 พันล้านตัวส่งมอบ 640 BF16 teraflops และ on-chip SRAM 520 megabytes⁸³ DDR tier รองรับความจุหน่วยความจำได้ถึง 1.5 terabytes ที่มากกว่า