ШІ-прискорювачі поза GPU: ландшафт альтернативного кремнію
Оновлено 11 грудня 2025 року
Оновлення грудня 2025: AWS Trainium3 поставляється з 2,52 PFLOPS FP8 на чип та 144 ГБ HBM3e. Google TPU v7 Ironwood забезпечує 4 614 TFLOPS на чип — аналітики називають його «на рівні з Blackwell». Intel підтверджує припинення випуску Gaudi з виходом GPU наступного покоління у 2026-2027 роках. Groq LPU досягає 750 токенів/сек на менших моделях, тоді як Cerebras WSE-3 показує 125 PFLOPS пікової продуктивності. Альтернативний кремній набирає популярності для специфічних робочих навантажень, незважаючи на 80% домінування NVIDIA на ринку.
NVIDIA утримує приблизно 80% ринку ШІ-прискорювачів, але зростаючий попит на економічно ефективну та вертикально інтегровану інфраструктуру поступово збільшує впровадження альтернативного кремнію.¹ У листопаді 2025 року Google випустила TPU сьомого покоління Ironwood, який аналітики описують як «ймовірно на рівні з NVIDIA Blackwell».² AWS розгорнула понад 500 000 чипів Trainium2 для навчання моделей Anthropic — найбільший не-NVIDIA кластер ШІ у виробництві.³ Cerebras випустила WSE-3 з 4 трильйонами транзисторів та 125 петафлопсами пікової продуктивності.⁴ Ландшафт ШІ-прискорювачів виходить далеко за межі GPU, пропонуючи архітектури, оптимізовані для специфічних робочих навантажень, які підприємства все частіше оцінюють.
GPU залишається вибором за замовчуванням завдяки гнучкості та зрілості екосистеми. Домінування CUDA та постійні інновації NVIDIA роблять витрати на перехід суттєвими. Проте гіперскейлери, що проектують власний кремній, стартапи, що кидають виклик припущенням про архітектуру чипів, та агресивне ціноутворення Intel створюють варіанти, яких не існувало п'ять років тому. Організації, що запускають ШІ у масштабі, тепер оцінюють вибір прискорювачів як стратегічні інфраструктурні рішення, а не як закупівлю товарів.
Google TPU: еталон гіперскейлерів
Google анонсувала Trillium (TPU v6) у травні 2024 року та зробила його загальнодоступним у 2025 році.⁵ TPU шостого покоління досягає 4,7-кратної пікової обчислювальної продуктивності на чип порівняно з TPU v5e.⁶ Google розширила розміри матричних множильних блоків та збільшила тактові частоти, щоб досягти приблизно 926 терафлопсів продуктивності BF16.⁷
Об'єм пам'яті та пропускна здатність подвоїлися порівняно з попереднім поколінням.⁸ Trillium забезпечує 32 гігабайти ємності HBM на чип з пропорційно збільшеною пропускною здатністю.⁹ Пропускна здатність міжчипового з'єднання також подвоїлася, покращивши ефективність масштабування на кількох чипах.¹⁰
Енергоефективність покращилася більш ніж на 67% порівняно з TPU v5e.¹¹ Галузеві аналітики оцінюють, що TPU v6 працює на 60-65% ефективніше за GPU, порівняно з 40-45% переваги ефективності в попередніх поколіннях.¹² Приріст ефективності накопичується в масштабах дата-центрів, де обмеження потужності лімітують щільність розгортання.
Trillium масштабується до 256 TPU в одному високопропускному поді з низькою затримкою.¹³ Окрім масштабованості на рівні поду, технологія multislice та блоки обробки інтелекту Titanium дозволяють масштабування до сотень подів, з'єднуючи десятки тисяч чипів у суперкомп'ютери масштабу будівлі.¹⁴ Найбільший кластер Trillium забезпечує 91 екзафлопс — у чотири рази більше, ніж найбільший кластер TPU v5p.¹⁵
Бенчмарки навчання демонструють покращення продуктивності. Trillium забезпечив більш ніж чотирикратне збільшення продуктивності навчання для Gemma 2-27B, MaxText Default-32B та Llama2-70B порівняно з TPU v5e.¹⁶ Пропускна здатність інференсу покращилася втричі для Stable Diffusion XL.¹⁷ Google використовувала Trillium для навчання Gemini 2.0.¹⁸
Google представила TPU v7 (Ironwood) на Cloud Next у квітні 2025 року.¹⁹ Ironwood забезпечує 4 614 терафлопсів на чип і буде поставлятися в конфігураціях по 256 та 9 216 чипів.²⁰ Команда SemiAnalysis високо оцінила кремній, заявивши, що перевага Google серед гіперскейлерів неперевершена.²¹
Доступ до TPU вимагає Google Cloud. Організації, що прихильні до мультихмарного або локального розгортання, не можуть безпосередньо використовувати інфраструктуру TPU. Модель «тільки хмара» обмежує впровадження для організацій з вимогами до резидентності або суверенітету даних, які регіони Google Cloud не задовольняють.
AWS Trainium: партнерство з Anthropic
AWS запустила Trainium3 у грудні 2025 року — перший 3-нанометровий ШІ-чип компанії.²² Кожен чип Trainium3 забезпечує 2,52 петафлопси обчислень FP8 з 144 гігабайтами пам'яті HBM3e та 4,9 терабайтами на секунду пропускної здатності пам'яті.²³ Специфікації представляють у 1,5 рази більше ємності пам'яті та у 1,7 рази більше пропускної здатності, ніж у Trainium2.²⁴
Trn3 UltraServers масштабуються до 144 чипів Trainium3, забезпечуючи загальну продуктивність FP8 у 362 петафлопси.²⁵ Повністю сконфігурований UltraServer надає 20,7 терабайтів HBM3e та 706 терабайтів на секунду сукупної пропускної здатності пам'яті.²⁶ AWS заявляє про 4,4-кратну обчислювальну продуктивність, 4-кратну енергоефективність та майже 4-кратну пропускну здатність пам'яті порівняно з системами на базі Trainium2.²⁷
Фабрика NeuronSwitch-v1 подвоює пропускну здатність міжчипового з'єднання порівняно з Trn2 UltraServer.²⁸ Архітектура фабрики «всі-до-всіх» забезпечує ефективне розподілене навчання на всьому комплекті чипів.
Проект Rainier представляє найбільше розгортання ШІ-інфраструктури AWS. AWS співпрацювала з Anthropic для з'єднання понад 500 000 чипів Trainium2 у найбільший у світі кластер обчислень ШІ — у п'ять разів більший за інфраструктуру, використану для навчання моделей попереднього покоління Anthropic.²⁹ Партнерство демонструє життєздатність Trainium для навчання передових моделей.
EC2 інстанси Trn2 на базі Trainium2 пропонують на 30-40% кращу цінову продуктивність, ніж EC2 інстанси P5e та P5en на базі GPU, за даними AWS.³⁰ Цінова перевага має значення для тривалих робочих навантажень навчання, де витрати на обчислення домінують у бюджетах.
AWS припинила лінійку Inferentia, оскільки робочі навантаження інференсу все більше нагадують навчання за своїми обчислювальними вимогами.³¹ Архітектура Trainium тепер обробляє як навчання, так і інференс, спрощуючи портфоліо чипів.
Trainium4 знаходиться в розробці з очікуваною поставкою наприкінці 2026 або на початку 2027 року.³² AWS анонсувала щонайменше 6-кратну пропускну здатність FP4, 3-кратну продуктивність FP8 та 4-кратну пропускну здатність пам'яті порівняно з Trainium3.³³ Trainium4 підтримуватиме технологію з'єднання NVIDIA NVLink Fusion, що дозволить інтеграцію з GPU NVIDIA у спільних стійкових конфігураціях.³⁴
Intel Gaudi: ціновий конкурент
Intel запустила Gaudi 3 у 2024 році, позиціонуючи його як економічно ефективну альтернативу NVIDIA H100.³⁵ Gaudi 3 використовує два чиплети з 64 тензорними процесорними ядрами, вісьмома механізмами матричного множення та 96 мегабайтами кешу SRAM на кристалі з пропускною здатністю 19,2 терабайти на секунду.³⁶ Чип інтегрує 128 гігабайтів пам'яті HBM2e з пропускною здатністю 3,67 терабайти на секунду.³⁷
Gaudi 3 забезпечує 1 835 BF16/FP8 матричних терафлопсів при приблизно 600 Вт TDP.³⁸ Порівняно з NVIDIA H100, Gaudi 3 пропонує вищу матричну продуктивність BF16 (1 835 проти 1 979 терафлопсів без розрідженості) та більшу ємність HBM (128 проти 80 гігабайтів).³⁹ Пропускна здатність пам'яті також перевищує H100.⁴⁰
Intel заявляє, що Gaudi 3 зазвичай на 40% швидший за NVIDIA H100 і може перевершити H100 до 1,7 рази при навчанні Llama2-13B з точністю FP8.⁴¹ Заяви щодо енергоефективності більш вражаючі — до 220% від значення H100 на бенчмарках Llama та 230% на Falcon.⁴²
Цінова перевага суттєва. Система з вісьмома прискорювачами Gaudi 3 коштує $157 613 порівняно з $300 107 за еквівалентну систему H100.⁴³ Ціна за чип становить приблизно $15 625 для Gaudi 3 проти $30 678 для H100.⁴⁴ Різниця у вартості дозволяє організаціям розгортати приблизно вдвічі більше обчислювальної потужності за еквівалентний бюджет.
Gaudi 3 використовує HBM2e, а не HBM3 або HBM3e, що сприяє нижчій вартості, але обмежує пропускну здатність пам'яті порівняно з альтернативами поточного покоління.⁴⁵ Організаціям, що запускають робочі навантаження, обмежені пропускною здатністю пам'яті, слід уважно оцінити цей компроміс.
Виклик екосистеми обмежує впровадження Gaudi. CUDA від NVIDIA домінує в розробці ШІ, і перехід на інструменти Intel вимагає інженерних інвестицій.⁴⁶ Частка ринку Intel у ШІ-прискорювачах залишається незначною, незважаючи на конкурентоспроможне обладнання.⁴⁷
Intel оголосила, що Gaudi буде припинено з виходом GPU ШІ наступного покоління у 2026-2027 роках.⁴⁸ Оголошення про припинення створює ризик впровадження для організацій, що розглядають багаторічні розгортання Gaudi. Партнери можуть вагатися інвестувати в лінійку продуктів з оголошеним закінченням терміну служби.
Groq LPU: лідерство у швидкості інференсу
Language Processing Unit (LPU) від Groq використовує принципово інший архітектурний підхід, оптимізуючи саме для інференсу, а не для навчання.⁴⁹ Архітектура Tensor Streaming Processor досягає 750 TOPS при INT8 та 188 терафлопсів при FP16 з масивною пропускною здатністю SRAM на кристалі 80 терабайтів на секунду.⁵⁰
LPU першого покоління забезпечує понад 1 тераоп на секунду на квадратний міліметр на 14-нанометровому чипі, що працює на 900 МГц.⁵¹ LPU другого покоління використовуватиме 4-нанометровий процес Samsung.⁵²
Швидкість інференсу визначає ціннісну пропозицію Groq. LPU обслуговує Mixtral 8x7B зі швидкістю 480 токенів на секунду та Llama 2 70B зі швидкістю 300 токенів на секунду.⁵³ Менші моделі, такі як Llama 2 7B, досягають 750 токенів на секунду.⁵⁴ Groq став першим постачальником API, який подолав позначку 100 токенів на секунду на Llama2-70B.⁵⁵
LPU забезпечує до 18-кратного прискорення інференсу порівняно з традиційними GPU для мовних моделей з детермінованою затримкою менше мілісекунди.⁵⁶ Енергоефективність досягає 1-3 джоулів на токен.⁵⁷
Карти LPU коштують приблизно $20 000 — порівнянно з топовими GPU NVIDIA — але відзначаються саме швидкістю та ефективністю інференсу.⁵⁸ Компроміс очевидний: LPU обробляють лише інференс, а не навчання.⁵⁹
У 2025 році значно розширилась географія розгортання Groq. Компанія керує дюжиною дата-центрів у США, Канаді, на Близькому Сході та в Європі.⁶⁰ У вересні 2025 року Groq залучила $750 мільйонів при оцінці в $6,9 мільярда.⁶¹
Партнерство з Саудівською Аравією, оголошене в лютому 2025 року, передбачає $1,5 мільярда на будівництво того, що Groq описує як найбільший у світі дата-центр ШІ-інференсу в Даммамі.⁶² Початкові розгортання включають 19 000 LPU з планами розширення потужності до понад 100 000 LPU до 2027 року.⁶³
Cerebras WSE-3: інтеграція на рівні пластини
Cerebras використовує найрадикальніший архітектурний підхід, створюючи чипи у масштабі пластини, а не нарізаючи пластини на окремі процесори.⁶⁴ WSE-3 містить 4 трильйони транзисторів на всій пластині — 46 225 квадратних міліметрів кремнію.⁶⁵
WSE-3 вміщує 900 000 оптимізованих для ШІ обчислювальних ядер, що забезпечують 125 петафлопсів пікової продуктивності ШІ.⁶⁶ SRAM на кристалі досягає 44 гігабайтів з пропускною здатністю пам'яті 21 петабайт на секунду.⁶⁷ Пропускна здатність фабрики сягає 214 петабітів на секунду.⁶⁸ Чип виготовлено на 5-нанометровому процесі TSMC.⁶⁹
Система CS-3 подвоює продуктивність CS-2 у тому самому енергоспоживанні 15 кіловат.⁷⁰ Один CS-3 вміщується в 15U стійкового простору.⁷¹ Опції зовнішньої пам'яті розширюють ємність до 1,5 терабайта, 12 терабайтів або 1,2 петабайта залежно від конфігурації.⁷²
Ємність моделей масштабується драматично. CS-3 може навчати моделі нейронних мереж до 24 трильйонів параметрів.⁷³ Кластери масштабуються до 2 048 систем CS-3, забезпечуючи до 256 екзафлопсів обчислень FP16.⁷⁴
Cerebras заявляє про значні переваги у простоті використання. Платформа вимагає на 97% менше коду, ніж GPU для LLM, і навчає моделі від 1 мільярда до 24 трильйонів параметрів у чисто паралельному режимі даних.⁷⁵ Компактні конфігурації з чотирьох систем можуть дотренувати 70B моделі за день.⁷⁶ При повному масштабі 2 048 систем Llama 70B навчається з нуля за один день.⁷⁷
Суперкомп'ютер Condor Galaxy 3 у Далласі розгорне 64 системи CS-3 для 8 екзафлопсів обчислень FP16.⁷⁸ Журнал TIME визнав WSE-3 одним з найкращих винаходів 2024 року.⁷⁹
SambaNova SN40L: реконфігурований потік даних
Архітектура Reconfigurable Dataflow Unit (RDU) від SambaNova відрізняється як від GPU, так і від спеціалізованих ASIC.⁸⁰ SN40L поєднує гнучкість потоку даних на кристалі з трирівневою системою пам'яті: SRAM на кристалі, HBM на упаковці та DRAM поза упаковкою.⁸¹
SN40L використовує 5-нанометровий процес TSMC в двочиповій упаковці CoWoS.⁸² Кожен сокет містить 102 мільярди транзисторів, що забезпечують 640 BF16 терафлопсів та 520 мегабайтів SRAM на кристалі.⁸³ Рівень DDR підтримує до 1,5 терабайта ємності пам'яті з пропускною здатністю понад
[Контент скорочено для перекладу]