Короткий виклад
Модель DeepSeek V4 запускається в середині лютого 2026 року з 1 трильйоном загальних параметрів, контекстними вікнами на 1 мільйон токенів та трьома архітектурними інноваціями — Manifold-Constrained Hyper-Connections (mHC), пам'яттю Engram conditional та розрідженою увагою — які можуть переосмислити економіку ІІ. Внутрішні бенчмарки заявляють про 80%+ продуктивність SWE-bench при 10-40-разово нижчих витратах на висновки порівняно із західними конкурентами. Модель працює на подвійних RTX 4090, відкриває вихідний код під ліцензією Apache 2.0 та представляє найбільш достовірний виклик Китаю західному домінуванню в ІІ з часу оригінального шоку DeepSeek.
$5.6 мільйонів доларів.
Саме стільки DeepSeek нібито витратили на тренування V3 — моделі, що відповідає GPT-4o та Claude 3.5 Sonnet за більшістю бенчмарків. OpenAI нібито витратили понад $100 мільйонів на тренування GPT-4. Цей розрив розкриває фундаментальне питання, що перевизначає економіку ІІ: чи потребує передова продуктивність мільярдів на обчислення, чи архітектурна інновація пропонує дешевший шлях?
Відповідь DeepSeek приходить в середині лютого з V4, моделлю з 1 трильйоном параметрів, що включає три архітектурні інновації, які можуть забезпечити те, що аналітики називають «вражаючим проривом» в ефективності тренування. Модель орієнтована на автономне кодування — не просте генерування фрагментів, а управління цілими репозиторіями програмного забезпечення з людським рівнем міркування в контекстних вікнах на мільйон токенів.
Для операторів дата-центрів, що розгортають GPU-інфраструктуру, наслідки поширюються за межі балів бенчмарків. Якщо підхід DeepSeek «спочатку ефективність» успішно масштабується, економіка розгортання ІІ — та апаратне забезпечення, необхідне для його підтримки — стикається з значними порушеннями.
Три архітектурні інновації
DeepSeek V4 поєднує три проривні технології, опубліковані в дослідницьких роботах кінця 2025 та початку 2026 років: Manifold-Constrained Hyper-Connections, пам'ять Engram conditional та DeepSeek Sparse Attention.
Manifold-Constrained Hyper-Connections (mHC)
Стаття DeepSeek від 31 грудня 2025 року представила mHC, фреймворк, що вирішує фундаментальні проблеми масштабування великих мовних моделей. Традиційні гіпер-з'єднання можуть розширювати ширину залишкового потоку та покращувати схеми зв'язності, але одночасно підривають принцип тотожного відображення, що робить залишкові мережі тренованими — призводячи до числової нестабільності, що руйнує великомасштабні тренувальні прогони.
Рішення mHC проектує матриці з'єднань на математичний многовид, використовуючи алгоритм Сінкхорна-Кноппа, контролюючи підсилення сигналу до 1.6x порівняно з 3000x з необмеженими методами.
| Бенчмарк | Базова лінія | HC (Необмежений) | mHC | Покращення |
|---|---|---|---|---|
| BBH | 43.8 | 48.9 | 51.0 | +7.2 балів |
| DROP | 62.1 | 65.4 | 67.8 | +5.7 балів |
| GSM8K | 71.2 | 74.8 | 77.3 | +6.1 балів |
| MMLU | 68.4 | 71.2 | 73.6 | +5.2 балів |
Практичний результат: 4× ширший залишковий потік додає лише 6.7% накладних витрат часу тренування. Співавторський засновник Лян Венфен, mHC дозволяє «агресивне розширення параметрів», обходячи обмеження пам'яті GPU — тренування більших моделей на апаратному забезпеченні, яке б інакше обмежувало ємність.
Головний науковий співробітник IBM Каутар Ель Маграуї підкреслила, що архітектура mHC DeepSeek могла б революціонізувати попереднє тренування моделей: «Це масштабування ІІ більш розумно, а не просто роблячи його більшим».
Пам'ять Engram Conditional
Опублікована 13 січня 2026 року, Engram представляє модуль умовної пам'яті, що досягає постійного часу пошуку знань, відокремлюючи статичне зберігання патернів від динамічного міркування. Технологія модернізує класичні N-грам вбудовування для виконання O(1) пошуків поряд із нейронним хребтом.
Engram вирішує те, що DeepSeek називає «тихими втратами LLM» — цикли GPU, втрачені на статичні пошуки, які не потребують активного міркування. Система використовує мульти-хедове хешування для відображення стиснутих контекстів на таблиці вбудовування через детерміністичні функції, уникаючи вибуху пам'яті щільних таблиць при зменшенні зіткнень.
Context-Aware Gating забезпечує «умовний» аспект. Отримані вбудовування не сліпо додаються до залишкового потоку — вони керуються поточним прихованим станом. Якщо отримана пам'ять конфліктує з глобальним контекстом, затвір пригнічує шум.
Ключова знахідка DeepSeek: оптимальний розподіл становить 75-80% для обчислень та 20-25% для пам'яті. Чистий MoE (100% обчислень) виявився субоптимальним.
| Метрика | Без Engram | З Engram | Зміна |
|---|---|---|---|
| Складне міркування | 70% | 74% | +4 бали |
| Пошук знань | 57% | 61% | +4 бали |
| Needle-in-Haystack | 84.2% | 97.0% | +12.8 балів |
| Вплив на час тренування | Базова лінія | +6.7% | Мінімальний |
Дослідники продемонстрували вивантаження таблиці вбудовування зі 100 мільярдами параметрів до системної DRAM з штрафами пропускної здатності нижче 3%. Для інфраструктури висновків це змінює апаратні розрахунки — високопропускна системна пам'ять стає настільки ж цінною, як сирі GPU FLOPS.
DeepSeek Sparse Attention (DSA)
Третя інновація, DeepSeek Sparse Attention, дозволяє контекстні вікна на мільйон токенів, зменшуючи обчислювальні накладні витрати на 50% порівняно зі стандартними Трансформерами.
Система використовує «блискавичний індексатор» для пріоритизації специфічних фрагментів з контекстного вікна, за яким слідує «система дрібнозернистого відбору токенів», що вибирає специфічні токени з цих фрагментів для завантаження в обмежене вікно уваги моделі. Це дозволяє роботу з довгими частинами контексту з порівняно малими навантаженнями на сервер.
Традиційна увага трансформера масштабується квадратично з довжиною послідовності — подвоєння довжини контексту учетверює обчислення. Розріджена увага DeepSeek зменшує це до приблизно лінійного масштабування, роблячи різницю між «теоретично можливим» та «економічно життєздатним» для контекстів на мільйон токенів.
Специфікації моделі V4
DeepSeek V4 представляє технічне диво розрідженої архітектури, використовуючи 1 трильйон загальних параметрів при активації приблизно 32 мільярдів для будь-якого даного токена.
| Специфікація | DeepSeek V4 | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|
| Загальні параметри | 1 трильйон | ~2 трильйони (оцінка) | Не розкрито |
| Активні параметри | 32B | Повна модель | Не розкрито |
| Контекстне вікно | 1M токенів | 256K токенів | 200K токенів |
| Архітектура | MoE + mHC + Engram | Dense Transformer | Dense Transformer |
| Вартість тренування | ~$10M (оцінка) | ~$500M (оцінка) | Не розкрито |
| Вартість API вводу | $0.27/1M токенів | $15/1M токенів | $15/1M токенів |
Ця стратегія MoE «Топ-16» дозволяє V4 підтримувати спеціалізовані знання системи титанового класу без калічних затримок або апаратних вимог, зазвичай пов'язаних із моделями з трильйоном параметрів. Практичний вплив: ефективний пошук із контекстів, що перевищують один мільйон токенів.
Для завдань кодування це означає, що V4 може прочитати цілу кодову базу середнього розміру, зрозуміти взаємозв'язки імпорт-експорт між десятками файлів та виконати автономний рефакторинг. Ранні тестувальники повідомляють про справжнє багатофайлове міркування, де модель розуміє взаємозв'язки між компонентами, відстежує залежності та підтримує послідовність у великомасштабних операціях рефакторингу.
SWE-Bench: Визначальний бенчмарк
SWE-bench Verified вимірює здатність моделі розв'язувати реальні проблеми GitHub — потребуючи розуміння коду, налагодження та реалізації в контекстах справжніх репозиторіїв. Claude Opus 4.5 наразі лідирує з 80.9%.
Внутрішнє тестування DeepSeek нібито показує, що V4 перевищує 80% на SWE-bench Verified, перевершуючи Claude 3.5 Sonnet та GPT-4o, особливо на надзвичайно довгих кодових запитах. Ці заяви залишаються неперевіреними незалежним тестуванням.
| Модель | SWE-bench Verified | Контекстне вікно | Вартість API (ввід) |
|---|---|---|---|
| Claude Opus 4.5 | 80.9% | 200K токенів | $15/1M токенів |
| GPT-5.2 | 78.2% | 256K токенів | $15/1M токенів |
| DeepSeek V4 (заявлено) | 80%+ | 1M токенів | $0.27/1M токенів |
| DeepSeek V3.2 | 72.4% | 256K токенів | $0.14/1M токенів |
Якщо V4 забезпечує заявлену продуктивність за заявленою вартістю, ціннісна пропозиція стає різкою: порівнянна здатність кодування при 10-40-разово нижчих витратах на висновки.
Розгортання на споживчому апаратному забезпеченні
У помітному відході від інфраструктурних трендів, DeepSeek V4 працює на споживчому апаратному забезпеченні:
- Споживчий рівень: Подвійні RTX 4090 або одна RTX 5090
- Професійний рівень: Один GPU робочої станції класу (RTX 6000 Ada)
- Корпоративний рівень: Стандартні конфігурації дата-центру
Стиснення MLA дозволяє висновки на одному RTX 4090 (24GB GDDR6X). Пакетуючи 4 запити зі спільними KV кешами, ефективний слід пам'яті падає нижче 5GB на запит, досягаючи приблизно 550 токенів/секунда пропускної здатності з розміром пакету 4.
| Конфігурація апаратного забезпечення | Ємність моделі | Токенів/секунду | Необхідна пам'ять |
|---|---|---|---|
| Один RTX 4090 (24GB) | V4 32B дистильована | 30-35 | 24GB VRAM + 64GB RAM |
| Подвійні RTX 4090 (48GB) | V4 70B дистильована | 25-30 | 48GB VRAM + 128GB RAM |
| RTX 5090 (32GB) | V4 70B квантована | 40-50 | 32GB VRAM + 64GB RAM |
| 4x RTX 4090 (96GB) | V4 повні ваги | 15-20 | 96GB VRAM + 256GB RAM |
Для порівняння, локальне запуск моделей класу GPT-4 зазвичай потребував спеціалізованої інфраструктури вартістю $50,000+. Інновації ефективності V4 потенційно демократизують доступ до можливостей трильйона параметрів.
Очікувана RTX 5090 з 32GB GDDR7 далі закриває розрив. Хоча все ще потребує вивантаження для повних моделей, швидша пропускна здатність пам'яті та архітектура Blackwell повинна дозволити майже реальний час висновків на одних споживчих картах.
Стратегія відкритого коду
DeepSeek відкрив вихідний код ваг V4 під ліцензією Apache 2.0, продовжуючи свою стратегію публічного випуску передових можливостей. Це різко контрастує із західними конкурентами — GPT-5, Claude Opus та Gemini залишаються закритими.
| Модель | Доступні ваги | Ліцензія | Самохостинг |
|---|---|---|---|
| DeepSeek V4 | Так | Apache 2.0 | Повна підтримка |
| GPT-5.2 | Ні | Пропрієтарна | Тільки API |
| Claude Opus 4.5 | Ні | Пропрієтарна | Тільки API |
| Gemini Ultra | Ні | Пропрієтарна | Тільки API |
| Llama 4 | Так | Користувацька ліцензія | Обмежений комерційний |
Відкриті ваги трансформують економіку розгортання:
- Розгортання на об'єктах: Середовища з повітряними зазорами, відповідність суверенітету даних
- Квантизація: Запуск версій зі зменшеною точністю на споживчому апаратному забезпеченні
- Тонке налаштування: Користувацькі моделі для конкретних корпоративних потреб
- Оптимізація витрат: Уникнення плати за токен для високооб'ємних застосувань
Організації з суворим управлінням даними можуть запускати V4 повністю в своїй інфраструктурі. Для галузей, таких як фінанси, охорона здоров'я та оборона, це усуває занепокоєння щодо надсилання пропрієтарного коду до зовнішніх API.
Порушення цін API
Ціноутворення DeepSeek уже значно недооцінює конкурентів. Поточні ціни V3: $0.27 за мільйон вхідних токенів проти приблизно $15/мільйон для GPT-4.5 та Claude Opus.
| Постачальник | Модель | Ввід (за 1M) | Вивід (за 1M) | Контекст |
|---|---|---|---|---|
| DeepSeek | V4 | $0.27 | $1.10 | 1M токенів |
| DeepSeek | V3.2 | $0.14 | $0.55 | 256K токенів |
| OpenAI | GPT-5.2 | $15.00 | $60.00 | 256K токенів |
| Anthropic | Opus 4.5 | $15.00 | $75.00 | 200K токенів |
| Gemini Pro | $3.50 | $10.50 | 128K токенів |
Практичний приклад: Контекст 100K токенів коштує $5.50 на GPT-4 проти $0.90 на DeepSeek V3.2-Exp. Контекст V4 на мільйон токенів за $0.27/мільйон вхідних токенів робить раніше неможливі випадки використання економічно життєздатними.
Один аналіз витрат показав гібридний підхід, використовуючи DeepSeek для екстракції плюс Claude для аудиту, зменшив витрати API на 72%, покращуючи фактичну точність на 12% порівняно з чистим GPT-5.
Перевірка реальності тренувальної інфраструктури
Незважаючи на заяви про ефективність, тренувальна інфраструктура DeepSeek залишається значною. Компанія нібито тренувала R1 на 50,000 GPU серії Hopper — 30,000 одиниць HGX H20, 10,000 H800 та 10,000 H100 — поставлених через інвестора High-Flyer Capital Management.
Китайські влади закликали DeepSeek використовувати апаратне забезпечення Huawei Ascend для тренування R2. Цей хід зіткнувся з нестабільною продуктивністю, повільнішим зв'язком чип-до-чип та обмеженнями інструментарію програмного забезпечення CANN Huawei. Незважаючи на розгортання інженерів Huawei на місці, DeepSeek не зміг завершити успішний тренувальний прогон.
Результат: DeepSeek повернулися до прискорювачів NVIDIA для тренування R2, зберігаючи апаратне забезпечення Huawei для висновків. Це розкриває як поточні межі китайських вітчизняних чипів, так і прагматичний підхід DeepSeek — вони використають будь-що, що працює, незалежно від політичного тиску.
Генеральний директор Huawei Жень Чжефей визнав, що «США перебільшили досягнення Huawei» і що їхні найкращі чипи залишаються на покоління позаду. Однак галузеві спостерігачі очікують, що деякі великі мовні моделі тренуватимуться на китайських чипах до кінця 2026 року, з трендом, що стає більш очевидним у 2027 році.
Геополітичні наслідки
Швидкий підйом DeepSeek сигналізує про значний зсув у глобальній конкуренції ІІ. Запуск R1 компанії спричинив $1 трільйонний розпродаж технологічних акцій 27 січня 2025 року — включаючи $600 мільярдів від NVIDIA самостійно.
Президент Трамп назвав це «дзвінком пробудження» для американських компаній. Хмарні провайдери, такі як Alphabet, Microsoft та Amazon — останні два сильно інвестували в OpenAI та Anthropic — тепер стикаються з кризою цін.
Регіональні схеми прийняття різко розійшлися:
| Регіон | Рівень прийняття | Основний драйвер |
|---|---|---|
| Китай | 89% ринкової частки | Вартість, продуктивність, локальна розробка |
| Глобальний південь | Високий/зростаючий | Відкритий код, низькі обчислювальні вимоги |
| Західний корпоративний | Низький/помірний | Економія витрат, розгортання на об'єктах |
| Західний урядовий | Заборонено | Занепокоєння безпекою, суверенітет даних |
З серпня 2025 року кумулятивні завантаження відкритого коду китайських моделей ІІ перевищили західних конкурентів — позначаючи значний зсув у глобальних схемах використання ІІ. У Китаї DeepSeek нібито командує майже 89% ринкової частки серед користувачів ІІ.
Західне урядове прийняття залишається мінімальним. Австралія та союзні нації заборонили DeepSeek з офіційних пристроїв, з до 70% австралійських підприємств, що активно блокують доступ через занепокоєння безпекою даних.
Конкурентна відповідь
Західні конкуренти скоригували ціни та продукти у відповідь на тиск DeepSeek:
- Google: Зменшував витрати Gemini API протягом 2024 та 2025 років
- OpenAI: Знизив тарифи та випустив o3-mini у січні 2026 року для конкуренції за ефективність
- Anthropic: Зберіг ціни, але підкреслив Verifiable Safety Stack для регульованих галузей
Є прихована розгляд витрат: накладні витрати верифікації. Використання дешевих моделей часто потребує витрат токенів на дорогі моделі для верифікації виходів. Аудити показують, що налаштування «Дешева модель + Високорівневий аудитор» може коштувати на 15% більше, ніж просто використання GPT-5 для середньо-складних завдань.
Для підприємств у регульованих галузях Verifiable Safety Stack Claude забезпечує аудиторські сліди, що виправдовують преміальне ціноутворення. Правозастосування Закону про ІІ ЄС зробило документацію відповідності настільки ж цінною, як сира продуктивність.
Наслідки для інфраструктури
Інновації ефективності DeepSeek не відміняють поточний попит на GPU. CapEx гіперскейлерів продовжує зростати, з прогнозованими $600+ мільярдами на 2026 рік. Але склад витрат — що будується і як використовується — може змістися.
Підхід Engram до обробки контексту підкреслює ієрархію пам'яті над сирими обчисленнями. Майбутня тренувальна інфраструктура може пріоритизувати високопропускну пам'ять та ефективне кешування над піковими FLOPS.
Для операторів дата-центрів виникають кілька трендів:
- Пропускна здатність пам'яті стає критичною: Техніка вивантаження DRAM Engram зміщує робочі навантаження з пам'яті GPU до системної RAM
- Інфраструктура висновків диверсифікується: Розгортання споживчого рівня дозволяє крайові та на об'єктах інсталяції
- Тренування залишається централізованим: Незважаючи на покращення ефективності, тренування передових моделей все ще потребує масивних кластерів GPU
- Гібридні архітектури набувають популярності: Екстракція DeepSeek + верифікація західної моделі зменшує витрати при збереженні відповідності
Ключові висновки
Для команд інфраструктури ІІ:
- Розгортання DeepSeek V4 на споживчому апаратному забезпеченні (подвійні RTX 4090) трансформує економіку ІІ на об'єктах
- Архітектура пам'яті Engram зміщує апаратні пріоритети до високопропускної DRAM
- Відкриті ваги дозволяють тонке налаштування та розгортання без залежностей API
Для корпоративних осіб, що приймають рішення:
- 10-40-разові зменшення витрат роблять раніше неекономічні застосування ІІ життєздатними
- Занепокоєння безпекою потребують чітких політик щодо використання китайських моделей
- Гібридне розгортання (екстракція DeepSeek + західна верифікація) пропонує баланс вартість-продуктивність
Для операторів дата-центрів:
- Контексти на мільйон токенів змінюють профілі робочих навантажень та вимоги до пам'яті
- Розгортання споживчих GPU створює попит на меншу, розподілену інфраструктуру висновків
- Покращення ефективності не усувають попит — вони розширюють те, що економічно можливо
Про Introl
Introl надає спеціалізоване розгортання GPU-інфраструктури для дата-центрів ІІ. З 550 польовими інженерами, спеціалізованими на HPC, у 257 глобальних локаціях, Introl розгорнув понад 100,000 GPU — підтримуючи все від гіперскейлових тренувальних кластерів до крайової інфраструктури висновків. Незалежно від того, чи розгортають організації DeepSeek, пропрієтарні моделі або гібридні архітектури, експертиза Introl забезпечує надійну, продуктивну інфраструктуру ІІ.