Як DeepSeek і Qwen змінюють економіку інфраструктури штучного інтелекту
Оновлено 11 грудня 2025 року
Оновлення за грудень 2025 року: DeepSeek R1 навчали за $5,6 млн на 2 000 GPU NVIDIA H800 проти $80-100 млн на 16 000 H100 для порівнянних західних моделей. Частка китайських моделей з відкритим кодом зросла з 1,2% до майже 30% глобального використання у 2025 році. AWS, Azure та Google Cloud тепер пропонують розгортання DeepSeek. HSBC, Standard Chartered та Saudi Aramco тестують або впроваджують DeepSeek. Qwen 2.5-Max коштує $0,38/млн токенів проти значно вищих цін західних альтернатив.
DeepSeek стверджує, що навчила свою модель R1 лише за $5,6 мільйона, використовуючи 2 000 GPU NVIDIA H800.¹ Порівнянні західні моделі потребували від $80 до $100 мільйонів та 16 000 GPU H100.² Реліз у січні 2025 року, приурочений до дня перед оголошенням OpenAI про проєкт Stargate вартістю $500 мільярдів, спричинив безпрецедентну втрату ринкової капіталізації NVIDIA у розмірі $589 мільярдів за один день.³ Китайські моделі ШІ перетворилися з регіональної цікавинки на глобальний інфраструктурний виклик за один запуск продукту.
Заява про ефективність потребує ретельного аналізу. Частка китайських моделей з відкритим кодом зросла з 1,2% глобального використання наприкінці 2024 року до майже 30% у 2025 році.⁴ Alibaba повідомляє про понад 170 000 похідних моделей, побудованих на базі Qwen.⁵ HSBC, Standard Chartered та Saudi Aramco тепер тестують або впроваджують моделі DeepSeek.⁶ Amazon Web Services, Microsoft Azure та Google Cloud пропонують своїм клієнтам розгортання DeepSeek.⁷ Економіка інфраструктури, яка раніше сприяла масштабним капітальним витратам, може зміщуватися в бік підходів, орієнтованих на ефективність, що змінює підхід організацій до планування інвестицій у ШІ.
Прорив DeepSeek у ефективності
DeepSeek, компанія з Ханчжоу з менш ніж 200 співробітниками, яку підтримує кількісний фонд High-Flyer (активи під управлінням $8 мільярдів), переосмислила процес навчання моделей.⁸ Замість того, щоб покладатися на ресурсомістку інфраструктуру, її моделі використовують навчання з підкріпленням та архітектури Mixture-of-Experts для покращення продуктивності при зниженні обчислювальних вимог.⁹
Архітектура MoE є технічною основою підвищення ефективності. Замість активації всіх параметрів для кожного запиту на інференс, моделі MoE активують лише відповідні експертні мережі. Такий підхід знижує обчислювальні витрати до 30% порівняно з традиційними щільними моделями, зберігаючи або перевищуючи їхню продуктивність.¹⁰ DeepSeek продемонструвала, що ефективна спільна розробка програмного та апаратного забезпечення дозволяє економічно ефективно навчати великі моделі, вирівнюючи умови гри для менших команд.
Американські експортні обмеження спровокували сплеск інновацій у китайському секторі ШІ.¹¹ Позбавлені доступу до найсучасніших GPU NVIDIA, китайські дослідники розробили методи досягнення конкурентних результатів на доступному обладнанні. Обмеження стало каталізатором. DeepSeek вразила глобальних спостерігачів моделлю, яка конкурувала з можливостями GPT-4 за частку вартості та обчислювальних ресурсів.
Інфраструктурні наслідки виходять за межі витрат на навчання. Якщо витрати на інференс підуть за подібними кривими ефективності, хмарні провайдери можуть скоротити капітальні витрати з $80-100 мільярдів на рік до $65-85 мільярдів на кожного постачальника хмарних послуг.¹² Це скорочення вплине на всіх — від виробників чипів до операторів дата-центрів і постачальників електроенергії.
Qwen та екосистема китайських моделей
Моделі Qwen від Alibaba пропонують ефективність, яка безпосередньо впливає на економіку підприємств. Qwen 2.5-Max коштує приблизно $0,38 за мільйон токенів, що значно дешевше за конкуруючі західні моделі при порівнянній або кращій продуктивності за кількома показниками.¹³ Для підприємств, які обробляють мільярди токенів щомісяця, різниця у вартості визначає прибутковість.
Генеральний директор Airbnb Браян Ческі заявив, що компанія віддає перевагу Qwen від Alibaba, оскільки вона «швидка та дешева».¹⁴ Міністерство економіки Японії обрало Qwen замість американських альтернатив для певних застосувань.¹⁵ LVMH уклала партнерство з Alibaba для використання Qwen та Model Studio у цифрових роздрібних операціях у Китаї.¹⁶ Впровадження виходить за межі економних стартапів до великих підприємств зі значними бюджетами на ШІ.
Qwen 3 є однією з найповніших родин моделей з відкритим кодом, випущених у 2025 році. Лінійка охоплює від 0,5 до 110 мільярдів параметрів, включаючи як щільні, так і розріджені моделі.¹⁷ Двомодовий підхід через режими «Thinking» та «Non-Thinking» динамічно перемикається залежно від складності завдання, розподіляючи обчислювальні ресурси там, де це важливо, та економлячи їх в інших випадках.
Baichuan позиціонує себе як провідна китайська модель для доменно-специфічних застосувань. Створена з фокусом на право, фінанси, медицину та класичну китайську літературу, вона забезпечує високу продуктивність у лінгвістично та культурно нюансованих завданнях.¹⁸ Завдяки позиційному кодуванню ALiBi, Baichuan підтримує обробку довшого контексту з ефективним інференсом. Квантовані варіанти в int8 та int4 забезпечують розгортання на дешевших споживчих GPU.¹⁹
Вплив на західні інвестиції в інфраструктуру
Реакції Волл-стріт виявили справжню невизначеність. Jefferies попередив, що підхід DeepSeek «проколює частину ейфорії щодо капітальних витрат» після зобов'язань Meta та Microsoft витратити понад $60 мільярдів кожна.²⁰ Goldman Sachs припустив, що ця розробка може змінити конкуренцію, знизивши бар'єри для входу.²¹ Nasdaq composite впав на 3,1%, тоді як S&P 500 знизився на 1,5%.²²
Оптимістичний сценарій посилається на парадокс Джевонса: підвищення ефективності веде до дешевшого інференсу, стимулюючи ширше впровадження ШІ, що в кінцевому підсумку підвищує попит на інфраструктуру.²³ Нижчі витрати уможливлюють застосування, які раніше були нерентабельними. Більше застосувань означає більше інференсу. Більше інференсу врешті-решт означає більше обладнання, просто розгорнутого ефективніше.
Помірний сценарій передбачає, що витрати на навчання ШІ залишаться стабільними, тоді як витрати на інференс-інфраструктуру зменшаться на 30-50%.²⁴ Хмарні провайдери скоротять капітальні витрати, захоплюючи аналогічні або більші обсяги робочих навантажень ШІ. Приріст ефективності надійде користувачам у вигляді нижчих цін, а не постачальникам інфраструктури у вигляді маржі.
Уповільнення витрат на інфраструктуру ШІ може тимчасово вплинути на виробників чипів та постачальників обладнання.²⁵ Однак підвищення ефективності завдяки оптимізації моделей та зниженню витрат може призвести до ще більшого впровадження ШІ в довгостроковій перспективі, що врешті-решт підвищить попит на обладнання для ШІ. Час має значення: короткостроковий біль може передувати довгостроковим вигодам.
Стратегічні наслідки для планування інфраструктури
Схоже, що галузь відходить від навчання масивних великих мовних моделей для універсальних випадків використання.²⁶ Менші моделі, тонко налаштовані та кастомізовані для конкретних завдань, все частіше замінюють моделі загального призначення передового рівня для багатьох застосувань. Цей зсув сприяє ефективному інференсу в масштабі, а не масивним тренувальним прогонам.
Поява DeepSeek підкреслює зростаючий галузевий зсув від грубого масштабування до інтелектуальної оптимізації.²⁷ Усталені гравці, включаючи OpenAI та Google, відчувають тиск досліджувати покращення ефективності в міру глобального масштабування впровадження ШІ. Конкурентний тиск приносить користь користувачам, потенційно знижуючи маржу постачальників інфраструктури.
Організаціям, які планують інфраструктуру ШІ, слід враховувати тренди ефективності. Моделі, які демонструють порівнянну продуктивність при нижчих обчислювальних витратах, ставлять під сумнів припущення про вимоги до потужності. Відмінність між інфраструктурою для навчання (все ще ресурсомісткою) та інфраструктурою для інференсу (дедалі ефективнішою) може збільшитися. Надмірне нарощування потужностей для інференсу на основі поточних патернів використання може залишити організації з надлишковими потужностями в міру підвищення ефективності.
Китайські моделі також створюють дилеми щодо розгортання. Багато підприємств тепер можуть отримати доступ до китайських можливостей ШІ через західних хмарних провайдерів, поєднуючи знайому інфраструктуру з ефективними моделями. Питання суверенітету, регуляторні вимоги та конкурентні міркування — все це враховується при вирішенні, чи впроваджувати китайські моделі, незважаючи на їхні переваги в ефективності.
Економіка інфраструктури ШІ, яка здавалася усталеною у 2024 році — де масштаб обчислень визначав можливості — тепер стикається з фундаментальними питаннями. DeepSeek довела, що розумна інженерія може замінити сирі обчислювальні потужності. Qwen продемонструвала, що ефективність відкритого коду може конкурувати з пропрієтарним масштабом. Організації, які будували стратегію ШІ навколо необмежених обчислювальних потужностей, тепер повинні враховувати альтернативи, орієнтовані на ефективність, які ставлять під сумнів їхні припущення про те, що потрібно для інфраструктури ШІ.
Ключові висновки
Для стратегів з інфраструктури: - DeepSeek навчила R1 за $5,6 млн на 2 000 GPU H800 проти $80-100 млн та 16 000 H100 для порівнянних західних моделей - Архітектура MoE знижує обчислювальні витрати на 30% порівняно з щільними моделями; приріст ефективності досягається завдяки спільній розробці ПЗ та обладнання - Частка китайських моделей з відкритим кодом зросла з 1,2% до 30% глобального використання у 2025 році; Alibaba повідомляє про 170 000+ похідних моделей Qwen
Для корпоративних команд ШІ: - Qwen 2.5-Max коштує ~$0,38/млн токенів — значно дешевше за західні альтернативи при порівнянній продуктивності - Генеральний директор Airbnb вказує на перевагу Qwen від Alibaba, оскільки вона «швидка та дешева»; Міністерство економіки Японії обрало Qwen замість американських альтернатив - AWS, Azure та GCP тепер пропонують розгортання DeepSeek; корпоративне впровадження охоплює HSBC, Standard Chartered, Saudi Aramco
Для фінансового планування: - Якщо ефективність інференсу піде за патернами навчання, хмарні провайдери можуть скоротити CapEx з $80-100 млрд до $65-85 млрд на рік - NVIDIA втратила $589 млрд ринкової капіталізації за один день після оголошення DeepSeek; Nasdaq впав на 3,1%, S&P 500 — на 1,5% - Jefferies: DeepSeek «проколює ейфорію капітальних витрат» після зобов'язань Meta та Microsoft витратити понад $60 млрд кожна
Для планувальників потужностей: - Галузь переходить від масивних універсальних LLM до менших моделей, тонко налаштованих для конкретних завдань - Інфраструктура для навчання залишається ресурсомісткою; інфраструктура для інференсу стає дедалі ефективнішою — плануйте по-різному - Надмірне нарощування потужностей для інференсу на основі поточних патернів ризикує створити «замороженими» активи в міру підвищення ефективності
Для стратегічного планування: - Експортні обмеження спровокували імпровізацію; обмеження стало каталізатором інновацій у ефективності - Сценарій парадоксу Джевонса: ефективність уможливлює більше застосувань, що врешті-решт підвищує попит на обладнання - Організації повинні враховувати альтернативи, орієнтовані на ефективність, при плануванні вимог до інфраструктури
Посилання
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?" 2025. https://www.bain.com/insights/deepseek-a-game-changer-in-ai-efficiency/
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"
-
TechCrunch. "DeepSeek 'punctures' AI leaders' spending plans, and what analysts are saying." January 27, 2025. https://techcrunch.com/2025/01/27/deepseek-punctures-tech-spending-plans-and-what-analysts-are-saying/
-
Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models." December 9, 2025. https://www.gizmochina.com/2025/12/09/why-u-s-startups-are-dumping-western-ai-for-chinas-open-source-models/
-
Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)." September 2025. https://intuitionlabs.ai/articles/chinese-open-source-llms-2025
-
iKangai. "The Enterprise AI Shift: How Chinese Models Are Challenging Silicon Valley's Dominance." 2025. https://www.ikangai.com/the-enterprise-ai-shift-how-chinese-models-are-challenging-silicon-valleys-dominance/
-
iKangai. "The Enterprise AI Shift."
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"
-
IDC Blog. "DeepSeek's AI Innovation: A Shift in AI Model Efficiency and Cost Structure." January 31, 2025. https://blogs.idc.com/2025/01/31/deepseeks-ai-innovation-a-shift-in-ai-model-efficiency-and-cost-structure/
-
Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models."
-
World Economic Forum. "Why China's AI breakthroughs should come as no surprise." June 2025. https://www.weforum.org/stories/2025/06/china-ai-breakthroughs-no-surprise/
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"
-
Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models."
-
Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models."
-
Gizmochina. "Why U.S. Startups Are Dumping Western AI for China's Open-Source Models."
-
Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)."
-
Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)."
-
Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)."
-
Intuition Labs. "An Overview of Chinese Open-Source LLMs (Sept 2025)."
-
TechCrunch. "DeepSeek 'punctures' AI leaders' spending plans."
-
TechCrunch. "DeepSeek 'punctures' AI leaders' spending plans."
-
TechCrunch. "DeepSeek 'punctures' AI leaders' spending plans."
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"
-
Bain & Company. "DeepSeek: A Game Changer in AI Efficiency?"
-
IDC Blog. "DeepSeek's AI Innovation."
-
iKangai. "The Enterprise AI Shift."
-
IDC Blog. "DeepSeek's AI Innovation."