Моделі штучного інтелекту з відкритим кодом скорочують розрив: DeepSeek, Qwen3 та Llama 4 тепер не поступаються GPT-5

Розрив у продуктивності між відкритими та закритими моделями ШІ скоротився до 0,3%. Ось що це означає для корпоративної інфраструктури штучного інтелекту.

Моделі штучного інтелекту з відкритим кодом скорочують розрив: DeepSeek, Qwen3 та Llama 4 тепер не поступаються GPT-5

Моделі штучного інтелекту з відкритим кодом скорочують розрив: DeepSeek, Qwen3 та Llama 4 тепер не поступаються GPT-5

Коротко

Розрив у продуктивності між моделями ШІ з відкритим кодом та пропрієтарними моделями скоротився з 17,5 відсоткових пунктів до лише 0,3% на ключових бенчмарках у 2025 році. DeepSeek V3.2, Qwen3-235B та Llama 4 Scout тепер конкурують із GPT-5.2 та Claude Opus 4.5 за значно нижчою ціною — з можливістю повного самостійного хостингу. Для підприємств, які зважують залежність від API проти інвестицій в інфраструктуру, розрахунки докорінно змінилися.


Що сталося

Грудень 2025 року став переломним моментом у ландшафті моделей ШІ. Великі мовні моделі з відкритим кодом досягли майже паритету з найпотужнішими пропрієтарними системами, завершивши багаторічний період домінування закритих моделей.

Цифри говорять самі за себе. Аналіз 94 провідних LLM показує, що моделі з відкритим кодом тепер відстають від пропрієтарних систем лише на 0,3 відсоткових пункти за показником MMLU — порівняно з розривом у 17,5 пунктів лише рік тому. На Chatbot Arena, рейтингу людських уподобань на основі понад 5 мільйонів голосів користувачів, моделі з відкритими вагами скоротили розрив з 8% до 1,7% між січнем 2024 та лютим 2025 року. Відтоді цей розрив продовжує скорочуватися.

Три сімейства моделей очолюють рух відкритого коду:

DeepSeek V3.2 був запущений 1 грудня 2025 року, досягнувши паритету з GPT-5 за кількома бенчмарками міркування. Архітектура Mixture-of-Experts китайської лабораторії активує лише 37B з 671B параметрів на токен, забезпечуючи передову продуктивність за звичайними цінами.

Qwen3-235B-A22B від Alibaba відповідає або перевершує GPT-4o на більшості публічних бенчмарків, активуючи лише 22B з 235B параметрів. Його оновлення режиму міркування в липні 2025 року досягло найкращих результатів серед моделей міркування з відкритим кодом.

Llama 4 Scout від Meta пропонує контекстне вікно на 10 мільйонів токенів — достатньо для обробки 7500 сторінок за один сеанс — працюючи на одному GPU H100 з квантизацією INT4.

Моделі з відкритим кодом тепер становлять 62,8% ринку за кількістю моделей. Зміни відбулися швидко. Два роки тому домінували пропрієтарні моделі.


Чому це важливо

Для підприємств, що будують інфраструктуру ШІ, ця конвергенція змінює розрахунки «будувати чи купувати».

Цінова динаміка інвертувалася. DeepSeek V3.2 коштує $0,26 за мільйон вхідних токенів — приблизно в 10 разів дешевше, ніж GPT-5.2 Pro. Mistral Medium 3 забезпечує 90% продуктивності Claude Sonnet 3.7 за $0,40 за мільйон токенів, що в 8 разів дешевше за GPT-4. Організації повідомляють про на 25% вищий ROI при використанні підходів з відкритим кодом порівняно зі стратегіями, що базуються виключно на пропрієтарних рішеннях.

Контроль над даними стає можливим. Самостійний хостинг зберігає конфіденційну інформацію повністю в межах організаційної інфраструктури. Медичні компанії можуть обробляти запити щодо даних пацієнтів локально без ризиків порушення HIPAA від зовнішньої передачі. Фінансові установи зберігають повний контроль над торговими алгоритмами та даними клієнтів.

Гнучкість розгортання розширюється. Mistral Medium 3 працює на мінімум чотирьох GPU. Llama 4 Scout поміщається на одному H100. Ці моделі можна розгортати в гібридних середовищах, локальних дата-центрах або периферійних локаціях — що неможливо з пропрієтарними сервісами, доступними лише через API.

Залежність від постачальника зникає. Моделі з самостійним хостингом не застарівають, коли постачальники припиняють підтримку старих версій. Організації контролюють графіки оновлень, підтримують узгодженість моделей та уникають волатильності ціноутворення на основі використання, яка зробила ринки PPA все більш сприятливими для продавців.


Технічні деталі

Специфікації моделей

Модель Загальна к-сть параметрів Активні параметри Контекст Вартість вводу/М Вартість виводу/М
DeepSeek V3.2 671B 37B 128K $0,26 $0,39
Qwen3-235B 235B 22B 256K $0,20 $1,20
Llama 4 Scout 109B 17B 10M $0,08 $0,30
Mistral Medium 3 131K $0,40 $2,00
Mistral Large 3 675B 41B 256K

Результати бенчмарків

Програмування: DeepSeek V3.2 демонструє виняткову майстерність у нетипових агентних завданнях, інтегруючи міркування безпосередньо у використання інструментів. Qwen3-235B досягає 74,8 на LiveCodeBench v6. Llama 4 Scout отримав 38,1% на LiveCodeBench, перевершивши 32,3% GPT-4o.

Міркування: Qwen3-235B набирає 85,7 на AIME'24 та 81,5 на AIME'25. У режимі міркування він досягає 92,3 на AIME25. DeepSeek V3.2-Speciale досягає паритету з Gemini-3.0-Pro та результатів на рівні золотої медалі на IOI 2025, ICPC World Final 2025, IMO 2025 та CMO 2025.

Довгий контекст: Контекстне вікно Llama 4 Scout на 10 мільйонів токенів дозволяє обробляти цілі юридичні документи, колекції наукових статей або репозиторії програмного забезпечення за один сеанс.

Архітектурні інновації

DeepSeek V3.2 представляє DeepSeek Sparse Attention (DSA), досягаючи детальної розрідженої уваги для суттєвого покращення ефективності довгого контексту при збереженні якості виводу моделі.

Гібридний режим міркування DeepSeek V3.1 перемикається між ланцюговим міркуванням та прямими відповідями через зміни шаблону чату — одна модель охоплює як загальні, так і завдання, що вимагають інтенсивного міркування.

Лінійка Ministral від Mistral 3 пропонує дев'ять щільних моделей на 3B, 8B та 14B параметрів, кожна у варіантах Base, Instruct та Reasoning. Модель міркування на 14B досягає 85% на AIME 2025, працюючи на одному GPU.

Вимоги до самостійного хостингу

Модель Мінімальне обладнання Рекомендоване
DeepSeek V3.2 8x H100 80GB 16x H100
Qwen3-235B 8x H100 80GB 8x H200
Llama 4 Scout 1x H100 (INT4) 2x H100
Mistral Medium 3 4x GPU 8x A100/H100
Ministral 3 14B 1x споживчий GPU 1x A100

Такі інструменти, як OpenLLM, дозволяють запускати будь-яку модель з відкритим кодом як OpenAI-сумісні API-ендпоінти однією командою. Ray Serve та Hugging Face TGI спрощують розгортання в Kubernetes.


Що далі

Імпульс відкритого коду не демонструє ознак уповільнення. Ефективність навчання DeepSeek — 180K годин GPU H800 на трильйон токенів — свідчить про продовження швидкої ітерації. Оновлення режиму міркування Qwen3 у липні 2025 року продемонструвало, що покращення після навчання продовжують масштабуватися.

Очікуйте в першому кварталі 2026 року: - Подальше розширення контекстного вікна за межі 10M токенів Llama 4 Scout - Покращені агентні можливості в міру розвитку використання інструментів - Менші, ефективніші моделі, що досягають поточної передової продуктивності

Для організацій, які все ще оцінюють стратегії, засновані виключно на API, вікно для пропрієтарної залежності закривається. Враховуючи, що 89% організацій тепер використовують ШІ з відкритим кодом, питання змістилося від «чи варто» до «які моделі та як швидко».


Позиція Introl

Самостійний хостинг моделей відкритого коду передового класу вимагає значної інфраструктури GPU, ефективних систем охолодження та операційної експертизи. 550 польових інженерів Introl, що спеціалізуються на HPC, розгортають та обслуговують кластери акселераторів, яких потребують ці моделі. Дізнайтеся більше про нашу зону покриття.


Опубліковано: 18 грудня 2025 року


Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ