Моделі ШІ з відкритим кодом скорочують розрив: DeepSeek, Qwen3 та Llama 4 тепер не поступаються GPT-5

Розрив у продуктивності між відкритими та закритими моделями ШІ скоротився до 0,3%. Ось що це означає для корпоративної інфраструктури ШІ.

Моделі ШІ з відкритим кодом скорочують розрив: DeepSeek, Qwen3 та Llama 4 тепер не поступаються GPT-5

Моделі ШІ з відкритим кодом скорочують розрив: DeepSeek, Qwen3 та Llama 4 тепер не поступаються GPT-5

Резюме

Розрив у продуктивності між моделями ШІ з відкритим кодом та пропрієтарними моделями скоротився з 17,5 відсоткових пунктів до лише 0,3% на ключових бенчмарках у 2025 році. DeepSeek V3.2, Qwen3-235B та Llama 4 Scout тепер конкурують із GPT-5.2 та Claude Opus 4.5 за частку вартості — з повною можливістю самостійного хостингу. Для підприємств, які зважують залежність від API проти інвестицій в інфраструктуру, розрахунок кардинально змінився.


Що сталося

Грудень 2025 року знаменує поворотний момент у ландшафті моделей ШІ. Великі мовні моделі з відкритим кодом досягли майже паритету з найпотужнішими пропрієтарними системами, завершивши багаторічний період домінування закритих моделей.

Цифри говорять самі за себе. Аналіз 94 провідних LLM показує, що моделі з відкритим кодом тепер відстають від пропрієтарних систем на MMLU лише на 0,3 відсоткових пункти — порівняно з розривом у 17,5 пунктів лише рік тому. На Chatbot Arena, рейтингу людських уподобань, що базується на понад 5 мільйонах голосів користувачів, моделі з відкритими вагами скоротили розрив з 8% до 1,7% між січнем 2024 та лютим 2025 року. Цей розрив продовжує скорочуватися.

Три сімейства моделей очолюють рух відкритого коду:

DeepSeek V3.2 був запущений 1 грудня 2025 року, досягнувши паритету з GPT-5 за кількома бенчмарками міркування. Архітектура Mixture-of-Experts китайської лабораторії активує лише 37B з її 671B параметрів на токен, забезпечуючи передову продуктивність за товарними цінами.

Qwen3-235B-A22B від Alibaba зрівнюється або перевершує GPT-4o на більшості публічних бенчмарків, активуючи лише 22B з її 235B параметрів. Оновлення thinking у липні 2025 року досягло найсучасніших результатів серед моделей міркування з відкритим кодом.

Llama 4 Scout від Meta пропонує вікно контексту в 10 мільйонів токенів — достатньо для обробки 7 500 сторінок за один сеанс — працюючи на одному GPU H100 з квантуванням INT4.

Моделі з відкритим кодом тепер становлять 62,8% ринку за кількістю моделей. Зміна відбулася швидко. Два роки тому домінували пропрієтарні моделі.


Чому це важливо

Для підприємств, що будують інфраструктуру ШІ, ця конвергенція переформатовує розрахунок "будувати чи купувати".

Динаміка витрат інвертувалася. DeepSeek V3.2 коштує $0,26 за мільйон вхідних токенів — приблизно в 10 разів дешевше, ніж GPT-5.2 Pro. Mistral Medium 3 забезпечує 90% продуктивності Claude Sonnet 3.7 за $0,40 за мільйон токенів, у 8 разів дешевше, ніж GPT-4. Організації повідомляють про на 25% вищий ROI з підходами відкритого коду порівняно з виключно пропрієтарними стратегіями.

Контроль даних стає можливим. Самостійний хостинг зберігає конфіденційну інформацію повністю в межах організаційної інфраструктури. Компанії охорони здоров'я можуть виконувати запити щодо даних пацієнтів на місці без ризиків порушення HIPAA від зовнішньої передачі. Фінансові установи зберігають повний контроль над торговельними алгоритмами та даними клієнтів.

Гнучкість розгортання розширюється. Mistral Medium 3 працює на лише чотирьох GPU. Llama 4 Scout вміщується на одному H100. Ці моделі можна розгортати в гібридних середовищах, локальних центрах обробки даних або периферійних локаціях — неможливо з пропрієтарними сервісами лише через API.

Залежність від постачальника розчиняється. Моделі з самостійним хостингом не застарівають, коли провайдери виводять з експлуатації старі версії. Організації контролюють свої графіки оновлення, підтримують узгодженість моделей та уникають волатильності ціноутворення на основі використання, яка зробила ринки PPA все більш сприятливими для продавців.


Технічні деталі

Специфікації моделей

Модель Загальні параметри Активні параметри Контекст Вартість вхід/М Вартість вихід/М
DeepSeek V3.2 671B 37B 128K $0,26 $0,39
Qwen3-235B 235B 22B 256K $0,20 $1,20
Llama 4 Scout 109B 17B 10M $0,08 $0,30
Mistral Medium 3 131K $0,40 $2,00
Mistral Large 3 675B 41B 256K

Продуктивність на бенчмарках

Програмування: DeepSeek V3.2 демонструє виняткову компетентність у завданнях агентів довгого хвоста, інтегруючи мислення безпосередньо у використання інструментів. Qwen3-235B досягає 74,8 на LiveCodeBench v6. Llama 4 Scout досягла 38,1% на LiveCodeBench, перевершивши 32,3% GPT-4o.

Міркування: Qwen3-235B набирає 85,7 на AIME'24 та 81,5 на AIME'25. У режимі thinking він досягає 92,3 на AIME25. DeepSeek V3.2-Speciale досягає паритету з Gemini-3.0-Pro та результатів золотої медалі на IOI 2025, ICPC World Final 2025, IMO 2025 та CMO 2025.

Довгий контекст: Вікно контексту в 10M токенів Llama 4 Scout дозволяє обробляти цілі юридичні документи, колекції дослідницьких робіт або репозиторії програмного забезпечення за один сеанс.

Архітектурні інновації

DeepSeek V3.2 представляє DeepSeek Sparse Attention (DSA), досягаючи дрібнозернистої розрідженої уваги для суттєвих покращень ефективності довгого контексту при збереженні якості виходу моделі.

Гібридний режим thinking DeepSeek V3.1 перемикається між ланцюговим міркуванням та прямими відповідями через зміни шаблону чату — одна модель охоплює як загальні, так і інтенсивні випадки використання міркування.

Лінійка Ministral від Mistral 3 пропонує дев'ять щільних моделей з 3B, 8B та 14B параметрів, кожна в варіантах Base, Instruct та Reasoning. Модель reasoning 14B досягає 85% на AIME 2025, працюючи на одному GPU.

Вимоги до самостійного хостингу

Модель Мінімальне обладнання Рекомендоване
DeepSeek V3.2 8x H100 80GB 16x H100
Qwen3-235B 8x H100 80GB 8x H200
Llama 4 Scout 1x H100 (INT4) 2x H100
Mistral Medium 3 4x GPU 8x A100/H100
Ministral 3 14B 1x споживчий GPU 1x A100

Інструменти як OpenLLM дозволяють запускати будь-яку модель з відкритим кодом як OpenAI-сумісні API-ендпоінти простими командами. Ray Serve та Hugging Face TGI спрощують розгортання Kubernetes.


Що далі

Імпульс відкритого коду не показує ознак уповільнення. Ефективність навчання DeepSeek — 180K годин GPU H800 на трильйон токенів — свідчить про продовження швидкої ітерації. Оновлення thinking Qwen3 у липні 2025 продемонструвало, що покращення після навчання продовжують масштабуватися.

Очікуйте в Q1 2026: - Подальше розширення вікна контексту за межі 10M токенів Llama 4 Scout - Покращені агентні можливості з дозріванням використання інструментів - Менші, ефективніші моделі, що досягають поточної передової продуктивності

Для організацій, які все ще оцінюють стратегії лише через API, вікно для пропрієтарного lock-in закривається. З 89% організацій, які зараз використовують ШІ з відкритим кодом, питання змістилося з "чи" на "які моделі та як швидко".


Перспектива Introl

Самостійний хостинг моделей відкритого коду передового класу вимагає значної інфраструктури GPU, ефективних систем охолодження та операційного досвіду. 550 польових інженерів Introl, спеціалізованих на HPC, розгортають та обслуговують кластери прискорювачів, які вимагають ці моделі. Дізнайтеся більше про нашу зону покриття.


Опубліковано: 18 грудня 2025

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING