Інфраструктура голосового ШІ: створення мовленнєвих агентів реального часу
Оновлено 11 грудня 2025 року
Оновлення грудня 2025: Deepgram STT за 150 мс, ElevenLabs TTS за 75 мс — проте більшість агентів відповідають за 800 мс–2 с через накопичення затримок у стеку. Людська розмова вимагає вікна відповіді 300–500 мс. Затримка конвеєра: STT (100–500 мс) + LLM (350 мс–1 с+) + TTS (75–200 мс). Кожна мілісекунда має значення для продакшн-агентів голосового зв'язку.
Deepgram забезпечує перетворення мовлення в текст за 150 мілісекунд. ElevenLabs синтезує голос за 75 мілісекунд. Проте більшість голосових ШІ-агентів все ще витрачають від 800 мілісекунд до двох секунд на відповідь — тому що затримки накопичуються по всьому стеку.¹ Розрив між можливостями окремих компонентів і наскрізною продуктивністю розкриває інфраструктурний виклик у серці голосового ШІ: оркестрування розпізнавання мовлення, мовних моделей і синтезу в конвеєри, що відповідають часовим параметрам людської розмови.
Людська розмова працює у вікні відповіді 300–500 мілісекунд.² Затримки понад 500 мілісекунд сприймаються неприродно. Понад 1,2 секунди — користувачі кладуть слухавку або перебивають. Створення голосових агентів, що відповідають цим порогам, вимагає розуміння кожного рівня стеку, вибору відповідних компонентів та проєктування систем, де кожна мілісекунда на рахунку.
Стек голосового ШІ
Кожен голосовий агент покладається на чотири компоненти, що працюють узгоджено:³
Speech-to-Text (STT/ASR): «Вуха», що транскрибують аудіо мовлення в текст. Затримка коливається від 100 до 500 мілісекунд залежно від конфігурації потокової передачі.
Large Language Model (LLM): «Мозок», що обробляє транскрибований текст і генерує відповіді. Затримка коливається від 350 мілісекунд для оптимізованих моделей до понад однієї секунди для передових моделей.
Text-to-Speech (TTS): «Голос», що синтезує текст відповіді в аудіо. Сучасний потоковий TTS досягає 75–200 мілісекунд до першого аудіо.
Оркестрування: «Диригент», що керує потоком реального часу між компонентами, обробляє чергування реплік, переривання та стан сесії.
Рівняння затримки
Затримка голосового ШІ накопичується по конвеєру:⁴
Загальна затримка = STT + LLM + TTS + Мережа + Обробка
= 200 мс + 500 мс + 150 мс + 50 мс + 100 мс
= 1000 мс (типово)
Досягнення відповідей менше ніж за 500 мілісекунд вимагає або стиснення кожного компонента, або паралелізації конвеєра через потокову передачу — починаючи синтез мовлення до завершення генерації LLM, обробляючи часткові транскрипції до завершення мовлення користувачами.
Інфраструктура Speech-to-Text
Рівень ASR перетворює аудіопотоки в текст, який можуть обробляти мовні моделі. Вибір провайдера передбачає баланс між затримкою, точністю та вартістю.
Порівняння провайдерів
Deepgram Nova-3:⁵ - Час до першого токена: ~150 мс (США), 250–350 мс (глобально) - Word error rate: 18,3% - Оптимізований для потокової передачі з real-time factor 0,2–0,3x - Ціна: $0,0043/хвилина (pay-as-you-go) - Найкраще для: голосових агентів з низькою затримкою, що пріоритезують швидкість
AssemblyAI Universal-2:⁶ - Затримка: 300–600 мс - Word error rate: 14,5% (найкраща точність серед потокових моделей) - Висока продуктивність у специфічних доменах — медицина та продажі - Ціна: $0,00025/секунда - Найкраще для: застосунків, що вимагають точності над сирою швидкістю
Whisper (self-hosted):⁷ - Затримка: 1–5 секунд (пакетний режим), 380–520 мс (оптимізований WhisperX) - Найвища точність для офлайн-транскрипції - Вимагає значних інженерних зусиль для продакшн-потокової передачі - Найкраще для: пакетної обробки, гібридних архітектур
Groq-accelerated Whisper: - Затримка: менше 300 мс на апаратурі LPU - Поєднує точність Whisper із затримкою потокової передачі - Обмежена доступність через GroqCloud - Найкраще для: застосунків реального часу з фокусом на якість
Патерни інфраструктури ASR
Потокова архітектура: Починайте транскрипцію негайно з надходженням аудіо, не чекаючи завершення висловлювань. Часткові результати передаються downstream-компонентам до завершення мовлення користувачами.
# Патерн потокового ASR
async def transcribe_stream(audio_stream):
async for chunk in audio_stream:
partial = await asr_client.transcribe_chunk(chunk)
if partial.is_final:
yield partial.text
else:
# Надсилання проміжних результатів для прогнозування
yield partial.interim_text
Voice Activity Detection (VAD): Визначення, коли користувачі починають і закінчують говорити. Погана VAD створює або передчасні обриви (переривання користувачів), або надмірні затримки (очікування тиші, яка вже настала).
Endpointing: Визначення, коли користувач завершив свою репліку. Агресивний endpointing зменшує затримку, але ризикує обірвати мовця. Консервативний endpointing забезпечує повноту, але додає затримку.
Вимоги до GPU для self-hosted ASR
Self-hosted розгортання Whisper вимагають GPU-прискорення:⁸
| Рівень навантаження | GPU | Паралельні потоки |
|---|---|---|
| Розробка | RTX 3060/4060 | 5–10 |
| Продакшн | A100 40GB | 50–100 |
| Enterprise | H100 | 200+ |
Продакшн speech-to-text зазвичай працює на A100 або RTX 6000 Ada, а не на H100 — навантаження більше виграє від пропускної здатності пам'яті, ніж від сирої обчислювальної потужності.
Рівень Large Language Model
LLM обробляє транскрибоване мовлення та генерує текст відповіді. Вибір моделі драматично впливає як на затримку, так і на якість розмови.
Профілі затримки моделей
Надшвидкі (менше 350 мс):⁹ - Gemini Flash 1.5: ~300 мс до першого токена - Groq-served Llama: ~200 мс на LPU - Найкраще для: максимальної чуйності, простіших запитів
Швидкі (350–700 мс): - GPT-4o-mini: ~400 мс - Claude 3.5 Haiku: ~350 мс - Найкраще для: балансу швидкості та можливостей
Стандартні (700 мс–1 с+): - GPT-4o: ~700 мс - Claude 3.5 Sonnet: ~800 мс - Найкраще для: складних міркувань, застосунків з критичною якістю
Стратегії оптимізації
Потокова генерація: Починайте синтез TTS з надходженням токенів LLM, не чекаючи повних відповідей. Сучасні конвеєри оркестрування транслюють токени безпосередньо до синтезу мовлення.
Спекулятивне виконання: Прогнозуйте ймовірні відповіді на основі часткових транскрипцій. Починайте генерувати відповіді до завершення мовлення користувачами, відкидаючи прогнози, що не відповідають остаточному наміру.
Маршрутизація моделей: Направляйте прості запити до швидких моделей, складні — до потужних моделей. Класифікатор визначає складність запиту за одиниці мілісекунд.
# Патерн маршрутизації моделей
def route_query(transcript, context):
complexity = classify_complexity(transcript)
if complexity == "simple":
return "gemini-flash"
elif complexity == "moderate":
return "gpt-4o-mini"
else:
return "gpt-4o"
Оптимізація промптів: Коротші промпти зменшують час обробки. Кешуйте системні промпти там, де провайдери підтримують кешування промптів (Anthropic досягає 90% зниження витрат на кешованих префіксах).
Інфраструктура Text-to-Speech
TTS перетворює текст, згенерований LLM, у природне мовлення. Цей рівень трансформувався з вузького місця (2–3 секунди історично) у сильну сторону (75–150 мс у сучасних провайдерів).
Порівняння провайдерів
ElevenLabs Flash v2.5:¹⁰ - Час до першого аудіо: 75 мс - Якість голосу: провідна в галузі природність - Емоційний діапазон: відмінна виразність - Ціна: $0,050/1000 символів - Найкраще для: застосунків з критичною якістю
Cartesia Sonic:¹¹ - Час до першого аудіо: 40–95 мс - Спеціально створений для розмов реального часу - Стабільно низька затримка під навантаженням - Ціна: $0,038/1000 символів - Найкраще для: застосунків з критичною затримкою
Deepgram Aura-2:¹² - Час до першого аудіо: менше 150 мс - Надійність enterprise-рівня - Економічність при масштабуванні - Ціна: $0,030/1000 символів - Найкраще для: високонавантажених enterprise-розгортань
PlayHT: - Затримка: ~300 мс - Розширена бібліотека голосів - Можливості клонування голосу - Нижча цінова точка - Найкраще для: бюджетно-орієнтованих застосунків
Патерни інфраструктури TTS
Потоковий синтез: Генеруйте аудіо поступово з надходженням тексту від LLM. Надсилайте аудіо-чанки користувачам до завершення синтезу повних речень.
Буферизація аудіо: Підтримуйте невеликі буфери для згладжування відтворення попри змінну синхронізацію синтезу. Занадто великий буфер — страждає затримка. Занадто малий — аудіо заїкається.
Кешування голосу: Кешуйте часто використовувані фрази (привітання, типові відповіді) як попередньо синтезоване аудіо. Повністю усуває затримку TTS для кешованого контенту.
Платформи оркестрування
Рівні оркестрування з'єднують компоненти ASR, LLM і TTS, водночас обробляючи телефонію, чергування реплік та управління сесіями. Вибір платформи визначає швидкість розробки та надійність продакшну.
Порівняння платформ
Vapi:¹³ - Фокус: готова платформа голосових агентів - Телефонія: нативна інтеграція SIP/PSTN - Кастомізація: модульний вибір компонентів - Ціна: $0,05/хвилина + вартість компонентів - Найкраще для: швидкого розгортання, застосунків з фокусом на телефонію
LiveKit:¹⁴ - Фокус: open-source інфраструктура реального часу - Архітектура: WebRTC-native з фреймворком агентів - Кастомізація: повний контроль, можливість self-hosting - Ціна: безкоштовний рівень (100 паралельних з'єднань, 5000 хвилин/місяць), платний від $50/місяць - Найкраще для: кастомних застосунків, команд, що потребують повного контролю
Retell AI:¹⁵ - Фокус: природний потік розмови - Диференціатор: оптимізоване чергування реплік та обробка переривань - Відповідність: HIPAA та SOC 2 Type II - Ціна: $0,07+/хвилина - Найкраще для: пріоритету якості розмови, enterprise-відповідності
Pipecat: - Фокус: open-source фреймворк агентів - Інтеграція: працює з основними хмарними провайдерами - Кастомізація: високо гнучка побудова конвеєра - Найкраще для: розробників, що хочуть фреймворк без прив'язки до платформи
Критерії вибору
| Фактор | Vapi | LiveKit | Retell |
|---|---|---|---|
| Інтеграція телефонії | Відмінна | Добра (через SIP) | Відмінна |
| Кастомізація | Висока | Найвища | Помірна |
| Складність налаштування | Низька | Помірна | Низька |
| Self-hosting | Ні | Так | Ні |
| Enterprise-функції | Добрі | Зростаючі | Відмінні |
Архітектурні патерни
Каскадний конвеєр (ASR → LLM → TTS)
Традиційна архітектура обробляє аудіо через дискретні етапи:¹⁶
Аудіо → ASR → Текст → LLM → Текст відповіді → TTS → Аудіо
Переваги: - Модульність компонентів (легко замінювати провайдерів) - Зрілий інструментарій та налагодження - Передбачувана структура витрат (~$0,15/хвилина незалежно від тривалості розмови) - Прозорі проміжні представлення (текст можна інспектувати)
Виклики: - Накопичення затримки по етапах - Втрата інформації в текстовому представленні (просодія, емоції) - Складна координація потокової передачі
Speech-to-Speech (S2S)
End-to-end моделі обробляють аудіо безпосередньо в аудіо:¹⁷
Аудіо → Мультимодальна модель → Аудіо
Приклади: - GPT-4o voice mode - Moshi (Kyutai Labs) - Ultravox
Переваги: - Зберігає просодичну інформацію - Потенційно нижча затримка (одна модель) - Природно обробляє накладене мовлення
Виклики: - Вища вартість (~$0,30–1,50/хвилина для довших розмов) - Обмежена кастомізація (неможливо замінювати компоненти) - Непрозорість налагодження (немає проміжного тексту)
Гібридні підходи
Продакшн-системи все частіше поєднують архітектури:
Каскад з fallback на S2S: Використовуйте каскад для стандартних взаємодій, переключайтесь на S2S для складного накладеного діалогу.
Паралельна обробка: Запускайте ASR та прогнозування наміру одночасно. Починайте генерацію відповіді на основі прогнозованого наміру, поки ASR завершується.
Спекулятивний TTS: Попередньо генеруйте ймовірне аудіо відповіді. Відтворюйте кешоване аудіо негайно, якщо прогноз збігається; інакше повертайтесь до синтезу.
Масштабування інфраструктури голосового ШІ
Планування паралельної ємності
Голосовий ШІ масштабується інакше, ніж текстовий ШІ. Кожен паралельний виклик вимагає виділених ресурсів обробки по всьому конвеєру.¹⁸
Ємність на GPU (self-hosted):
| GPU | ASR-потоки | LLM паралельно | TTS-потоки |
|---|---|---|---|
| L4 | 50 | 20–30 | 100 |
| L40S | 100 | 50–75 | 200 |
| A100 | 100 | 75–100 | 250 |
| H100 | 200+ | 150–200 | 400+ |
Ємність керованих сервісів: Хмарні провайдери обробляють масштабування автоматично
[Контент скорочено для перекладу]