Если ваш продукт работает с голосом — чат-бот, IVR-система, обучающая платформа или контент-сервис — вам нужен TTS API. Text-to-Speech API превращает текст в звучащую речь программно, без ручных действий. Один HTTP-запрос — один аудиофайл.
В этой статье — практическое руководство: как выбрать TTS API для работы с русским языком, чем отличаются GenVoice, Яндекс SpeechKit и ElevenLabs, и как отправить первый запрос за 15 минут.
Хотите попробовать прямо сейчас? Зарегистрируйтесь в GenVoice, создайте API-ключ в личном кабинете и отправьте первый запрос. 10 ₽ на балансе при регистрации — хватит на 2 000 символов.
Зачем бизнесу TTS API
TTS API нужен там, где озвучку невозможно или нерентабельно делать вручную. Вот пять сценариев, в которых программный синтез речи окупается с первого месяца.
Телефония и IVR
Голосовое меню автоответчика, озвучка статусов заказа, исходящие обзвоны — всё это требует аудио. Записывать диктора на каждое обновление меню — долго и дорого. TTS API генерирует озвучку за секунды: изменили текст в скрипте — получили новый аудиофайл. GenVoice API поддерживает форматы μ-law, A-law и PCM на 8 кГц — стандарт для телефонных линий.
Чат-боты и голосовые ассистенты
Текстовые ответы бота превращаются в голосовые сообщения одним API-вызовом. Для Telegram-ботов, виджетов на сайте и голосовых интерфейсов. Средний чат-бот генерирует 200–500 сообщений в день по ~100 символов — при стоимости 5 ₽ за 1 000 символов это 100–250 ₽ в день.
E-learning и онлайн-курсы
Озвучка 100 уроков с диктором — это 100 000+ ₽ и месяц работы. Через API — 1 000–1 500 ₽ и один вечер автоматизации. А когда через месяц нужно обновить три урока, вы просто меняете текст в скрипте и перегенерируете аудио.
Контент-платформы и медиа
Автоматическая озвучка статей, новостных дайджестов, подкастов из текста. Медиа с аудиоверсией получают дополнительный канал потребления контента — часть аудитории предпочитает слушать в дороге. API позволяет генерировать озвучку автоматически при публикации каждой новой статьи.
Аудиокниги и аудиоконтент
Массовая генерация озвучки для больших объёмов текста. Один API-запрос до 5 000 символов (тариф Продвинутый) — это 4–5 минут аудио. Для книги в 200 страниц потребуется ~80 запросов и ~2 000 ₽.
Сравнение TTS API: GenVoice vs SpeechKit vs ElevenLabs
На российском рынке три основных варианта для программного синтеза речи. У каждого свои сильные стороны и ограничения.
GenVoice API
GenVoice — российская платформа нейросетевого синтеза речи. REST API с документацией на русском языке на docs.genvoice.ru.
Сильные стороны:
- Цена от 3,50 ₽ за 1 000 символов (тариф Продвинутый) — дешевле SpeechKit и в 3–5 раз дешевле ElevenLabs
- 70+ русских нейроголосов — мужские, женские, разные тембры и стили
- Клонирование голоса из образца от 3 секунд — создаёте голос в веб-интерфейсе, используете через API
- 12 форматов вывода включая μ-law, A-law и PCM для телефонии
- Оплата картами РФ и юрлицом
- API-ключ создаётся за минуту, документация с примерами на Python и curl
Ограничения:
- Максимум 5 000 символов на запрос (тариф Продвинутый)
- Только русский и английский языки
Яндекс SpeechKit
SpeechKit — часть экосистемы Yandex Cloud. Промышленное решение с SLA.
Сильные стороны:
- Промышленная надёжность и SLA 99.9%
- Streaming-синтез (gRPC)
- SSML-разметка для тонкой настройки произношения
- Подходит для enterprise-проектов с требованиями к надёжности
Ограничения:
- Цена от 1,3 до 4 ₽ за 1 000 символов — зависит от объёма и модели
- ~10 голосов на русском (против 70+ у GenVoice)
- Требуется аккаунт Yandex Cloud с привязкой платёжного профиля — настройка занимает 30–60 минут
- Brand Voice (клонирование) — только для корпоративных клиентов по отдельной договорённости
- Документация разбросана по экосистеме Yandex Cloud
ElevenLabs API
ElevenLabs — глобальный лидер по качеству английского синтеза.
Сильные стороны:
- Лучшее качество на английском языке
- Мгновенное клонирование голоса через API
- Streaming-синтез через WebSocket
- Богатый SDK (Python, Node.js, Go)
Ограничения:
- Карты РФ не принимаются (Stripe не работает с Россией) — оплата только через посредников с комиссией 20–40%
- Цена от 16 ₽ за 1 000 символов при пересчёте в рубли — в 3–5 раз дороже GenVoice
- Русский язык звучит заметно хуже английского: ошибки в ударениях, неестественная интонация
- Документация только на английском
Сводная таблица
| Параметр | GenVoice | SpeechKit | ElevenLabs |
|---|---|---|---|
| Цена за 1 000 символов | от 3,50 ₽ | от 1,3 ₽ | от 16 ₽ |
| Русские голоса | 70+ | ~10 | 5+ |
| Клонирование голоса | Да (3 сек образец) | Только Brand Voice ($$$) | Да |
| Оплата картой РФ | Да | Да (Yandex Cloud) | Нет |
| Оплата юрлицом | Да | Да | Нет |
| Время на настройку | 15 минут | 30–60 минут | 15 минут + посредник |
| Форматы для телефонии | μ-law, A-law, PCM (8 кГц) | PCM (8 кГц) | PCM |
| Streaming | В разработке | Да (gRPC) | Да (WebSocket) |
| Макс. символов/запрос | 5 000 | 5 000 | 5 000 |
| Документация на русском | Да | Да | Нет |
Хотите сравнить качество голосов? Послушайте примеры озвучки на главной странице GenVoice — 70+ голосов доступны без регистрации.
Быстрый старт: подключаем GenVoice API за 15 минут
Пошаговая инструкция — от регистрации до работающего кода.
Шаг 1. Регистрация и API-ключ (2 минуты)
- Зарегистрируйтесь на app.genvoice.ru — email и пароль, без карты
- В личном кабинете перейдите в раздел API → Создать ключ
- Скопируйте ключ вида
sk_live_...— он понадобится для авторизации
На балансе 10 ₽ — хватит на 2 000 символов для тестирования.
Шаг 2. Проверяем баланс (1 минута)
Убедимся, что ключ работает:
curl https://api.genvoice.ru/v1/api/balance \
-H "Authorization: Bearer sk_live_YOUR_API_KEY"
Ответ:
{
"balance": 1000,
"currency": "RUB"
}
Поле balance — в копейках. 1000 копеек = 10 ₽.
Шаг 3. Получаем список голосов (1 минута)
curl https://api.genvoice.ru/v1/api/voices/public \
-H "Authorization: Bearer sk_live_YOUR_API_KEY"
В ответе — массив голосов с id, name и description. Выберите подходящий голос и скопируйте его id.
Шаг 4. Синтезируем речь (1 минута)
curl -X POST https://api.genvoice.ru/v1/api/tts \
-H "Authorization: Bearer sk_live_YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "Здравствуйте! Ваш заказ номер 4 5 1 2 готов к выдаче.",
"voice_id": "550e8400-e29b-41d4-a716-446655440000",
"output_format": "mp3_24000_48"
}' \
--output speech.mp3
Ответ — бинарный аудиофайл. Откройте speech.mp3 и послушайте результат.
Пример на Python
Полноценный скрипт для интеграции в ваш проект:
import requests
API_KEY = "sk_live_YOUR_API_KEY"
BASE_URL = "https://api.genvoice.ru/v1"
HEADERS = {"Authorization": f"Bearer {API_KEY}"}
# Получаем список публичных голосов
voices = requests.get(
f"{BASE_URL}/api/voices/public",
headers=HEADERS,
).json()
# Выбираем первый голос (или ищем конкретный по имени)
voice_id = voices[0]["id"]
print(f"Используем голос: {voices[0]['name']}")
# Синтезируем речь
response = requests.post(
f"{BASE_URL}/api/tts",
headers=HEADERS,
json={
"text": "Добро пожаловать в наш сервис. Чем могу помочь?",
"voice_id": voice_id,
"output_format": "mp3_24000_48",
},
)
if response.status_code == 200:
with open("output.mp3", "wb") as f:
f.write(response.content)
print(f"Сохранено: {len(response.content)} байт → output.mp3")
else:
print(f"Ошибка {response.status_code}: {response.text}")
Для телефонии замените формат на ulaw_8000 или alaw_8000 — стандарт для SIP-транков и IVR-систем.
Форматы аудио и их применение
GenVoice API поддерживает 12 форматов вывода. Выбор зависит от задачи:
| Формат | Частота | Применение |
|---|---|---|
mp3_24000_48 |
24 кГц, 48 kbps | Универсальный — веб, мобильные приложения |
mp3_44100_64 |
44.1 кГц, 64 kbps | Высокое качество — подкасты, аудиокниги |
wav_24000 |
24 кГц | Без сжатия — монтаж, постобработка |
pcm_8000 |
8 кГц | Телефония (raw audio) |
ulaw_8000 |
8 кГц | Телефония — стандарт для Северной Америки |
alaw_8000 |
8 кГц | Телефония — стандарт для Европы и России |
opus_24000_32 |
24 кГц, 32 kbps | Голосовые сообщения, WebRTC |
Формат указывается в параметре output_format при запросе синтеза. По умолчанию — mp3_24000_48.
Клонирование голоса через API
Одно из ключевых преимуществ GenVoice — клонирование голоса. Процесс:
- Загрузите образец голоса в веб-интерфейсе app.genvoice.ru — достаточно записи от 3 секунд
- Получите
voice_idклонированного голоса в разделе «Мои голоса» - Используйте в API — отправляйте запросы с
voice_idклона так же, как с публичным голосом
curl -X POST https://api.genvoice.ru/v1/api/tts \
-H "Authorization: Bearer sk_live_YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "Этот текст озвучен клонированным голосом.",
"voice_id": "ваш-voice-id-клона",
"output_format": "mp3_24000_48"
}' \
--output cloned_voice.mp3
Применение: бренд-голос для IVR, персонализированные уведомления, озвучка от лица конкретного спикера.
У SpeechKit аналогичная функция называется Brand Voice и доступна только корпоративным клиентам по отдельной договорённости. У ElevenLabs клонирование работает через API, но цена и ограничение на оплату из РФ делают его менее практичным.
Тарифы и лимиты для API-пользователей
GenVoice API доступен на всех тарифах, но лимиты различаются:
| Ограничение | Бесплатный | Старт (99 ₽) | Базовый (499 ₽) | Продвинутый (1 499 ₽) |
|---|---|---|---|---|
| Макс. символов/запрос | 500 | 1 000 | 2 000 | 5 000 |
| Запросов в минуту | 5 | 8 | 10 | 30 |
| Параллельных запросов | 1 | 1 | 2 | 5 |
| Своих голосов (клонов) | 1 | 3 | 10 | 25 |
| Коммерческое использование | Нет | Да | Да | Да |
Стоимость синтеза — 5 ₽ за 1 000 символов, одинакова на всех тарифах. На тарифе Продвинутый эффективная цена ниже за счёт бонуса при покупке пакета (от 3,50 ₽ за 1 000 символов).
Баланс не сгорает — нет ежемесячных списаний или подписки. Пополнили — используете в своём темпе.
Для телефонии и IVR
Типичная IVR-система генерирует 1 000–5 000 озвучек в месяц по 50–200 символов. При средней длине сообщения 100 символов:
| Объём | Символов/мес | Стоимость/мес |
|---|---|---|
| 1 000 озвучек | 100 000 | 500 ₽ |
| 5 000 озвучек | 500 000 | 2 500 ₽ |
| 20 000 озвучек | 2 000 000 | 10 000 ₽ |
Для бизнес-объёмов (от 5 000 ₽/мес) — свяжитесь с нами для индивидуальных условий.
Готовы подключить TTS API? Создайте аккаунт → получите API-ключ → отправьте первый запрос. Документация: docs.genvoice.ru
Частые ошибки при интеграции TTS API
1. Отправка слишком длинных текстов одним запросом
Максимальная длина зависит от тарифа (от 500 до 5 000 символов). Если текст длиннее — разбивайте на части по абзацам или предложениям. Не режьте посередине слова.
2. Игнорирование кодировки
API принимает UTF-8. Если отправить текст в другой кодировке, получите искажённое произношение или ошибку.
3. Неправильный формат для целевой платформы
Для телефонии используйте ulaw_8000 или alaw_8000, не MP3. Для веб-плеера — mp3_24000_48. Для последующей обработки — wav_24000.
4. Отсутствие обработки ошибок
API возвращает HTTP-коды: 402 — недостаточно баланса, 429 — превышен лимит запросов, 422 — ошибка валидации. Обрабатывайте эти коды в клиентском коде и добавьте retry-логику для 429.
Частые вопросы
Сколько стоит TTS API в России?
Цена зависит от сервиса. GenVoice — от 3,50 ₽ за 1 000 символов (тариф Продвинутый) или 5 ₽ за 1 000 символов (стандарт). Яндекс SpeechKit — от 1,3 до 4 ₽ за 1 000 символов в зависимости от объёма. ElevenLabs — от 16 ₽ за 1 000 символов при пересчёте в рубли, плюс комиссия посредника за оплату.
Какой TTS API лучше для русского языка?
Для русского языка лучше всего работают GenVoice и Яндекс SpeechKit — их модели обучены на русскоязычных данных. ElevenLabs оптимизирован под английский, русский звучит менее естественно. GenVoice предлагает 70+ русских нейроголосов, SpeechKit — около 10.
Можно ли клонировать голос через API?
Да, в GenVoice клонирование голоса доступно через веб-интерфейс — загружаете образец от 3 секунд, получаете voice_id, который используете в API-запросах. ElevenLabs также поддерживает клонирование через API. У SpeechKit аналогичная функция (Brand Voice) доступна только для крупных корпоративных клиентов.
Нужно ли платить за TTS API до начала использования?
В GenVoice — нет. При регистрации на балансе 10 ₽, хватит на 2 000 символов. API-ключ создаётся бесплатно в личном кабинете. Минимальное пополнение — 99 ₽ (тариф Старт). В SpeechKit нужно подключить платёжный аккаунт Yandex Cloud. ElevenLabs даёт 10 000 символов бесплатно, но оплата только в долларах.
Какие форматы аудио поддерживает GenVoice API?
12 форматов вывода — MP3 (разные битрейты и частоты дискретизации), WAV, PCM (8–24 кГц), Opus, μ-law и A-law. Последние два формата оптимальны для телефонии и IVR-систем.
Заключение
TTS API решает конкретную задачу — программный синтез речи без ручного труда. Для бизнеса в России три основных варианта: GenVoice (дешевле всех, 70+ голосов, клонирование, оплата в рублях), SpeechKit (промышленная надёжность, streaming) и ElevenLabs (лучший английский, но дорого и сложно оплатить из РФ).
Если вам нужен TTS API для русского языка с минимальным порогом входа — попробуйте GenVoice API. Регистрация бесплатная, API-ключ создаётся за минуту, документация на docs.genvoice.ru.
Читайте также:
- Чем заменить ElevenLabs в России: обзор альтернатив 2026 — подробное сравнение 5 сервисов синтеза речи
- Клонирование голоса нейросетью: как создать копию за 30 секунд — гайд по клонированию голоса в GenVoice