Если ваш продукт работает с голосом — чат-бот, IVR-система, обучающая платформа или контент-сервис — вам нужен TTS API. Text-to-Speech API превращает текст в звучащую речь программно, без ручных действий. Один HTTP-запрос — один аудиофайл.

В этой статье — практическое руководство: как выбрать TTS API для работы с русским языком, чем отличаются GenVoice, Яндекс SpeechKit и ElevenLabs, и как отправить первый запрос за 15 минут.

Хотите попробовать прямо сейчас? Зарегистрируйтесь в GenVoice, создайте API-ключ в личном кабинете и отправьте первый запрос. 10 ₽ на балансе при регистрации — хватит на 2 000 символов.

Зачем бизнесу TTS API

TTS API нужен там, где озвучку невозможно или нерентабельно делать вручную. Вот пять сценариев, в которых программный синтез речи окупается с первого месяца.

Телефония и IVR

Голосовое меню автоответчика, озвучка статусов заказа, исходящие обзвоны — всё это требует аудио. Записывать диктора на каждое обновление меню — долго и дорого. TTS API генерирует озвучку за секунды: изменили текст в скрипте — получили новый аудиофайл. GenVoice API поддерживает форматы μ-law, A-law и PCM на 8 кГц — стандарт для телефонных линий.

Чат-боты и голосовые ассистенты

Текстовые ответы бота превращаются в голосовые сообщения одним API-вызовом. Для Telegram-ботов, виджетов на сайте и голосовых интерфейсов. Средний чат-бот генерирует 200–500 сообщений в день по ~100 символов — при стоимости 5 ₽ за 1 000 символов это 100–250 ₽ в день.

E-learning и онлайн-курсы

Озвучка 100 уроков с диктором — это 100 000+ ₽ и месяц работы. Через API — 1 000–1 500 ₽ и один вечер автоматизации. А когда через месяц нужно обновить три урока, вы просто меняете текст в скрипте и перегенерируете аудио.

Контент-платформы и медиа

Автоматическая озвучка статей, новостных дайджестов, подкастов из текста. Медиа с аудиоверсией получают дополнительный канал потребления контента — часть аудитории предпочитает слушать в дороге. API позволяет генерировать озвучку автоматически при публикации каждой новой статьи.

Аудиокниги и аудиоконтент

Массовая генерация озвучки для больших объёмов текста. Один API-запрос до 5 000 символов (тариф Продвинутый) — это 4–5 минут аудио. Для книги в 200 страниц потребуется ~80 запросов и ~2 000 ₽.

Сравнение TTS API: GenVoice vs SpeechKit vs ElevenLabs

На российском рынке три основных варианта для программного синтеза речи. У каждого свои сильные стороны и ограничения.

GenVoice API

GenVoice — российская платформа нейросетевого синтеза речи. REST API с документацией на русском языке на docs.genvoice.ru.

Сильные стороны:

  • Цена от 3,50 ₽ за 1 000 символов (тариф Продвинутый) — дешевле SpeechKit и в 3–5 раз дешевле ElevenLabs
  • 70+ русских нейроголосов — мужские, женские, разные тембры и стили
  • Клонирование голоса из образца от 3 секунд — создаёте голос в веб-интерфейсе, используете через API
  • 12 форматов вывода включая μ-law, A-law и PCM для телефонии
  • Оплата картами РФ и юрлицом
  • API-ключ создаётся за минуту, документация с примерами на Python и curl

Ограничения:

  • Максимум 5 000 символов на запрос (тариф Продвинутый)
  • Только русский и английский языки

Яндекс SpeechKit

SpeechKit — часть экосистемы Yandex Cloud. Промышленное решение с SLA.

Сильные стороны:

  • Промышленная надёжность и SLA 99.9%
  • Streaming-синтез (gRPC)
  • SSML-разметка для тонкой настройки произношения
  • Подходит для enterprise-проектов с требованиями к надёжности

Ограничения:

  • Цена от 1,3 до 4 ₽ за 1 000 символов — зависит от объёма и модели
  • ~10 голосов на русском (против 70+ у GenVoice)
  • Требуется аккаунт Yandex Cloud с привязкой платёжного профиля — настройка занимает 30–60 минут
  • Brand Voice (клонирование) — только для корпоративных клиентов по отдельной договорённости
  • Документация разбросана по экосистеме Yandex Cloud

ElevenLabs API

ElevenLabs — глобальный лидер по качеству английского синтеза.

Сильные стороны:

  • Лучшее качество на английском языке
  • Мгновенное клонирование голоса через API
  • Streaming-синтез через WebSocket
  • Богатый SDK (Python, Node.js, Go)

Ограничения:

  • Карты РФ не принимаются (Stripe не работает с Россией) — оплата только через посредников с комиссией 20–40%
  • Цена от 16 ₽ за 1 000 символов при пересчёте в рубли — в 3–5 раз дороже GenVoice
  • Русский язык звучит заметно хуже английского: ошибки в ударениях, неестественная интонация
  • Документация только на английском

Сводная таблица

Параметр GenVoice SpeechKit ElevenLabs
Цена за 1 000 символов от 3,50 ₽ от 1,3 ₽ от 16 ₽
Русские голоса 70+ ~10 5+
Клонирование голоса Да (3 сек образец) Только Brand Voice ($$$) Да
Оплата картой РФ Да Да (Yandex Cloud) Нет
Оплата юрлицом Да Да Нет
Время на настройку 15 минут 30–60 минут 15 минут + посредник
Форматы для телефонии μ-law, A-law, PCM (8 кГц) PCM (8 кГц) PCM
Streaming В разработке Да (gRPC) Да (WebSocket)
Макс. символов/запрос 5 000 5 000 5 000
Документация на русском Да Да Нет

Хотите сравнить качество голосов? Послушайте примеры озвучки на главной странице GenVoice — 70+ голосов доступны без регистрации.

Быстрый старт: подключаем GenVoice API за 15 минут

Пошаговая инструкция — от регистрации до работающего кода.

Шаг 1. Регистрация и API-ключ (2 минуты)

  1. Зарегистрируйтесь на app.genvoice.ru — email и пароль, без карты
  2. В личном кабинете перейдите в раздел APIСоздать ключ
  3. Скопируйте ключ вида sk_live_... — он понадобится для авторизации

На балансе 10 ₽ — хватит на 2 000 символов для тестирования.

Шаг 2. Проверяем баланс (1 минута)

Убедимся, что ключ работает:

curl https://api.genvoice.ru/v1/api/balance \
  -H "Authorization: Bearer sk_live_YOUR_API_KEY"

Ответ:

{
  "balance": 1000,
  "currency": "RUB"
}

Поле balance — в копейках. 1000 копеек = 10 ₽.

Шаг 3. Получаем список голосов (1 минута)

curl https://api.genvoice.ru/v1/api/voices/public \
  -H "Authorization: Bearer sk_live_YOUR_API_KEY"

В ответе — массив голосов с id, name и description. Выберите подходящий голос и скопируйте его id.

Шаг 4. Синтезируем речь (1 минута)

curl -X POST https://api.genvoice.ru/v1/api/tts \
  -H "Authorization: Bearer sk_live_YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Здравствуйте! Ваш заказ номер 4 5 1 2 готов к выдаче.",
    "voice_id": "550e8400-e29b-41d4-a716-446655440000",
    "output_format": "mp3_24000_48"
  }' \
  --output speech.mp3

Ответ — бинарный аудиофайл. Откройте speech.mp3 и послушайте результат.

Пример на Python

Полноценный скрипт для интеграции в ваш проект:

import requests

API_KEY = "sk_live_YOUR_API_KEY"
BASE_URL = "https://api.genvoice.ru/v1"
HEADERS = {"Authorization": f"Bearer {API_KEY}"}

# Получаем список публичных голосов
voices = requests.get(
    f"{BASE_URL}/api/voices/public",
    headers=HEADERS,
).json()

# Выбираем первый голос (или ищем конкретный по имени)
voice_id = voices[0]["id"]
print(f"Используем голос: {voices[0]['name']}")

# Синтезируем речь
response = requests.post(
    f"{BASE_URL}/api/tts",
    headers=HEADERS,
    json={
        "text": "Добро пожаловать в наш сервис. Чем могу помочь?",
        "voice_id": voice_id,
        "output_format": "mp3_24000_48",
    },
)

if response.status_code == 200:
    with open("output.mp3", "wb") as f:
        f.write(response.content)
    print(f"Сохранено: {len(response.content)} байт → output.mp3")
else:
    print(f"Ошибка {response.status_code}: {response.text}")

Для телефонии замените формат на ulaw_8000 или alaw_8000 — стандарт для SIP-транков и IVR-систем.

Форматы аудио и их применение

GenVoice API поддерживает 12 форматов вывода. Выбор зависит от задачи:

Формат Частота Применение
mp3_24000_48 24 кГц, 48 kbps Универсальный — веб, мобильные приложения
mp3_44100_64 44.1 кГц, 64 kbps Высокое качество — подкасты, аудиокниги
wav_24000 24 кГц Без сжатия — монтаж, постобработка
pcm_8000 8 кГц Телефония (raw audio)
ulaw_8000 8 кГц Телефония — стандарт для Северной Америки
alaw_8000 8 кГц Телефония — стандарт для Европы и России
opus_24000_32 24 кГц, 32 kbps Голосовые сообщения, WebRTC

Формат указывается в параметре output_format при запросе синтеза. По умолчанию — mp3_24000_48.

Клонирование голоса через API

Одно из ключевых преимуществ GenVoice — клонирование голоса. Процесс:

  1. Загрузите образец голоса в веб-интерфейсе app.genvoice.ru — достаточно записи от 3 секунд
  2. Получите voice_id клонированного голоса в разделе «Мои голоса»
  3. Используйте в API — отправляйте запросы с voice_id клона так же, как с публичным голосом
curl -X POST https://api.genvoice.ru/v1/api/tts \
  -H "Authorization: Bearer sk_live_YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Этот текст озвучен клонированным голосом.",
    "voice_id": "ваш-voice-id-клона",
    "output_format": "mp3_24000_48"
  }' \
  --output cloned_voice.mp3

Применение: бренд-голос для IVR, персонализированные уведомления, озвучка от лица конкретного спикера.

У SpeechKit аналогичная функция называется Brand Voice и доступна только корпоративным клиентам по отдельной договорённости. У ElevenLabs клонирование работает через API, но цена и ограничение на оплату из РФ делают его менее практичным.

Тарифы и лимиты для API-пользователей

GenVoice API доступен на всех тарифах, но лимиты различаются:

Ограничение Бесплатный Старт (99 ₽) Базовый (499 ₽) Продвинутый (1 499 ₽)
Макс. символов/запрос 500 1 000 2 000 5 000
Запросов в минуту 5 8 10 30
Параллельных запросов 1 1 2 5
Своих голосов (клонов) 1 3 10 25
Коммерческое использование Нет Да Да Да

Стоимость синтеза — 5 ₽ за 1 000 символов, одинакова на всех тарифах. На тарифе Продвинутый эффективная цена ниже за счёт бонуса при покупке пакета (от 3,50 ₽ за 1 000 символов).

Баланс не сгорает — нет ежемесячных списаний или подписки. Пополнили — используете в своём темпе.

Для телефонии и IVR

Типичная IVR-система генерирует 1 000–5 000 озвучек в месяц по 50–200 символов. При средней длине сообщения 100 символов:

Объём Символов/мес Стоимость/мес
1 000 озвучек 100 000 500 ₽
5 000 озвучек 500 000 2 500 ₽
20 000 озвучек 2 000 000 10 000 ₽

Для бизнес-объёмов (от 5 000 ₽/мес) — свяжитесь с нами для индивидуальных условий.

Готовы подключить TTS API? Создайте аккаунт → получите API-ключ → отправьте первый запрос. Документация: docs.genvoice.ru

Частые ошибки при интеграции TTS API

1. Отправка слишком длинных текстов одним запросом

Максимальная длина зависит от тарифа (от 500 до 5 000 символов). Если текст длиннее — разбивайте на части по абзацам или предложениям. Не режьте посередине слова.

2. Игнорирование кодировки

API принимает UTF-8. Если отправить текст в другой кодировке, получите искажённое произношение или ошибку.

3. Неправильный формат для целевой платформы

Для телефонии используйте ulaw_8000 или alaw_8000, не MP3. Для веб-плеера — mp3_24000_48. Для последующей обработки — wav_24000.

4. Отсутствие обработки ошибок

API возвращает HTTP-коды: 402 — недостаточно баланса, 429 — превышен лимит запросов, 422 — ошибка валидации. Обрабатывайте эти коды в клиентском коде и добавьте retry-логику для 429.

Частые вопросы

Сколько стоит TTS API в России?

Цена зависит от сервиса. GenVoice — от 3,50 ₽ за 1 000 символов (тариф Продвинутый) или 5 ₽ за 1 000 символов (стандарт). Яндекс SpeechKit — от 1,3 до 4 ₽ за 1 000 символов в зависимости от объёма. ElevenLabs — от 16 ₽ за 1 000 символов при пересчёте в рубли, плюс комиссия посредника за оплату.

Какой TTS API лучше для русского языка?

Для русского языка лучше всего работают GenVoice и Яндекс SpeechKit — их модели обучены на русскоязычных данных. ElevenLabs оптимизирован под английский, русский звучит менее естественно. GenVoice предлагает 70+ русских нейроголосов, SpeechKit — около 10.

Можно ли клонировать голос через API?

Да, в GenVoice клонирование голоса доступно через веб-интерфейс — загружаете образец от 3 секунд, получаете voice_id, который используете в API-запросах. ElevenLabs также поддерживает клонирование через API. У SpeechKit аналогичная функция (Brand Voice) доступна только для крупных корпоративных клиентов.

Нужно ли платить за TTS API до начала использования?

В GenVoice — нет. При регистрации на балансе 10 ₽, хватит на 2 000 символов. API-ключ создаётся бесплатно в личном кабинете. Минимальное пополнение — 99 ₽ (тариф Старт). В SpeechKit нужно подключить платёжный аккаунт Yandex Cloud. ElevenLabs даёт 10 000 символов бесплатно, но оплата только в долларах.

Какие форматы аудио поддерживает GenVoice API?

12 форматов вывода — MP3 (разные битрейты и частоты дискретизации), WAV, PCM (8–24 кГц), Opus, μ-law и A-law. Последние два формата оптимальны для телефонии и IVR-систем.

Заключение

TTS API решает конкретную задачу — программный синтез речи без ручного труда. Для бизнеса в России три основных варианта: GenVoice (дешевле всех, 70+ голосов, клонирование, оплата в рублях), SpeechKit (промышленная надёжность, streaming) и ElevenLabs (лучший английский, но дорого и сложно оплатить из РФ).

Если вам нужен TTS API для русского языка с минимальным порогом входа — попробуйте GenVoice API. Регистрация бесплатная, API-ключ создаётся за минуту, документация на docs.genvoice.ru.


Читайте также: