Назад в блог

Как создать ИИ голосового помощника: собираем с нуля на GPT и TTS

https://s3.ascn.ai/blog/4ec8cbfa-380d-45d2-a9bc-206404735f17.png
ASCN Team
22 March 2026
Вопросы по автоматизациям и их сборке вы можете задать нашему менеджеру.
Купите подписку сейчас и получите х2 по времени подписки.
Связаться с менеджером

Голосовые помощники развиваются с поразительной скоростью. Компании, которые раньше занимали несколько месяцев на поиск и обучение операторов, теперь на выходных разворачивают бота. Такие решения экономят тысячи часов рутинной работы. Мы сами через это прошли — и индексировали блокчейн-ноды, и автоматизировали криптоарбитраж, и целую экосистему продуктов собрали, которые почти без программистов работают. А сейчас готов рассказать, как можно собрать своего голосового помощника с нуля: какие технологии брать, как не разориться и реально сэкономить время.

«Мы два года индексовали ноды и разрабатывали сентимент-модели, чтобы отвечать не по веб-поиску, а по реалтайм-данным блокчейна. GPT и прочие LLM модели напрямую с блокчейном не работают, поэтому уникальны в криптоаналитике.»

Введение в голосовой ИИ помощник

Голосовой помощник — это такая программа, которая слушает вас, понимает через NLP, распознает речь через ASR и отвечает голосом через TTS. Осуществляет функции — от простых напоминалок до сложной аналитики.

Голосовой бот — это специализированная версия. Заточена она лишь под конкретную задачу: либо прием заказов, либо техподдержка, либо бронирование. Работает по скриптам или их комбинированным с NLP.

Разница простая. Помощник, являющийся сотрудником банка, способен, как это ни странно, ответить на множество запросов: проверь баланс, переведи деньги, проконсультируй по кредиту. Бот того же банка — только кредитные заявки принимает. И всё.

Как создать ИИ голосового помощника: собираем с нуля на GPT и TTS

В ASCN.AI наши голосовые агенты автоматизируют парсинг новостей, анализ токенов, генерацию отчетов. Клиент задает вопрос голосом через Telegram — агент извлекает данные с ончейн-нод, новостных агрегаторов, соцсетей, через 10 секунд выдает на выходе структурированный ответ. Экономия до 40 человеко-часов ручного труда для аналитика в месяц.

Ключевые технологии: NLP, ASR, TTS и голосовая автоматизация

NLP (Natural Language Processing) — это наиболее продвинутые алгоритмы, благодаря которым система способна понимать человеческий язык. Например, GPT-4 построен на основе трансформеров: он анализирует сразу все слова, а не по очереди. Поэтому он может обрабатывать многоступенчатые запросы и вырабатывать релевантные ответы.

ASR (Automatic Speech Recognition) — звук в текст. Популярные системы: OpenAI Whisper, Google Cloud Speech-to-Text, Yandex SpeechKit. Whisper был обучен на 680 тысячах часах аудио на 97 языках, точность распознавания превышает 90% даже в шуме (OpenAI, 2022).

TTS (Text-To-Speech) — преобразование текста в речь. Новейшие модели (ElevenLabs, Google Cloud TTS, Amazon Polly) воспроизводят человекоподобный голос с интонацией и паузами. Одно из направлений — клонирование голоса по 10-минутной записи — позволяет создавать персонализированных помощников.

Голосовая автоматизация объединяет все компоненты: ASR слушает, NLP принимает решения и TTS отвечает — без участия операторов. Короче говоря, в колл-центрах существует подобный бот, он берёт на себя проблему клиента, находит ответ с помощью GPT, произносит ответ клиенту и сохраняет его в CRM.

Технология Задача Примеры систем Точность / Качество
ASR Распознавание речи Whisper, Google STT, Yandex SpeechKit 90-95% точность
NLP Понимание текста GPT-4, Claude, LLaMA Контекст до 128к токенов
TTS Синтез речи ElevenLabs, Google TTS, Amazon Polly Естественность 4.5/5
Голосовая автоматизация Полный цикл обработки ASCN.AI, n8n + GPT Снижение времени до 70%

В качестве технологического фундамента ASCN.AI применяет инструменты: Whisper — для распознавания, GPT-4 — для генерации ответов, ElevenLabs — для проговаривания результатов. Пользователь в Telegram спрашивает: «Почему подорожал токен XYZ?» — агент собирает информацию, данные с ончейн-нод, изучает Telegram-каналы и формирует голосовой ответ по набору запросов всего за 30 секунд. Вместо 20–30 минут ручного поиска.

Строение ИИ голосового ассистента

Голосовой ассистент состоит из трех модулей, каждый из которых выполняет свою последовательную работу:

  • ASR — принимает на вход аудио (WAV, MP3, Opus), преобразует его в текст, распознавая речь. Предоставляемый Whisper результат имеет точность 92–95% в тишине и около 80–85% в шуме.
  • Следующий модуль — NLP — анализ текста, выделение намерений, извлечение сущностей (даты, величины, названия) и создание ответа. В качестве примера, GPT-4 поддерживает контекст в размере до 128 000 токенов (около 100 000 слов) — можно долго вести диалог.
  • TTS — преобразует текст в аудио с естественностью голоса, интонациями, паузами. ElevenLabs синтезирует фразу из 15–20 слов за 1–2 секунды.

Весь процесс в среднем занимает от 5 до 15 секунд, в зависимости от уровня загрузки API и сложности запроса.

Схема работы следующая:

  1. Говорит пользователь — слушает ASR.
  2. Затем ASR преобразует аудио в текст и отправляет задание в NLP.
  3. NLP генерирует ответ, отсылая его в TTS.
  4. TTS генерирует аудиоответ, отсылая его пользователю.

Запрос «Дай сентимент по Bitcoin за последние 24 часа» обрабатывается за 10 секунд вместо 30–40 минут ручного труда аналитика.

Обзор GPT и его роль в голосовых ботах

GPT (Generative Pre-trained Transformer) — это языковая модель, обученная миллиардам текстов. Она умеет создавать связный текст, понимая контекст запроса.

В голосовых ботах GPT выполняет несколько функций:

  • Поддерживает контекст диалога.
  • Обрабатывает сложные многоступенчатые запросы, разбивая на подзадачи.
  • Интегрируется с экстерными системами через Function Calling или плагины — собирает самые свежие новости, данные ончейн, формирует ясные отчеты.

Примеры:

  • Техподдержка: бот осмысляет вопрос клиента, находит ответ в базе знаний, отвечает голосом, или переводит на оператора, если не сумеет помочь.
  • Аналитика: трейдеры получают через Telegram инсайты по движениям китов на основе ончейн-данных, сформированные GPT и озвученные через TTS.
  • Голосовая CRM: запись совещания преобразуется в структурированный отчет, который автоматически загружается в систему.

Синтез речи TTS для помогающего компьютера

Современные TTS-системы на нейросетях (WaveNet, Tacotron, VITS) производят речь, почти не отличимую от человеческой. Текст подвергается фонемному разбиению, анализируется по интонационным параметрам, и звуковая волна синтезируется.

Платформа Качество Скорость синтеза Языки Стоимость Клонирование голоса
ElevenLabs 4.7/5 1-2 сек на предложение 29 языков $5–99/мес Да, по 10 мин записи
Google Cloud TTS 4.3/5 1–3 сек 40+ $4 за 1 млн символов Нет
Amazon Polly 4.0/5 2–4 сек 30+ $4 за 1 млн символов Нет
Yandex SpeechKit 4.2/5 (русский) 1–2 сек 3 ₽80 за час аудио Нет

Выбор зависит от проекта. Для проекта на русском языке подойдёт Yandex SpeechKit или ElevenLabs. Для мультиязычных задач — Google Cloud TTS или ElevenLabs. Если нужна персонализация голоса — только ElevenLabs с функцией клонирования. На ASCN.AI мы используем ElevenLabs для озвучки аналитических отчетов — с естественной интонацией.

Практическое руководство по созданию своего голосового помощника

Перед тем, как создавать помощник, необходимо закрыть три задачи: распознавание речи (ASR), генерация ответов (NLP) и синтез речи (TTS). Можно использовать отдельно инструменты или готовые стеки.

Базовые варианты:

  • OpenAI: Whisper для ASR (открытый, API $0.006 за минуту), GPT-4 Turbo для NLP (до 128k токенов, $0.01 за 1k входящих и $0.03 за 1k исходящих), OpenAI TTS ($15 за 1M символов). Whisper можно self-host.
  • Google Cloud: Speech-to-Text (ASR, 90–94% точность, $0.016–0.06 за минуту), Dialogflow CX для NLP ($0.007 за запрос), Text-to-Speech ($4 — 16 за 1 млн символов).
  • Yandex SpeechKit: точность 92–95% для русского, ₽80 за час аудио, интеграция с Yandex GPT (бета), естественный русский голос.

Рекомендации к этой задаче следующие:

  • В случае ограниченного бюджета: проект на русском + Yandex SpeechKit (ASR + TTS) + OpenAI GPT-4 (NLP).
  • В случае необходимости мультиязычных решений: Google Cloud.
  • В случае требований к премиум качеству и избыточной гибкости: Whisper self-hosted + GPT-4 + ElevenLabs.

В случае ASCN.AI среднее время обработки запроса 10 секунд, стоимость примерно $0.05 — 0.08 на вопрос.

Интеграция GPT с системами синтеза и распознавания речи

Процесс может быть оформлен пайплайном: аудио → ASR → текст → GPT → ответ → TTS → аудио → пользователь.

Простой пример на Python с API от OpenAI:

import openai

openai.api_key = "YOUR_API_KEY"

# Распознавание речи
audio_file = open("user_voice.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)
user_text = transcript["text"]

# Создание ответа
response = openai.ChatCompletion.create(
    model="gpt-4-turbo",
    messages=[
        {"role": "system", "content": "Ты голосовой помощник."},
        {"role": "user", "content": user_text}
    ]
)
assistant_text = response["choices"][0]["message"]["content"]

# Синтез речи
tts_response = openai.Audio.create_speech(
    model="tts-1",
    voice="alloy",
    input=assistant_text
)
with open("assistant_voice.mp3", "wb") as f:
    f.write(tts_response["audio"])

Для тех, кто программированием не интересуется, есть no-code сервисы, штатные ASCN.AI или n8n — за 20–30 минут готовый workflow из готовых блоков (Telegram, Whisper ASR, GPT-4, ElevenLabs TTS) можно собрать без единой строчки кода. Итак, все что нам нужно — это написать немного кода для Telegram бота, который будет использовать возможности GPT. Прежде всего нам необходимо создать самого бота используя @BotFather, а потом установить библиотеки:

pip install python-telegram-bot openai elevenlabs

Мой минимальный код:

import openai
from telegram import Update
from telegram.ext import Updater, MessageHandler, Filters, CallbackContext
from elevenlabs import generate, set_api_key

openai.api_key = "YOUR_OPENAI_KEY"
set_api_key("YOUR_ELEVENLABS_KEY")
TELEGRAM_TOKEN = "YOUR_TELEGRAM_TOKEN"

def handle_voice(update: Update, context: CallbackContext):
    voice = update.message.voice.get_file()
    voice.download("user_voice.ogg")
    with open("user_voice.ogg", "rb") as audio:
        transcript = openai.Audio.transcribe("whisper-1", audio)
    user_text = transcript["text"]
    response = openai.ChatCompletion.create(
        model="gpt-4-turbo",
        messages=[
            {"role": "system", "content": "Ты аналитик крипторынка. Отвечай кратко."},
            {"role": "user", "content": user_text}
        ]
    )
    assistant_text = response["choices"][0]["message"]["content"]
    audio_data = generate(text=assistant_text, voice="Antoni")
    with open("assistant_voice.mp3", "wb") as f:
        f.write(audio_data)
    update.message.reply_voice(voice=open("assistant_voice.mp3", "rb"))

updater = Updater(TELEGRAM_TOKEN)
updater.dispatcher.add_handler(MessageHandler(Filters.voice, handle_voice))
updater.start_polling()
updater.idle()

Каждый запрос обрабатывается за 10–15 секунд — вместо того, чтобы часами искать что-то, трейдеры просто спрашивают и получают ответ.

Голосовая автоматизация бизнес-процессов — кейсы и примеры

Голосовая автоматизация уже трансформирует рутину — автоматизируя до 70% повторяющихся задач.

Кейс 1: Автоматизация поддержки

IT-компания принимала до пятисот звонков в день, из которых 60% — однотипные вопросы. Голосовой бот на базе GPT, Whisper и ElevenLabs позволил сократить среднее время обработки обращения с 5 до 1 минуты, снизил нагрузку на операторов на 65% и сэкономил 120 часов в месяц.

Кейс номер два: Голосовой аналитик для трейдеров (ASCN.AI)

Трейдеры тратят на анализ новостей и ончейн-данные 30-60 минут в день. Наш голосовой агент в Telegram собирает и озвучивает саммари по токенам за 30 секунд. Экономия до 40 часов в месяц на аналитике. Усредненные значения, которые клиенты отмечают по результатам проведенных внедрений — прибыльность возросла на 15-20%.

Подробнее о кейсе ASCN.AI на падении Falcon Finance

Кейс 3: Автоматизация приема заказов в ресторане

Сеть ресторанов имела около 200 звонков в сутки. Применение голосового бота, реализованного с использованием Yandex SpeechKit и GPT-4, не потребовало вмешательства человека в 90% звонков, сократило потери заказов с 15% до 2% и увеличило выручку на 8%.

Инвестиции окупаются за 2–6 месяцев — особенно заметно в поддержке клиентов, торговле, аналитике и HR.

Пункты, на которые стоит обратить внимание и замечания по поводу их реализации

  • Дадим помощнику четкие указания через системный промпт: кто он и каков стиль его ответа на выходе.
  • В памяти храните не больше 10–15 последних сообщений — так цена запросов снижается, а качество сохраняется.
  • Делайте обработку ошибок распознавания: просите проверить и уточнять непонятное «что это за» слово.
  • Добавляйте fallback-сценарии — если помощнику неясно, пусть переспрашивает.
  • Разбивайте длинные ответы на короткие фразы, удобные для восприятия на слух.

В ASCN.AI сессия может состоять до 20 сообщений — поддерживается связный контекст в диалоге.

Безопасность и конфиденциальность голосовых данных

  • Отправлять данные необходимо исключительно по защищенному протоколу HTTPS.
  • Аудиофайлы должны удаляться сразу после обработки или не позднее чем через 24 часа.
  • Логи моделирования следует анонимизировать, исключив из них личную информацию.
  • Ключи API должны храниться в недоступных извне местах, не быть выложены в публичный код.
  • Поддерживайте требования GDPR и российского закона о персональных данных. Получайте согласие пользователей на обработку персональных данных, обеспечивайте возможность их удаления и прочее. Для финансовых и медицинских проектов предпочтительны on-premise решения.

Мониторьте и оптимизируйте производительность

  • Логируйте время на каждом этапе: ASR, NLP, TTS.
  • Следите, чтобы уровень ошибок API не превышал 1%.
  • Анализируйте точность распознавания речи по отзывам и логам.
  • Оптимизируйте расходы API: улучшайте промпты, сокращайте ответы.
  • Кешируйте популярные ответы — это снизит нагрузку на GPT до 50%.
  • Используйте асинхронную обработку — это сократит время ответа при параллельных запросах.
  • Сохраняйте аудиофайл на CDN для его быстрой доставки.

В ASCN.AI цена запроса около $0.06; обработка идет 10 секунд. Оптимизация промптов позволила сэкономить на четверть бюджета без ущерба качеству.

Часто задаваемые вопросы (FAQ)

Сколько времени занимает создание голосового помощника?

Для разработки базового прототипа на API OpenAI достаточно всего 2–4х часов. А на продакшен версию с интеграцией, логированием и безопасностью уходит 1–2 недели. На no-code платформах (ASCN.AI, n8n) запустить можно за 1–2 дня, без всякого программирования.

Нужны ли навыки программирования?

Для no-code решений — нет. Для сложных сценариев и кастомных интеграций базовые знания Python будут полезны. Впрочем, no-code конструкторы позволяют собрать мощного помощника визуально, без кода.

Какие ограничения есть у голосового ИИ?

ASR теряет точность в шуме — до 70–80%, в тишине показатель достигает 95%. GPT иногда генерирует неточные ответы — так называемые галлюцинации. TTS не всегда отлично передает сложную интонацию. Есть еще лимиты запросов и возможные задержки при нагрузке API.

Как защитить данные от утечки?

Используйте HTTPS, удаляйте аудио после обработки, анонимизируйте логи, храните ключи в безопасности, соблюдайте законы о персональных данных, применяйте on-premise системы для особо чувствительной информации.

Дисклеймер

Информация в статье носит общий характер и не заменяет инвестиционных, юридических или консультаций по безопасности. Использование AI помощников требует осознанного подхода и понимания функций конкретных платформ.

Получите готовые автоматизации уже сейчас
За сегодня было запущено около 149 готовых автоматизаций из нашего маркетплейса готовых автоматизаций. 100+ решений, которые были собраны и настроены и готовы к использованию. Получите доступ к таким автоматизациям как: Контент-заводы, Премиум чат-боты, Автоматизированные воронки-продаж, генератор SEO-статей и тд с помощью подписки на ASCN.AI
Попробовать бесплатно
ГлавнаяNo code блог
Как создать ИИ голосового помощника: собираем с нуля на GPT и TTS
Оставаясь с нами, вы соглашаетесь на использование файлов куки.