

Голосовые помощники развиваются с поразительной скоростью. Компании, которые раньше занимали несколько месяцев на поиск и обучение операторов, теперь на выходных разворачивают бота. Такие решения экономят тысячи часов рутинной работы. Мы сами через это прошли — и индексировали блокчейн-ноды, и автоматизировали криптоарбитраж, и целую экосистему продуктов собрали, которые почти без программистов работают. А сейчас готов рассказать, как можно собрать своего голосового помощника с нуля: какие технологии брать, как не разориться и реально сэкономить время.
«Мы два года индексовали ноды и разрабатывали сентимент-модели, чтобы отвечать не по веб-поиску, а по реалтайм-данным блокчейна. GPT и прочие LLM модели напрямую с блокчейном не работают, поэтому уникальны в криптоаналитике.»
Голосовой помощник — это такая программа, которая слушает вас, понимает через NLP, распознает речь через ASR и отвечает голосом через TTS. Осуществляет функции — от простых напоминалок до сложной аналитики.
Голосовой бот — это специализированная версия. Заточена она лишь под конкретную задачу: либо прием заказов, либо техподдержка, либо бронирование. Работает по скриптам или их комбинированным с NLP.
Разница простая. Помощник, являющийся сотрудником банка, способен, как это ни странно, ответить на множество запросов: проверь баланс, переведи деньги, проконсультируй по кредиту. Бот того же банка — только кредитные заявки принимает. И всё.

В ASCN.AI наши голосовые агенты автоматизируют парсинг новостей, анализ токенов, генерацию отчетов. Клиент задает вопрос голосом через Telegram — агент извлекает данные с ончейн-нод, новостных агрегаторов, соцсетей, через 10 секунд выдает на выходе структурированный ответ. Экономия до 40 человеко-часов ручного труда для аналитика в месяц.
NLP (Natural Language Processing) — это наиболее продвинутые алгоритмы, благодаря которым система способна понимать человеческий язык. Например, GPT-4 построен на основе трансформеров: он анализирует сразу все слова, а не по очереди. Поэтому он может обрабатывать многоступенчатые запросы и вырабатывать релевантные ответы.
ASR (Automatic Speech Recognition) — звук в текст. Популярные системы: OpenAI Whisper, Google Cloud Speech-to-Text, Yandex SpeechKit. Whisper был обучен на 680 тысячах часах аудио на 97 языках, точность распознавания превышает 90% даже в шуме (OpenAI, 2022).
TTS (Text-To-Speech) — преобразование текста в речь. Новейшие модели (ElevenLabs, Google Cloud TTS, Amazon Polly) воспроизводят человекоподобный голос с интонацией и паузами. Одно из направлений — клонирование голоса по 10-минутной записи — позволяет создавать персонализированных помощников.
Голосовая автоматизация объединяет все компоненты: ASR слушает, NLP принимает решения и TTS отвечает — без участия операторов. Короче говоря, в колл-центрах существует подобный бот, он берёт на себя проблему клиента, находит ответ с помощью GPT, произносит ответ клиенту и сохраняет его в CRM.
| Технология | Задача | Примеры систем | Точность / Качество |
|---|---|---|---|
| ASR | Распознавание речи | Whisper, Google STT, Yandex SpeechKit | 90-95% точность |
| NLP | Понимание текста | GPT-4, Claude, LLaMA | Контекст до 128к токенов |
| TTS | Синтез речи | ElevenLabs, Google TTS, Amazon Polly | Естественность 4.5/5 |
| Голосовая автоматизация | Полный цикл обработки | ASCN.AI, n8n + GPT | Снижение времени до 70% |
В качестве технологического фундамента ASCN.AI применяет инструменты: Whisper — для распознавания, GPT-4 — для генерации ответов, ElevenLabs — для проговаривания результатов. Пользователь в Telegram спрашивает: «Почему подорожал токен XYZ?» — агент собирает информацию, данные с ончейн-нод, изучает Telegram-каналы и формирует голосовой ответ по набору запросов всего за 30 секунд. Вместо 20–30 минут ручного поиска.
Голосовой ассистент состоит из трех модулей, каждый из которых выполняет свою последовательную работу:
Весь процесс в среднем занимает от 5 до 15 секунд, в зависимости от уровня загрузки API и сложности запроса.
Схема работы следующая:
Запрос «Дай сентимент по Bitcoin за последние 24 часа» обрабатывается за 10 секунд вместо 30–40 минут ручного труда аналитика.
GPT (Generative Pre-trained Transformer) — это языковая модель, обученная миллиардам текстов. Она умеет создавать связный текст, понимая контекст запроса.
В голосовых ботах GPT выполняет несколько функций:
Примеры:
Современные TTS-системы на нейросетях (WaveNet, Tacotron, VITS) производят речь, почти не отличимую от человеческой. Текст подвергается фонемному разбиению, анализируется по интонационным параметрам, и звуковая волна синтезируется.
| Платформа | Качество | Скорость синтеза | Языки | Стоимость | Клонирование голоса |
|---|---|---|---|---|---|
| ElevenLabs | 4.7/5 | 1-2 сек на предложение | 29 языков | $5–99/мес | Да, по 10 мин записи |
| Google Cloud TTS | 4.3/5 | 1–3 сек | 40+ | $4 за 1 млн символов | Нет |
| Amazon Polly | 4.0/5 | 2–4 сек | 30+ | $4 за 1 млн символов | Нет |
| Yandex SpeechKit | 4.2/5 (русский) | 1–2 сек | 3 | ₽80 за час аудио | Нет |
Выбор зависит от проекта. Для проекта на русском языке подойдёт Yandex SpeechKit или ElevenLabs. Для мультиязычных задач — Google Cloud TTS или ElevenLabs. Если нужна персонализация голоса — только ElevenLabs с функцией клонирования. На ASCN.AI мы используем ElevenLabs для озвучки аналитических отчетов — с естественной интонацией.
Перед тем, как создавать помощник, необходимо закрыть три задачи: распознавание речи (ASR), генерация ответов (NLP) и синтез речи (TTS). Можно использовать отдельно инструменты или готовые стеки.
Базовые варианты:
Рекомендации к этой задаче следующие:
В случае ASCN.AI среднее время обработки запроса 10 секунд, стоимость примерно $0.05 — 0.08 на вопрос.
Процесс может быть оформлен пайплайном: аудио → ASR → текст → GPT → ответ → TTS → аудио → пользователь.
Простой пример на Python с API от OpenAI:
import openai
openai.api_key = "YOUR_API_KEY"
# Распознавание речи
audio_file = open("user_voice.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)
user_text = transcript["text"]
# Создание ответа
response = openai.ChatCompletion.create(
model="gpt-4-turbo",
messages=[
{"role": "system", "content": "Ты голосовой помощник."},
{"role": "user", "content": user_text}
]
)
assistant_text = response["choices"][0]["message"]["content"]
# Синтез речи
tts_response = openai.Audio.create_speech(
model="tts-1",
voice="alloy",
input=assistant_text
)
with open("assistant_voice.mp3", "wb") as f:
f.write(tts_response["audio"])
Для тех, кто программированием не интересуется, есть no-code сервисы, штатные ASCN.AI или n8n — за 20–30 минут готовый workflow из готовых блоков (Telegram, Whisper ASR, GPT-4, ElevenLabs TTS) можно собрать без единой строчки кода. Итак, все что нам нужно — это написать немного кода для Telegram бота, который будет использовать возможности GPT. Прежде всего нам необходимо создать самого бота используя @BotFather, а потом установить библиотеки:
pip install python-telegram-bot openai elevenlabs
Мой минимальный код:
import openai
from telegram import Update
from telegram.ext import Updater, MessageHandler, Filters, CallbackContext
from elevenlabs import generate, set_api_key
openai.api_key = "YOUR_OPENAI_KEY"
set_api_key("YOUR_ELEVENLABS_KEY")
TELEGRAM_TOKEN = "YOUR_TELEGRAM_TOKEN"
def handle_voice(update: Update, context: CallbackContext):
voice = update.message.voice.get_file()
voice.download("user_voice.ogg")
with open("user_voice.ogg", "rb") as audio:
transcript = openai.Audio.transcribe("whisper-1", audio)
user_text = transcript["text"]
response = openai.ChatCompletion.create(
model="gpt-4-turbo",
messages=[
{"role": "system", "content": "Ты аналитик крипторынка. Отвечай кратко."},
{"role": "user", "content": user_text}
]
)
assistant_text = response["choices"][0]["message"]["content"]
audio_data = generate(text=assistant_text, voice="Antoni")
with open("assistant_voice.mp3", "wb") as f:
f.write(audio_data)
update.message.reply_voice(voice=open("assistant_voice.mp3", "rb"))
updater = Updater(TELEGRAM_TOKEN)
updater.dispatcher.add_handler(MessageHandler(Filters.voice, handle_voice))
updater.start_polling()
updater.idle()
Каждый запрос обрабатывается за 10–15 секунд — вместо того, чтобы часами искать что-то, трейдеры просто спрашивают и получают ответ.
Голосовая автоматизация уже трансформирует рутину — автоматизируя до 70% повторяющихся задач.
IT-компания принимала до пятисот звонков в день, из которых 60% — однотипные вопросы. Голосовой бот на базе GPT, Whisper и ElevenLabs позволил сократить среднее время обработки обращения с 5 до 1 минуты, снизил нагрузку на операторов на 65% и сэкономил 120 часов в месяц.
Трейдеры тратят на анализ новостей и ончейн-данные 30-60 минут в день. Наш голосовой агент в Telegram собирает и озвучивает саммари по токенам за 30 секунд. Экономия до 40 часов в месяц на аналитике. Усредненные значения, которые клиенты отмечают по результатам проведенных внедрений — прибыльность возросла на 15-20%.
Подробнее о кейсе ASCN.AI на падении Falcon Finance
Сеть ресторанов имела около 200 звонков в сутки. Применение голосового бота, реализованного с использованием Yandex SpeechKit и GPT-4, не потребовало вмешательства человека в 90% звонков, сократило потери заказов с 15% до 2% и увеличило выручку на 8%.
Инвестиции окупаются за 2–6 месяцев — особенно заметно в поддержке клиентов, торговле, аналитике и HR.
В ASCN.AI сессия может состоять до 20 сообщений — поддерживается связный контекст в диалоге.
В ASCN.AI цена запроса около $0.06; обработка идет 10 секунд. Оптимизация промптов позволила сэкономить на четверть бюджета без ущерба качеству.
Для разработки базового прототипа на API OpenAI достаточно всего 2–4х часов. А на продакшен версию с интеграцией, логированием и безопасностью уходит 1–2 недели. На no-code платформах (ASCN.AI, n8n) запустить можно за 1–2 дня, без всякого программирования.
Для no-code решений — нет. Для сложных сценариев и кастомных интеграций базовые знания Python будут полезны. Впрочем, no-code конструкторы позволяют собрать мощного помощника визуально, без кода.
ASR теряет точность в шуме — до 70–80%, в тишине показатель достигает 95%. GPT иногда генерирует неточные ответы — так называемые галлюцинации. TTS не всегда отлично передает сложную интонацию. Есть еще лимиты запросов и возможные задержки при нагрузке API.
Используйте HTTPS, удаляйте аудио после обработки, анонимизируйте логи, храните ключи в безопасности, соблюдайте законы о персональных данных, применяйте on-premise системы для особо чувствительной информации.
Информация в статье носит общий характер и не заменяет инвестиционных, юридических или консультаций по безопасности. Использование AI помощников требует осознанного подхода и понимания функций конкретных платформ.