Наш сервис на базе нейросети Whisper (OpenAI) и сверхбыстрых чипов Groq — это идеальное решение для тех, кто ценит время. Бот в Telegram автоматически перехватывает аудио, распознает речь на 97 языках (включая русский) с точностью до 96% и выдает готовый текст с расставленными знаками препинания. Больше не нужно тратить часы на прослушивание рабочих планерок, лекций или интервью. Мы обеспечиваем полную конфиденциальность: данные обрабатываются в облаке и удаляются через 5 минут. Ускорьте работу с информацией в 20 раз и интегрируйте транскрипты в свои рабочие процессы (Google Docs, Notion, CRM) прямо из чата.
Если одним словом, транскрипция — это не что иное, как перевод аудиозаписи в текст. Легко? Вроде бы! Но на деле там под капотом — масса хитростей. Микрофон улавливает звук, алгоритмы разрезают его на маленькие кусочки, машина угадывает фонемы, собирает слова и проверяет, как они звучат в контексте. У нас получается текст, который можно искать, редактировать и анализировать. Когда-то все правила писались вручную, как будто каждый час работы расписывали по шагам. Теперь нейросети сами научаются на миллионах часов аудио и выискивают шаблоны без всякой мороки. Это как бы сравнить ручную сборку часов с заводским производством — всё гораздо быстрее и проще.
В двух словах три принципиальных шага:
Whisper от OpenAI — это настоящая многозадачная машина, обученная на огромном количестве записей — 680 тысячах часов! Она не просто ловит слова в полёте, она ставит ещё знаки препинания и учитывает контекст. А Groq ускоряет работу модели примерно в 8–10 раз за счёт своего чудо-чипа LPU, который обрабатывает данные параллельно, а не поочерёдно, как обычные процессоры.
А кстати! По свежим слухам, что к нам донесли из OpenAI (2023) точность Whisper составляет около 96% на английском и до 94% на русском, что в чистом аудио. Ну конечно, если шумы присутствуют — точность подкашивается немного, где-то 5–8% — но даже такой старый конь как Whisper опережает всех своих конкурентов типа Google и Azure.
Telegram сохраняет свои голосовые сообщения в формате OGG Opus — это сжатый аудиоформат с низким битрейтом 16–32 кбит/с. Для уха слушателя качество нормальное, а вот для систем распознавания — большой вызов — точность падает до 15% из-за всяческих искажений. Но Whisper училась именно по такому шершавому, сжатому звуку (OpenAI, 2023), поэтому она умеет делать это лучше многих. Groq ещё добавляет свои «шапки»: нормализация громкости, шумоподавление и подъём слабых мест.
В итоге при обработке этого формата точность падает всего на 2–3% по сравнению с WAV.
Работа с файлами ведётся через Telegram API: бот скачивает OGG по уникальному file_id, по необходимости конвертирует в WAV, отправляет на Groq, а потом выводит текст в чат. Причём здесь всё это занимает, ни больше ни меньше — 8–12 секунд на минутный файл, и никаких регистраций не надо.
Область применения транскрипции — можно сказать, разносторонняя:
Для бизнеса — это суперудобно. Пример, менеджер компании из 50 человек тратит по 6 часов в неделю на совещания, а треть информативной части просто улетучивается (пишу «улетучивается» — хотя на самом деле значит не попадает в записи). Воистину, транскрипция даёт возможность хранить и перебирать записи, анализировать обсуждения, автоматически заводить задачи в CRM. Исследования McKinsey даже указывают на то, что такие технологии могут повысить выручку на 12–18%.
В образовании транскрипты делают лекции и семинары удобнее: по Эббингаузу студенты за неделю забывают почти 90% материала, а текстовые записи помогают быстро найти нужный момент и повторить — по смелым оценкам, это удваивает или утраивает эффективность учёбы.
Для себя любимого — кто не любит поймать идею прямо на ходу и тут же надиктовать её, пока не улетела? Накричал — и она уже через минуту в Google Docs, Trello или Notion. Кстати, журналисты и тут на ярком примере экономят целых 40%, диктуют черновики вместо того, чтобы печатать.
Telegram — платформа, дружелюбная к разработчикам с открытым API: любой желающий может создать бота через @BotFather и заняться настоящим делом — и бог с ним с клиентом. Здесь, кстати, существенно радует в отличие от WhatsApp или Viber, где возможностей API явно не хватает.
Боты в Telegram могут работать двумя способами: периодически опрашивая сервер (polling) или получая автоматические уведомления о новых событиях (webhook). Мы выбрали второй путь — и благодаря этому все голосовые сообщения сразу летят в очередь Redis, где их подбирает воркер и отправляет в Groq.
Telegram API ещё и умеет хорошо оформлять сообщения: поддерживает Markdown, HTML-кнопки и даже inline-клавиатуры. Запись текста завершена, нажимаем на выложенные ботом кнопки «Скопировать в буфер», «Отправить на e-mail» и «Сохранить в Google Docs» прямо в чате — никаких гимнастик с копипастой, просто супер.
Когда отправляем голосовое — бот достаёт нужные метаданные, падает за аудио, при необходимости конвертирует и отсылает на Groq API с параметрами по модели, языку и формату. Получив текст, тут же отвечает в чат. Когда за минуту обработки берётся около 6 секунд: 2 на скачивание, 3 на распознавание и 1 на передачу результата, то в случае файла длиннее 5 минут система просит пользователя не волноваться, запуская индикатор «печатает...».
Вдобавок, если всё же всё идёт не так, система сама пытается переслать запрос. Если аудиозапись вышла никудышной! Бот просит записать снова!
Кроссплатформенность: работает на всех — iOS, Android, Windows, macOS, Linux и Web, с синхронизацией в реальном времени. Никаких границ по времени: голосовые до 2 часов могут быть, а вот в иных мессенджерах резкие ограничения порой в пару минут. Приватность в нарочито секретных беседах — сквозное шифрование, в обычных — серверное. При этом мы не храним аудио. Мы его загружаем, обрабатываем, потом удаляем. API без установленных лимитов. Telegram не ограничивает активность ботов. Telegram и не берёт деньги за сообщения. На одном боте можно обрабатывать до 5000 запросов в час.
Groq — это спецжелезо с чипом LPU, созданным для нейросетей. И в отличие от GPU, который жонглирует задачами, LPU гоняет их как шайбу — последовательно, но оочень быстро.
Так что сам чип Groq TSP — это 230 млн транзисторов, работающие на 750 МГц и способные делать 188 триллионов операций в секунду (TOPS). Для сравнения вот так, у NVIDIA A100 целых 312 TOPS, но и цена там совсем другая. Groq тоже радует, задержка от 18 до 22, отлично, если у вас приложение в реальном времени.
Публичный API Groq появился в феврале 2024 года и за полгода через него прошло 2 миллиарда токенов. Скорость порождения текста — 300–500 токенов в секунду, что в 10–15 раз быстрее OpenAI GPT-4. А 1 минуту аудио Groq Whisper обрабатывает в среднем за 2,8 секунды — это да в 4 быстрее GPU и аж в 20 раз быстрее обычного CPU.
Whisper — это трансформер с энкодером и декодером, обучившийся на 680 000 часах записи на разных языках, включая 117 000 часов неанглийской. В целом поддерживаются 97 языков, среди которых русский, украинский и казахский. Версия large-v3 заточена конкретно под работу со сложными шумами и акцентами — там не просто литература пишется, а литература настраиваемая.
Что крутого здесь:
Запись, которую простая Whisper на Intel i9 обрабатывает за 45–60 секунд, на топовом NVIDIA RTX 4090 уже за 8–12 секунд, а на Groq LPU — всего 2,8 секунды. Пользователь получает результат почти в тот же миг, прям в тот же миг, с учётом закачки и отсылки результат получается всего лишь за 6–10 секунд! Если обрабатывать по 100 записей каждый день — экономия времени выходит ощутимая! Выходит в общей сложности несколько часов! Выходит — полтора часа! К тому же действительно работает батчинг — за раз мы можем загрузить не одну ложку, а целых десять черпаков, что замечательно ускоряет обработку крупных архивов — получаем 200 записей мы за 15 минут вместо двух часов.
| Параметр | Groq Whisper | OpenAI Whisper API | Google Speech-to-Text | Azure Cognitive Services |
|---|---|---|---|---|
| Скорость (60 сек) | 2,8 сек | 12 сек | 8 сек | 10 сек |
| Точность (русский, без помех) | 94% | 94% | 89% | 87% |
| Точность (с помехами) | 89% | 88% | 81% | 79% |
| Поддержка языков | 97 | 97 | 125 | 90 |
| Цена за час аудио | $0.15 | $0.36 | $0.024 (например, первые 60 мин бесплатно) | $1 |
| Латентность (время до первого токена) | 0,3 сек | 1,2 сек | 0,8 сек | 1,5 сек |
| Батчинг | Да | Нет | Да | Да |
Сравнивая: Google — дешевле, но, чтобы с ним работать надо наладить OAuth и замороченные Google Cloud, так что на разовые задачи это сложно. Azure — самый дорогой и медленный. API OpenAI Whisper хорош и точен, однако он и дорог, и медлен. У Groq другая ситуация: он и быстрее, и дешевле.
Работает бот @YourTranscriptionBot (не забудьте поменять название на своё!) — вловил голосовухи в Телеге — отправил на Groq Whisper — вернул готовый текст обратно, без отдельных гимнастик и регистрации — всё на автомате, оно само.
Отправка аудио из телеги проходит так:
Анонимность гарантируем: храним данные 5 минут, персональную информацию не собираем. Вот тот случай, когда предпринятые меры — не панацея от всех бед. Если файл ваш больше 20 МБ — тут мне вам ничем не помочь. Разделите его и сожмите, как в обычае. Если вы корпоративный клиент — на то у нас есть отдельный сервер с прямым доступом к CDN Telegram.
| Длительность | Время обработки | Точность |
|---|---|---|
| 0–30 сек | 4 сек | 96% |
| 30–60 сек | 6 сек | 95% |
| 60–180 сек | 12 сек | 94% |
| 180–300 сек | 20 сек | 93% |
Показатели зависят от нескольких факторов: качества микрофона (встроенный — 92–94%, гарнитура — 96–98%), акцентов (носители — 95%, сильные — 88–90%), уровень шума (в комнате — 96%, на улице — 89%, в метро — 82%) и скорость речи (120–150 слов в минуту — 95%, больше 200 — около 88%).
Формат JSON с временными метками слов — это весьма удобно, знаете ли, когда нужно сделать субтитры или какую-либо поиск самого позволительного и доступного. SRT — проще говоря, это формат для видео-субтитров. Экспорт в Google Docs, Notion, Trello через OAuth — это налево и направо, можете не смущаться, дело в том, что каждый раз запрашивать авторизацию не возникает особой необходимости — подписочку можете получить один раз, а дальше во всём автомат, как мы на чай можем дотянуться.
Обратите внимание — есть демонстрационное видео, оно прикреплено в чате с ботом.
Groq — это скорость. Минутное аудио всего за 2,8 секунды. Это в 21 раз быстрее самой длинной записи. Если бы всё делалось вручную, ушло бы минимум 3–4 минуты, со средней скоростью печати. С Groq справляюсь быстро.
Точность на русском, без шумов — порядка 94%. Ошибки будут, чаще с именами, сленгом и узкопрофессиональной терминологией. Для повышения качества подтянули словарь — добавили 5000 терминов из крипты, маркетинга и айти — теперь точность 96%.
Вот каким образом мы это вертим и крутим:
Groq хранит данные не дольше 30 дней, потом стирает навсегда. Все тексты остаются только у пользователя — в Telegram и по выбранным им сервисам. Для компаний мы предлагаем on-premise решения с полной изоляцией данных и NDA, т.е. не поставляем текст третьим лицам и не используем его самим.
Цена: первые 60 минут в месяц — бесплатно, далее $0.15 за час. Есть безлимитный тариф — $9.99 в месяц.
Поддерживаемые языки: 97 языков — полный список в документации Whisper. Форматы файлов не в Telegram: да, поддерживаем MP3, WAV, M4A, OGG, FLAC, WebM до 20 mb.
Работа в группах: бот работает хоть в администраторах, хоть в упоминаниях.
Бот не отвечает: проверьте интернет и пишите в поддержку @SupportBot. Если ошибки распознавания не убираются — аудио, скорее всего, испорчено: повторная запись или конвертация в другой формат даст лучший результат.
А вот API для интеграции — $0.15 в час плюс $50 в месяц — тарифы фиксированные. Подробная документация приведена там же. Дозы запросов: бесплатный тариф до 60 минут в месяц, платный — без ограничений с лимитом в 100 запросов в минуту.
Данные обрабатываются, а потом удаляются автоматически через 5 минут. И только сам Telegram хранит историю. Мы и партнёры не отступим от предписаний GDPR (Groq Privacy Policy, Telegram Privacy, 2023).
