Бесплатные нейросети для перевода голоса в текст на мобильном и ПК

Собрали несколько бесплатных сервисов, позволяющих осуществлять транскрибацию – перевод аудио в текстовый формат. Причем, как на лету, то есть непосредственно в процессе начитки текста, так и из аудиофайла.

*https://www.youtube.com/watch?v=xuDL4iFzBYs
**https://300.ya.ru/summary

таймкоды

00:00:03 Введение

  • Упоминание OpenAI и Платинума в Open AI.

00:00:12 Переход в Google Docs

  • Автор перешёл в Google Docs.

00:01:03 Работа с файлами

  • Обсуждение работы с файлами на Android и iPhone в Google Docs, Google Keep и Google Text.
  • Упоминание аудиофайлов в Swift K и Microsoft.

00:02:18 Диктофон и Telegram-боты

  • Использование диктофона для записи текста.
  • Аудиофайлы на GitHub и в открытом доступе.
  • Telegram-боты Transkri, Karrots и Silk.

00:03:40 Таймкод

  • Упоминание таймкода.

00:03:54 Сервисы OpenAI

  • Платинам в OpenAI, сервис Whisper OpenAI, GPT-3.
  • Сервисы для татуировок и билатеральные текстовые файлы VTT SRT.

00:05:15 Завершение

  • Остановка воспроизведения.

Расшифровка видео

0:00
Постарался собрать все бесплатные решения для перевода голоса в текст в одном видео,
0:04
плюс одно платное – от OpenAI.
0:10
Ну, точнее не все. Я думаю, их много, а те, которыми пользовался или пользуюсь сам.
0:15
Начнем с перевод голоса в текст на лету и первое, самое простое и, кстати, абсолютно
0:22
рабочее решение – это голосовой ввод в Google Doc. Тут работает бесплатная нейронка от Гугла,
0:29
которая отлично распознает голос. Голосовой ввод. Нажали – говорите. Нажали, не говорите. Когда
0:36
подобных решений еще не было в открытом доступе, я вешал на микрофон наушники, запускал звук и он мне
0:43
бесплатно расшифровывал диктофонные записи. Вполне неплохо получалось. К слову сказать,
0:48
если микрофон не работает, вот здесь его настройки. Возможно у вас выбран какой-то не
0:53
тот микрофон, если их несколько в системе. Здесь же, кстати, список сайтов, у которых есть доступ
0:58
к микрофону. Теперь про распознавание на лету на мобильном. Покажу под Android, но по-меньшей мере
1:05
Google работает и под iPhone. Как ни странно, распознавания голоса в Google Docs в мобильном
1:11
нет. Но зато тут есть Google Keep, то есть Google заметки. Тут не то, чтобы на виду,
1:16
но и не сильно запрятано. Нажимаете прикрепить и аудиозапись. Опять же нейронка от Google, отдает
1:23
текст и сохраняет и прикрепляет аудиофайл. Если вам нужен только текст, аудиофайл можно удалить.
1:29
Весьма полезное решение, но я, честно говоря, этим не пользуюсь, зато постоянно пользуюсь следующим.
1:36
Клавиатура SwiftKey от Microsoft. Скачивается и устанавливается отдельно. Потом в настройках,
1:42
по-моему ее надо выбрать по-умолчанию. Про нее ходят слухи касаемо безопасности,
1:48
я не особо в это верю. Точнее, совсем не верю, но на своем мнении не настаиваю. Плюс в том,
1:55
что с ее помощью вы можете транскрибировать голос на лету везде. В любом приложении, мессенджере
2:01
и так далее. Ну просто вместо того, чтобы печатать, нажимаете на запятую тире микрофончик
2:07
и держите какое-то время. Собственно включается микрофон и также бесплатная нейросеть от Гугла.
2:13
Начитали текст, все. Отправили сообщение. Теперь перейдем к распознаванию диктофонных записей,
2:20
то есть переводу голоса в текст из аудиофайлов. Я уже не помню, как я узнал про этот сервис,
2:26
но работает он вполне неплохо. Ничего не скажу за безопасность, но то, что все есть на GitHub, то
2:32
есть это Open Source, это безусловный плюс. А еще безусловный плюс то, что у них есть Телеграм-бот
2:38
для транскрибации коротких аудиофайлов. Минус в том, что найти сами сервисы на сайте не так-то
2:45
просто. То есть вот это расшифровка с ограничением в 20 минут, а вот тут есть ссылка на сервис с
2:52
расшифровкой до часа. А в Телеграм есть бот, вот такой… ну ссылки я все оставлю в описании,
2:59
у которого ограничение до… а я не помню. Ну в общем старт. Прошли капчу. Загрузили файл,
3:05
получили текст. Давайте посмотрим, какое тут ограничение-то.. а! 10 минут. Вот. Загрузили файл,
3:13
отправили. Получили текст. С таймкодами. Если текст больше 10-ти минут, то сделали то же самое у
3:21
них на сайте. Нужно указать e-mail. И согласиться с условиями. Все. Пишут, что в течение 30-ти минут
3:30
пришлют. Врут. Присылают сразу же, через минуту. Присылают ссылку на почту. Здесь можно посмотреть,
3:37
чего напереводили. Тоже, кстати, с таймкодами. Вову Ломова не понимают.. ну что это за нейросеть.
3:44
И можно скачать файл. Почему-то excel. Не самое удобное решение. Ну так. Расшифровка
3:51
и таймкоды. И в общем закончить я хотел платным, но очень дешевым сервисом от OpenAI под названием
3:59
Whisper. OpenAI к слову сделали ChatGPT и вообще они сейчас самые передовые по нейросетям. Вот,
4:07
кстати, расценки у них, имейте это в виду, если пользуетесь какими-то платными сервисами. Они,
4:13
почти точно, нейронку от Open AI и используют и тут это стоит 6 центов 10 минут. Сравните цены,
4:21
что называется. Но в процессе поисков наткнулся я на Whisper, выложеный разработчиками в открытый
4:28
доступ, который после небольших танцев с бубнами выглядит вот так: в командной строке вводите
4:34
волшебное слово Whisper, указываете имя файла и получаете не просто бесплатно текст в виде TXT,
4:42
но и кучу разных форматов текста с таймкодами, включая, например, SRT, то есть готовые субтитры.
4:49
И все это абсолютно бесплатно и на вашей локальной машине. Поэтому в следующем видео,
4:55
которое я советую не пропустить, я расскажу, как установить Whisper на свой компьютер и получить
5:01
навсегда бесплатный расшифровщик аудиофайлов. Когда я был молод и совсем не было денег,
5:08
я подрабатывал расшифровщиком на телевидении. Причем расшифровывал с кассетного магнитофона
5:14
– Stop, Play, перемотка. Славное было время. Даже не верится.

Поделиться: