Как озвучить книгу с помощью нейросети: Генерация аудио и видео за 5 минут!

Оценили: 53

В этом видео я покажу вам, как легко озвучить книгу с помощью нейросети и за 5 минут создать аудио и видео из текста! Мы установим программу TTS на ПК, пройдем все этапы: от скачивания и распаковки архива до первого запуска и обзора интерфейса. На примере книги «Ведьмак» мы сгенерируем аудио с использованием трёх разных голосов (два мужских и один женский). Кроме того, я продемонстрирую, как сгенерировать изображения с помощью нейросети, оживить их и превратить в полноценное видео. В результате, вы сможете легко и быстро озвучивать любые материалы и создавать видео с озвучкой, не имея глубоких технических знаний. К концу этого видео вы научитесь:

Устанавливать программу для озвучки текста с помощью нейросети;
Настраивать TTS и генерировать аудио;
Создавать изображения и видео для вашего контента.

Это идеальный способ озвучивать книги, статьи или новости буквально за несколько минут! Подпишитесь, чтобы узнать все секреты нейросетей и автоматической генерации аудио и видео.

Расшифровка видео

Поиск по видео
Введение. Озвучивание с помощью нейросетей.
0:00
Всем большой привет на связи Евгений
0:02
Карташов и Мы с вами уже научились
0:03
создавать разные видео по текстовому
0:05
описанию создавать маленькие фильмы и
0:08
мне пришёл вопрос Евгения подскажите а
0:10
можно ли Вот взять и то что мы с вами
0:11
показываем как-то озвучить Есть ли
0:13
какие-то нейросети которые позволяют
0:15
читать книги читать статьи читать
0:16
какие-то новости сообщения так чтобы это
0:18
было тоже бесплатно всё это работало на
0:20
нашем компьютере а не где-то там в
0:23
онлайне и за это ещё надо было платить
0:25
так вот А в этом ролике я вам покажу
0:27
одну программу очень простую Большое
0:29
спасибо нейрогенного портальную сборку
Нейросеть SileroTTS на базе TTS позволяет это сделать.
0:32
то есть мы сможем это установить на наш
0:33
компьютер и с помощью определённых
0:36
дикторов которые здесь установлены можно
0:38
добавить дополнительно Мы можем с вами
0:40
озвучивать файлы смотрите а все ссылки
0:44
на вот всё что я сейчас показываю на
0:45
рабочем столе То есть то что вы видите
0:46
на экране А всё это будет в Telegram
0:48
канале ссылка будет в описании к нему
0:50
чтобы там всё было в одном месте в одном
0:51
посте то есть мы с вами создавали разные
0:54
видеоролики и я подумал Давайте
0:56
что-нибудь с вами возьмём такое
0:57
известное популярное и я просто взял э
Пример озвучки книги про Ведьмака.
1:00
книгу Ведьмака первую А вот глаз
1:03
рассудка взял Вот этот текст и отправил
1:05
в не росет и попросил её установить
1:06
соответственно я чуть позже покажу как
1:08
это всё устанавливать как это всё
1:10
запускать я вам просто покажу результат
1:12
то есть мы запускаем программку
1:13
загружаем сюда наш текстовый файл
1:15
выбираем диктора После чего мы это всё
1:17
озвучиваем сейчас я нажму на озвучивать
1:19
глаз
1:20
рас один момент глаз рассудка она пришла
1:24
под утро вошла Осторожно тихо бесшумно
1:27
ступая словно плыла по комнате как
1:30
Призрак единственным звуком был Шорох
1:33
накидки скользившие по её телу этот едва
1:36
уловимый звук разбудил Ведьмака вот
1:39
здесь немножечко есть
Особенности озвучки. Установка пауз.
1:41
а расхождение с тем что написано вам не
1:44
показалось Дело в том что А вот этот
1:46
движок получается а TTS А если в нём не
1:50
ставить принудительно паузы
1:51
интонационные он это читает единым
1:54
блоком То есть он просто Читает читает
1:55
читает и это может звучать немножко
1:57
некорректно поэтому я попросил заранее
1:59
CH gpt расставить где необходимы
2:01
определённые паузы чтобы текст звучал
2:03
лучше поэтому есть небольшое расхождение
2:05
но это не принципиально вы потом
2:06
наверное сами с этим Поиграйте А давайте
2:09
Вот мы сейчас всё это с вами установим
2:11
потом я вам объясню что вот эти были за
2:12
изображения что вот это было за видео
2:14
почему оно здесь вообще появилось Почему
2:16
на всё начиналось именно с этого Сейчас
2:18
вы просто установим эту программку вам
2:19
на компьютер чтобы вы могли сами
2:20
озвучивать любые тексты и материалы
2:22
которые вам необходимы сейчас мы
2:24
перейдём к нам в нашу операционную
2:26
систему и из операционной системы
2:28
попробуем всё это дело установить
Скачивание SileroTTS в формате 7z архива
2:30
смотрите А что нам с вами потребуется
2:32
Нам нужно будет скачать а ссылку то есть
2:35
вот эту самую версию портальную версию а
2:39
как это сделать все ссылки опять же я
2:41
напоминаю будут в описании к этому
2:42
ролику А вам необходимо будет открыть
2:44
эту ссылку нажать вот сюда с правой
2:48
стороны открывается блок здесь написано
2:51
что это первый релиз и мы должны скачать
2:54
вот этот Файлик вы нажимаете на него и
2:57
он у вас начинает скачиваться вам на
2:58
компьютер этот файл за
3:04
[музыка]
3:15
архивированное
3:17
поисковой сети системы Яндекс Google
3:20
неважно написать 7 Zip архиватор после
3:23
чего вы увидите сайт вам надо будет его
3:26
открыть и вот здесь просто нажать сразу
3:28
же на главный сайта на
3:30
вкладку Down и вы скачаете эту
3:32
программку нажимаете на
3:34
скачать программа скачивается к вам на
3:37
компьютер все скачанные файлы Ну
3:38
соответственно у вас будут расположены в
3:40
той папке в которой вы вы скачиваете по
3:42
умолчанию у меня это просто загрузки для
Установка архиватора Z-zip и открытие архива SileroTTS.
3:45
демонстрации теперь нам необходимо будет
3:47
с вами установить архиватор 7 Zip чтобы
3:50
мы могли с вами открыть Эту программку
3:52
потому что программка скачалась Она
3:53
находится в формате 7z Да и её
3:57
невозможно открыть для того чтобы мы
3:59
могли ОТК мы нажимаем на вот эту
4:01
программку у нас система Ну ругается что
4:03
мы устанавливаем какие-то файлы После
4:04
чего мы просто нажимаем Установить
4:06
установить Закрыть обновляем страничку и
4:09
по идее у нас файл уже на откры Нет не
4:12
Нашёлся нажимаем приложение И найдём
4:14
тогда на компьютере Где находится у нас
4:16
этот архиватор то есть Нам нужно пойти в
4:19
диск про Files найти папку 7ip и вот
4:23
этот нажать на открыть теперь у нас
4:26
сразу же программа стала открыва и вот
4:30
эта папка мы просто её
4:33
разархивировать будем пользоваться
4:35
сейчас она
4:38
разархивировать её
4:40
запускать после того как программа
4:42
полностью разархивировать Она находится
4:44
в папке вы просто её открываете и вся
Запуск нейросети SileroTTS. Адрес нейросети в браузере 127.0.0.1:7860
4:47
модель запускается через вот этот батник
4:50
то есть вы просто её на неё нажимаете и
4:53
происходит запуск сейчас программа
4:56
полностью
4:58
запустится после чего вы увидите
5:01
упоминание вот этой строки эта строка
5:04
является интерфейсом А где мы сейчас с
5:06
вами находились теперь просто мы в неё
5:08
перейдём вот этот адрес в нём мы и
Работа в SileroTTS и обзор интерфейса.
5:11
находим сейчас я всё обновлю Всё
5:14
полностью русифицирован и что нам здесь
5:16
с вами нужно знать очень просто
5:19
А смотрите с левой стороны экрана
5:21
давайте я сейчас сделаю вот
5:24
так с левой стороны экрана у нас
5:26
находится блок в который мы загружаем
5:28
текстовые файлы то есть мы можем взять
5:30
какой-то текст который лежит у Вас на
5:32
рабочем столе если у вас браузер открыт
5:34
в окне и вы просто можете перетянуть
5:36
этот файл и бросить его На это поле
5:39
таким образом оно загрузится Либо вы
5:41
нажимаете просто на эту вкладку Click to
5:43
upload то есть вот сюда вы нажимаете
5:47
выбираете файл который у вас находится
5:48
на рабочем столе он должен быть
5:50
обязательно в формате txt То есть это
5:52
должен быть просто блокнот обычный
5:54
блокнот с текстом После чего он сюда
5:57
будет загружен давайте сейчас вам это
5:59
мост уберу эту панельку То есть я
6:01
нажимаю на открыть вы сейчас не видите
6:04
это окно Но сейчас я продемонстрирую это
6:08
ещё
6:09
раз я беру файл с ведьмаком и
6:12
перебрасывают поле после чего здесь
6:14
сразу же написан Сколько весит этот файл
6:17
и что я могу его дополнительно загрузить
6:20
далее А что на у нас здесь есть ещё если
6:24
мы хотим Очистить все наши настройки мы
6:27
нажимаем на кнопочку то есть очистка к
6:31
если мы хотим отправить задачу на
6:33
выполнение мы нажимаем на submit и с
6:35
правой стороны у нас будет результат
6:37
давайте сейчас мы так так и сделаем то
6:39
есть я нажму на очистить у нас всё
6:43
исчезло здесь у нас есть дикторы у нас
6:47
получаются мужские голоса это Айдар и
6:50
Евгений все остальные голоса женские
6:52
Точнее говоря три остальных голоса
6:54
этония и Ксения это женские голоса
6:58
выбираем допустим
7:00
после чего нам необходимо нажать просто
7:02
на кнопку submit и у нас идёт процесс
7:04
подготовки файла а в том текстовом файле
7:08
Точнее говоря батника когда вы его
7:09
запускаете в нём сейчас идут
7:11
определённые процессы по генерации Ну
7:13
как в любой нейросети просто идёт там ну
7:16
будет написано процентовка Я сейчас не
7:18
могу открыть у меня это просто на другом
7:19
экране идёт сейчас мы быстро подождём
Генерация озвучки текста мужским голосом — Айдар.
7:21
как это
7:23
происходит у меня не самая мощная
7:26
видеокарта мне в прошлом ролике говорили
7:27
что у меня стоит какая-то дорогая мощная
7:30
видеокарта у меня стоит видеокарта я её
7:32
покупал лет наверное 8 назад rtx
7:36
2080 всё файл готов он у нас просто
7:39
появляется вот во вкладке output то есть
7:42
готовый материал что мы с ним можем
7:44
сделать мы можем нажать на три точечки и
7:46
просто его скачать Мы можем его поменять
7:48
скорость
7:49
воспроизведения или просто включить его
7:52
на Play давайте я нажму на кнопку Play и
7:54
вы услышите
7:55
глаз сейс гз
8:00
Глас момент утро вошла Осторожно
8:05
бесшумно вступает голос Айдара читая
8:07
этот текст Давайте поменяем голос
8:09
допустим на Евгений и нажмём ещё раз на
8:12
сабмит то есть ещё раз на
8:14
отправить подождём Ну нам написано что
8:17
это занимает в районе 27 секунд и это
Генерация озвучки текста мужским голосом — Евгений.
8:20
достаточно ну то есть тут где-то два две
8:24
странички текста но он не весь
8:25
озвучивает Я чуть меньше его там
8:28
добавил я напомню что я попросил чат gpt
8:32
чтобы он выставил небольшие а
8:34
дополнительные паузы Каким образом
8:36
выставляются паузы а паузы можно
8:38
выставить если добавить Трой точа То
8:40
есть просто три точечки вот у нас второй
8:43
голос это получается евгени сейчас
8:44
включу послушайте
8:47
глаз Глаз сейчас момент
8:51
Глаз
8:52
глаз
8:54
Глаз
8:57
глаз всё у меня просто программа стоит
Генерация озвучки текста женским голосомом — Ксения.
9:00
на компьютере которую любой аудио
9:02
видеопоток пытается скачать Поэтому был
9:04
такой глюк глаз рассудка она пришла под
9:07
утро вошла Осторожно тихо без шумы
9:10
ступая словно плыла по комнате
9:13
получается диктор Евгений читает намного
9:16
быстрее чем диктор Айдар поэтому
9:18
Поиграйте с голосами какой вам больше
9:20
нравится ну давайте я также попробую
9:22
включить какой-нибудь женский голос и мы
9:24
посмотрим что с этим сделать теперь
9:26
быстро перехожу вот к этим картинкам Это
9:29
я вам в самом начале показывал Дело в
Генерация изображений и видео в других нейросетях.
9:31
том что я взял Вот этот текст который
9:33
здесь описан отправил его Ча gpt и
9:35
попросил его изобразить происходящее на
9:37
этой картинке как три
9:43
[музыка]
9:44
промтайм не написал получается три
9:46
промто это то что у нас соответственно
9:48
происходит в рамках этого текста то есть
9:50
сценарная линия Здесь три изображения я
9:53
взял программу кус Мы про неё с вами
9:55
говорили в прошлых выпусках Да что она
9:58
самая простая для начина пользователей
10:00
здесь просто вставляете подсказку
10:01
подсказки вам могут спокойно
10:03
генерировать тот же самый часть gpt Не
10:06
смотрите на картинки то есть они сейчас
10:07
не самые удачные то есть здесь не самые
10:10
лучшие лица со всем этим можно поиграть
10:12
но концептуально он передаёт
10:13
происходящие в сценки и соответственно
10:15
вот у нас три пром первый второй третий
10:17
это три сценки и под эти сценки были
10:20
созданы изображения это у нас полу ну
10:21
грубо говоря давайте это акт первый это
10:24
вход в таверну это события в таверне и
10:26
потом какая-то драка в таверне я взял
10:29
тот те же самые
10:30
просто промт открыл программу которую я
10:34
вам ранее уже показывал то есть не
10:35
рассея для оживления видео вставил его
10:38
нашу картинку как исходную добавил сюда
10:40
а промт и отправил на создание вот он
10:44
говорит что вот на подходе к таверне
10:46
происходит событие Ведьмак
10:47
соответственно на лошади скачут это у
10:49
нас было первое событие это второе здесь
10:53
ещё лучше потому что намного лучше
10:55
получилось потому что он даже на дверях
10:56
написал вывеску а Old Underworld То есть
11:00
это прям феноменально и вот этот
11:02
получается сервис Он прям невероятно
11:05
классно понимает что мы от него просим и
11:07
пока я ролик записывал Я у него попросил
11:09
отобразить вторую сценку получается это
11:11
вот этот второй пром то есть Inside The
11:13
Dark то есть внутри таверны что-то там
11:15
ещё происходит то есть Делается это
11:17
очень просто это всё абсолютно бесплатно
11:19
вы копируете просто этот текст Ну
11:20
который Вам необходимо отобразить
11:22
открываете поле А и отправляете и у нас
11:25
идёт генерация сейчас он примет её как
11:27
задачу это у нас получается событие
11:29
первое то есть подходит к таверне это
11:31
событие внутри таверны то есть там
11:32
что-то
11:33
происходит Посмотрите прям невероятно То
11:37
есть он что-то ему сказал Можно
11:39
попробовать к этому добавить озвучку
11:41
давайте сейчас я включу попробуй
11:43
как-нибудь это отобразить одновременно А
11:46
а и я ещё также взял голоса которые
11:49
генерируются они немножко такие
11:50
механические А я в целом чуть-чуть
11:52
понимаю как обрабатываются голоса
11:55
поэтому я немножко накинул сюда Ну пару
11:57
фильтров чтобы чуть-чуть лучше это
11:58
звучало давайте сейчас попробуем вам
12:00
показать то есть мы берём первую сценку
12:02
события начинаются и вот тут включаем
12:05
глаз рассудка она пришла под утро вошла
12:08
Осторожно тихо бесшумно ступая словно
12:11
плыла по комнате как Призрак
12:14
единственно вот иными словами что я хочу
12:17
вам показать что хочу вам
12:18
продемонстрировать то что во-первых
Небольшие выводы: нейросети могут генерировать любой контент на высоком уровне
12:21
нейросети фактически уже могут
12:23
генерировать целые сюжеты они позволяют
12:26
вам озвучивать разными голосами
12:28
материалы п
12:29
преимущество Вот таких нейросетей
12:31
заключается в том что в данном допустим
12:33
контексте в этой портальной версии У нас
12:35
есть заранее установленные пять голосов
12:37
но никто не мешает взять ваш голос как
12:40
Эталон натренировать нейросеть именно на
12:42
вашем голосе и потом этим текстом
12:44
озвучивать какие-то ролики создавать
12:47
какие-то мультики фильмы а на разных
12:49
голосах потому что вы можете
12:51
переозвучил вы можете брать своё лицо
12:55
вставлять во все эти изображения либо
12:57
выдуманный какой-то персонаж но это не
12:59
принципиально то есть
13:01
а как сказать потенциал для
13:05
создания роликов И вообще медиаконтента
13:08
изображени фото аудио он просто какой-то
13:11
бесконечный видео Давайте ещё один Голос
13:14
включу ксени посмотрим как как она
13:16
звучит глаз рассудка она пришла под утро
13:20
вошла Осторожно тихо бесшумно ступая
13:23
словно плыла по комнате как Призрак
13:26
единственным звуком был Шорох накидки
13:28
скользи по её телу этот Ну кстати очень
13:31
даже неплохо она хорошо расставляет
13:33
паузы для чтения А так вот Я надеюсь что
13:37
я на ваш вопрос ответил Можно ли
13:39
озвучивать материалы на вашем компьютере
13:41
Да можно всё это работает достаточно
13:43
быстро в данном случае это портальная
13:45
версия Ещё раз спасибо реген то что он
13:47
её создал именно в портальной версии а о
13:50
том как сюда добавлять дополнительные
13:52
голоса как тренироваться на своём
13:53
собственном голосе А как создавать вот
13:56
из всего этого фильмы чтобы это было как
13:59
единая композиция Как делать так чтобы
14:01
во всех картинках всегда был единый
14:03
персонаж Потому что если вы сейчас
14:05
посмотрите здесь один персонаж
14:06
получается когда он входит в помещение
14:09
это другой персонаж здесь персонаж
14:10
третий то есть у всего этого есть
14:13
определённые сиды у получается
14:16
университе можно натренировать на
14:18
определённого человека на определённого
14:19
героя и создавать и изображение с этим
14:23
персонажем и видео с этим персонажем и
14:24
озвучивать определённым голосом на любом
14:26
языке и всё это уже можно делать с сщю
14:29
нейросетей это просто потрясающе Ну
Совет от и прощание от нейросети.
14:31
наверное на этом мы будем с вами
14:32
заканчивать не знаю что тут ещё добавить
14:34
все ссылки у нас будут в описании А я
14:36
знаю что добавить давайте сейчас мы
14:38
возьмём а дополнительную одну штучку и
14:41
отправим это в нашу нейросеть она
14:45
постарается попрощаться с вами заместо
14:48
меня и на этом этот ролик мы будем с
14:49
вами заканчивать давайте мы возьмём ещё
14:52
раз Айдара И попросим его озвучить
14:55
небольшую последнюю нашу
14:58
речь Так а может быть Кстати у нас нет
15:02
ещё не был создан последний эпизод Ну
15:04
ничего страшного так к нам говорит Айдар
15:07
Спасибо
15:08
что один
15:11
момент Спасибо что Смотрите видео
15:15
ставьте лайки подписывайтесь на канал
15:18
все ссылки в Telegram канале спасибо
15:21
спасибо Ну всё не раси плохого вам не
15:23
посоветую Спасибо что смотрели я тогда
15:26
сейчас этот ролик сделается третья часть
15:28
я его выложу в телегу опять же все
15:30
ссылки там Спасибо за просмотр лайки
15:32
подписки и всё такое если какие-то
15:33
вопросы есть задавайте спрашивайте
15:35
Постараюсь на них отвечать сейчас я пока
15:38
время есть отвечаю на все комментарии к
15:40
роликам всё пока-пока

Расшифровка видео

Похожие записи