TTS –– text to speach

Скрипты конвертируют текст в речь.

Я использовал разные библиотеки и остановился на 3-х с приемлемым результатом.

Silero silero.py

Главный плюс этой библиотеки - скорость, но есть и существенные минусы:

голос сильно с оттенками метала
плохая реализация расстановки ударений
игнорирование цифр, другого языка если он встречается в тексте.
скудная документация, выуживание информации из разных источников и собирание ее по кусочкам

В этой библиотеки есть флаги

    put_accent = True/False
    put_yo = True/False

Так вот они отвечают за расстановку ударений и буквы ё и справляются плохо с этой задачей, если этот функционал отключить и воспользоваться для этой задачи другой библиотекой (RUAccent), то результат намного лучше.

Для полноценной работы требуется:

научится обучать модель, нужна понятная документация
научится до обучать текущею модель, нужна понятная документация
научится делать кастомные голоса, нужна понятная документация

В 10 минутном аудио свыше 20 ошибок постановки ударений.

Тут ограничение на количество символов в строке и получается сильно много файлов, если не верите на слова, то можете запустить скрипт и он с генерирует вам аудиофайлы для прослушивания.

GTTS google.py

Замечательная библиотека, но есть пару минусов:

лимиты на сутки (обойти вроде как можно с помощью pyttsx3, не побывал)
нельзя изменить голос, опять же с помощью pyttsx3 можно и этот пункт обойти.

В 10 минутном аудио всего 1 ошибка постановки ударений для русских слов.

gtts.mp3

Pyttsx3 pyttsx.py

Без комментариев, просто плохо

pyttsx3.wav

Coqui coqui.py

Отличная библиотека с одним большим минусом –– очень медленная. Десятиминутное аудио формируется 20 минут, 7 часовой аудио, формируется 14 часов, на Mac M1 Pro.

Зато из коробки мы можем подставить любой голос, положив его в папку voice, так же вполне хорошо справляется с расстановкой ударений.

В скрипте два варианта, формирование аудио по частям –– этот вариант закомментирован и второй вариант, где формируется одним файлом.

В 10 минутном аудио 15 ошибок постановки ударений для русских слов + артефакты звука.

coqui.mp3

feniksdv / tts-text-to-speach Goto Github PK