Giter Site home page Giter Site logo

tts-text-to-speach's Introduction

TTS –– text to speach

Скрипты конвертируют текст в речь.

Я использовал разные библиотеки и остановился на 3-х с приемлемым результатом.

Silero silero.py

Главный плюс этой библиотеки - скорость, но есть и существенные минусы:

  1. голос сильно с оттенками метала
  2. плохая реализация расстановки ударений
  3. игнорирование цифр, другого языка если он встречается в тексте.
  4. скудная документация, выуживание информации из разных источников и собирание ее по кусочкам

В этой библиотеки есть флаги

    put_accent = True/False
    put_yo = True/False

Так вот они отвечают за расстановку ударений и буквы ё и справляются плохо с этой задачей, если этот функционал отключить и воспользоваться для этой задачи другой библиотекой (RUAccent), то результат намного лучше.

Для полноценной работы требуется:

  1. научится обучать модель, нужна понятная документация
  2. научится до обучать текущею модель, нужна понятная документация
  3. научится делать кастомные голоса, нужна понятная документация

В 10 минутном аудио свыше 20 ошибок постановки ударений.

Тут ограничение на количество символов в строке и получается сильно много файлов, если не верите на слова, то можете запустить скрипт и он с генерирует вам аудиофайлы для прослушивания.

GTTS google.py

Замечательная библиотека, но есть пару минусов:

  1. лимиты на сутки (обойти вроде как можно с помощью pyttsx3, не побывал)
  2. нельзя изменить голос, опять же с помощью pyttsx3 можно и этот пункт обойти.

В 10 минутном аудио всего 1 ошибка постановки ударений для русских слов.

gtts.mp3

Pyttsx3 pyttsx.py

Без комментариев, просто плохо

pyttsx3.wav

Coqui coqui.py

Отличная библиотека с одним большим минусом –– очень медленная. Десятиминутное аудио формируется 20 минут, 7 часовой аудио, формируется 14 часов, на Mac M1 Pro.

Зато из коробки мы можем подставить любой голос, положив его в папку voice, так же вполне хорошо справляется с расстановкой ударений.

В скрипте два варианта, формирование аудио по частям –– этот вариант закомментирован и второй вариант, где формируется одним файлом.

В 10 минутном аудио 15 ошибок постановки ударений для русских слов + артефакты звука.

coqui.mp3

tts-text-to-speach's People

Watchers

Anton Karavaev avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.