Giter Site home page Giter Site logo

Comments (6)

lturing avatar lturing commented on September 3, 2024

听了你给的训练语料中的句子,感觉句子中有很多的停顿,不知道对应的文本中,停顿的地方有加标点符号?

  1. trim_top_dp,你可以设定不同的值,然后分别把mel图画出来,人工挑选(首尾最好没有静音或者很短)
  2. 吞音的问题,感觉跟你的训练数据有关。因为你的每个句子中有很多停顿(建议利用相关的工具,将一个句子分割成多个句子)
  3. 训练步数越大,模型越倾向于 过拟合,不是步数越大越好,因为你的训练集很小

wavernn将mel频谱合成wav,你可以参照master分支中的步骤。你如果需要合成你自己训练集中的音色,在finetune完tacotron后,还需要finetune wavernn。

如果从头开始训练tacotron等,关于数据量,起码要覆盖大部分的声韵母。数据量我也不太清楚,你可以先用的数据试试。

嗯嗯,推荐你用类似fastspeechV2 等非自回归模型,我这边可以只用10句新说话人的数据就能克隆出其音色。

from tacotronv2_wavernn_chinese.

coranholmes avatar coranholmes commented on September 3, 2024

我之前主要做NLP,没搞过语音,还在学习中,感谢你的耐心回复(^o^)/~
关于语料的问题,我其实特地找了几个比较长的句子让你听,平均的长度其实比较短的没这么长,停顿的地方都有标点的,但是我感觉声优的说话方式和标准数据集里的还是不太一样,感觉他每次读到逗号或者句号的地方声音都会变轻(就是特别的抑扬顿挫,但是标准数据集里一般声音都比较平),停顿也比标准数据集里要长,我是不是应该把一个逗号或者句号改成两个逗号或者句号训练会好一些?
trim_top_dp 这个参数我回头再试一试调整一下~
另外你提到的这个fastspeech2,之后打算开源中文版的吗?期待一下~如果不打算开源的话,能贴一下你参考的repo吗?我之后也打算学习一下。
谢谢♪(・ω・)ノ

from tacotronv2_wavernn_chinese.

lturing avatar lturing commented on September 3, 2024

停顿的地方对应的标点符号repeat,你可以试试。
不好意思,fastspeech代码还不能开源。

from tacotronv2_wavernn_chinese.

blackeyecircles avatar blackeyecircles commented on September 3, 2024

@lturing 请问是否方便指点一下fastspeechV2极少数据克隆音色的思路,我理解需要至少需要所有韵母+音调组合才能合成,谢谢!

听了你给的训练语料中的句子,感觉句子中有很多的停顿,不知道对应的文本中,停顿的地方有加标点符号?

1. trim_top_dp,你可以设定不同的值,然后分别把mel图画出来,人工挑选(首尾最好没有静音或者很短)

2. 吞音的问题,感觉跟你的训练数据有关。因为你的每个句子中有很多停顿(建议利用相关的工具,将一个句子分割成多个句子)

3. 训练步数越大,模型越倾向于 过拟合,不是步数越大越好,因为你的训练集很小

wavernn将mel频谱合成wav,你可以参照master分支中的步骤。你如果需要合成你自己训练集中的音色,在finetune完tacotron后,还需要finetune wavernn。

如果从头开始训练tacotron等,关于数据量,起码要覆盖大部分的声韵母。数据量我也不太清楚,你可以先用的数据试试。

嗯嗯,推荐你用类似fastspeechV2 等非自回归模型,我这边可以只用10句新说话人的数据就能克隆出其音色。

from tacotronv2_wavernn_chinese.

lturing avatar lturing commented on September 3, 2024

fastspeechv2实现音色克隆,你可以先用thchs30(中文多人语音数据集)或者vctk(英文多人语音数据集)训练一个多说话人的fastspeech,作为预训练的模型,然后再用少量的新说话人finetune模型。@blackeyecircles

from tacotronv2_wavernn_chinese.

blackeyecircles avatar blackeyecircles commented on September 3, 2024

非常感谢,我学习和尝试一下这个的实现,感谢提供思路!

from tacotronv2_wavernn_chinese.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.