Giter Site home page Giter Site logo

dataset_1_mix_emotion's Introduction

情感[厌]文本有些问题, 直接打开后是可以有拼音的 --已修复

【数据库】  华为技术有限公司情感语音合成数据库(zhcmn.enus.F.DB6.emotion,标贝录制,中文女声-DB-6,含英文/混读/6+1类情感)
【采样格式】wav.48k目录:无压缩PCM WAV格式,采样率为48kHz,16bit
【采样格式】    wav目录:无压缩PCM WAV格式,采样率为16kHz,16bit(由48k下采样得到)
【标注内容】音字校对、韵律标注、中文声韵母边界切分、英文音素边界切分
【标注格式】音频文件的文本标注为.txt文档,音节音素边界切分为.interval格式

  中文(10000句)
    数据路径:/CN
    对应编号:000001-010000

  英文(2000句)
    数据路径:/EN
    对应编号:100001-102000

  中英混(2500句)
    数据路径:/MIX
    对应编号:200001-202500

  6种情感(12000句),中性(500句)
  喜
    数据路径:/情感/喜
    对应编号:210001-212000
    500句平行语料编号:211501-212000

  怒
    数据路径:/情感/怒
    对应编号:220001-222000
    500句平行语料编号:221501-222000

  哀
    数据路径:/情感/哀
    对应编号:230001-232000
    500句平行语料编号:231501-232000

  惊
    数据路径:/情感/惊
    对应编号:240001-242000
    500句平行语料编号:241501-242000

  恐
    数据路径:/情感/恐
    对应编号:250001-252000
    500句平行语料编号:251501-252000

  厌
    数据路径:/情感/厌
    对应编号:260001-262000
    500句平行语料编号:261501-262000

  中性
    数据路径:/情感/中性
    对应编号:011501-012000
    500句平行语料编号:011501-012000



文件格式:
  音频文件:WAV
  文本标注文件:TXT     (标贝DataBaker标注规范)
  边界标注文件:INTERVAL(标贝DataBaker标注规范)
  CSV文本标注文件:CSV  (文件名|文本标注|拼音/音标标注)


中文CSV文本标注文件格式:
  1. 每行对应一句录音数据,以"|"分割,第一部分为文件名,第二部分为文本标注,第三部分为拼音标注;
  2. 文件名对应于相应目录下的音频文件名/边界标注文件名;
  3. 文本标注采用标贝韵律结构标注格式,包含韵律词(#1)、韵律短语(#2)、语调短语(#3)、句末(#4)四个层级的标注;
  4. 拼音标注带有韵律结构标注信息,韵律词内部使用"-"连接符,韵律词之间使用" "空格,
                                   韵律短语之间使用"/"分割,语调短语之间使用","逗号,句末使用"."句号;
  5. 拼音声调以1-5标记,1-4对应阴平、阳平、上声、去声,5表示轻声;
  6. 拼音中的"E"音,转换为"ev"表示。
  
英文CSV文本标注文件格式:
  1. 每行对应一句录音数据,以"|"分割,第一部分为文件名,第二部分为文本标注,第三部分为音标标注;
  2. 文件名对应于相应目录下的音频文件名;
  3. 文本标注为纯英文文本的英文单词序列,包括逗号(,)句号(.)缩写符(')等符号;
  4. 文本标注包括韵律结构标注信息,包含单词“空格”( )、韵律短语(/)、语调短语(%)、连读(-);
  5. 音标标注为CMU音素列表,单词之间以'/'分开,音素之间以空格分开, 音节以'.'分隔;0 代表非重音,1 代表重音,2 代表次重音,3代表句重音。

  (注:文本标注/韵律结构标注/音标标注符合标贝DataBaker标注规范)


注
版权所有者:清华大学人机语音交互实验室 / 华为技术有限公司; 这个是私有库
为了实习的时候讨论, 将语料中的wav和标注去掉, 只留下文本作为交流
如果需要使用, 请联系([email protected])
希望大家能从文本的设置中受到些启发~


dataset_1_mix_emotion's People

Contributors

ruclion avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.