Giter Site home page Giter Site logo

voice_zaloai's Introduction

Zalo AI Challenge

Giới thiệu

Zalo AI challenge là cuộc thi AI đầu tiên do zalo tổ chức. Nội dung liên quan đến xử dụng âm thanh, hình ảnh và các loại dữ liệu khác. Source code này mình hướng dẫn basic cho các bạn để extract feature mfcc, chrom bằng librosa sử dụng multi process, cũng như mô hình LSTM đơn giản nhất đạt được 67% trên public leaderboard. Về cơ bản, thì có thể sử dụng CNN, và LSTM cũng như các mô hình tree-based như XGBoost để giải quyết bài toán này

Feature Extract

Mình extract nhiều loại features:

  • MFCC
  • spectral centroid
  • chroma stft
  • spectral contrast

Những feature này được extract với hop length = 512ms, mình chỉ giữ lại 3s đầu tương ứng với 128 timestep. Sau đó các feature được concat với nhau và padding nếu bé hơn 3s

Mô hình

Mình sử dụng mô hình LSTM 2 tầng đơn giản, đặc trưng được tổng hợp ở timestep cuối cùng được qua hàm softmax và predict nhãn cho mẫu dữ liễu, đối với accent thì là bắc/trung/nam, còn đối với gender thì là nam/nữ. Thời gian train khoảng 10s trên một epoch. model

Train

Các bạn cần tải tập train và test, rồi để vào folder như trong code, sau đó chạy lệnh sau để build tập train và test. Dữ liệu sẽ lưu xuống thư mục được config và dùng để train model

python make_data.py

Sau khi tạo dữ liệu xong, các bạn cần chạy lệnh sau để huấn luyện model. Mình huấn luyện model cho gender, và accent riêng. Sau khoảng 600 epochs thì acc của gender trên tập validate là 96%, còn accent là 85%. Trên public leaderboard các bạn sẽ được khoảng 67.8%, và nằm trong top 10.

python lstm.py

Kết quả

voice_zaloai's People

Stargazers

Mailychee avatar locchuong avatar Nguyễn Trúc Phương avatar  avatar Pham Thanh Lam avatar Dat Nguyen-Thanh avatar Autobot avatar Khanh Nguyen avatar Toan Tran avatar Minh Nguyen avatar  avatar Raymond Joseph Usher Roche avatar Võ Tấn Phát avatar Toan Nhu avatar Vu Anh avatar Nguyen Anh Minh MAI avatar MikuRoot avatar Hoang Nguyen avatar Vinh Cao avatar Tuan Truong avatar  avatar Pham Thanh Hung avatar Hung Le avatar  avatar Phuc Nguyen Hoang avatar VOM7HC avatar Khoa Duong avatar Rin Le avatar Alex Lee avatar  avatar  avatar Phu Nguyen avatar  avatar  avatar dukn avatar Pham Ba Cuong Quoc avatar Nhat-Cuong Ha (Clark) avatar

Watchers

Long Dao avatar  avatar Phan Hoang avatar Pham Ba Cuong Quoc avatar  avatar  avatar Autobot avatar

voice_zaloai's Issues

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.