Giter Site home page Giter Site logo

ai_stackchan2_readme's Introduction

AI_StackChan2_README

AIスタックチャン2の使い方です。

AIスタックチャン2の特徴

  • 音声合成にWeb版 VOICEVOXを使います。
  • 音声認識に"Google Cloud STT"か"OpenAI Whisper"のどちらかを選択できます。

Google Cloud STTは、”MhageGH”さんの esp32_CloudSpeech を参考にさせて頂きました。ありがとうございました。
"OpenAI Whisper"が使えるようにするにあたって、多大なご助言を頂いた”イナバ”さん、”kobatan”さんに感謝致します。
ウェイクワードには、”MechaUma”さんのSimpleVoxライブラリを使わせていただきました。


ChatGPTのAPIキーの取得

ChatGPTのAPIキー取得方法は以下の通りです。(詳細はこのページ一番下のリンクを参照してください。)

  • OpenAIのウェブサイトにアクセスして、アカウントを作成します。メールアドレスと携帯電話番号が必要です。
  • アカウント作成後、APIキーを発行します。APIキーは有料ですが、無料期間やクレジットがあります。

Web版 VOICEVOX のAPIキーの取得

  • Web版 VOICEVOX のAPIキーの取得方法は、このページ(ttsQuestV3Voicevox)の一番下の方を参照してください。)
    VOICEVOXのAPIキー取得後忘れずに“VOICEVOX用API利用登録”をしてください。そうしないと音声合成が高速にならないので音声が途切れ途切れになります。

Google Cloud Speech to Text のAPIキーの取得(音声認識にWhisperを使うときは不要)

Google Cloud Speech to TextのAPIキー取得方法は以下の通りです。(詳細はこのページ一番下のリンクを参照してください。)

  • Google Cloud Platformのウェブサイトにアクセスして、アカウントを作成します。メールアドレスと携帯電話番号が必要です。カードの登録が必須ですが、無料トライアルや無料枠があります。
  • アカウント作成後、APIキーを取得します。
    APIキーでSpeech to Textを有効にするのを忘れないで下さい。

設定方法

  • SDカードのルートに以下の2つのファイルを作成しておくと、使用できるようになります。
    正常に動作するのが確認できたら設定に使ったSDカードは必ず抜いておいて下さい。
  1. wifi.txtファイル:ファイル名は"wifi.txt"で、中身は次の通りです。
    YOUR_WIFI_SSID
    YOUR_WIFI_PASS

  2. apikey.txtファイル:ファイル名は"apikey.txt"で、中身は次の通りです。
    YOUR_OPENAI_APIKEY
    YOUR_VOICEVOX_APIKEY
    YOUR_STT_APIKEY

  • 【注意】
    "YOUR_STT_APIKEY"には"Google Cloud STTのAPIキー" または、"YOUR_OPENAI_APIKEY"と同じものを設定します。
    "YOUR_STT_APIKEY"に"YOUR_OPENAI_APIKEY"と同じものを設定した場合は音声認識にOpenAI Whisperが使われます。

  • もしM5Stackが以前にWifiに接続していた場合、SDカードが必要なく自動的にWifiに接続されます。
    この場合、ブラウザで"http://XXX.XXX.XXX.XXX/apikey"にアクセスし、APIキーを設定できます。
    (xxxx.xxxx.xxxx.xxxxはAIスタックチャンの起動時に表示されるIPアドレスです。)

ウェイクワードの使い方(Core2にのみ対応)

  1. ウェイクワード登録
    ボタンBを2秒長押しします。
    ”ウェイクワード登録開始”と表示が出たら登録する任意のウェイクワードを喋ります。
    正常に登録出来れば登録したウェイクワードが再生されます。
    再生音は小さいですが大丈夫です。
    上手くいかなかったらやり直してください。

  2. 動作確認
    ボタンAをクリックするとウェイクワードが有効になります。
    登録したウェイクワードを喋ってみてください。
    ウェイクワードを上手く認識できれば音声入力待ちになります。
    何度やってもダメな場合は、手順1からやり直してください。

  3. 補足
    ・電源投入時はウェイクワード機能は無効です。必要に応じてボタンAで有効にしてください。
    ・LCD画面左端**付近にタッチすると独り言モードの切り替えが出来ます。

その他の機能の使い方

  • スタックチャンの額付近にタッチするとマイクからの録音が始まり音声認識で会話できるようになります。
    録音時間は7秒程度です。

  • デフォルトの声(話者)を設定できます。
    例:http://xxxx.xxxx.xxxx.xxxx/setting?speaker=1
    値は0~60
    値の一覧は一番下の話者番号一覧に有ります。

  • 一時的な声の変更には、voiceパラメータを指定できます。
    値の一覧は一番下の話者番号一覧に有ります。
    例えば、次のように指定します。

    http://192.168.11.20/chat?voice=4&text=こんにちは



  • M5Stack Core2の画面**付近にタッチするとスタックチャンの首振りを止められます。

  • M5Stack Core2のボタンCを押すと、音声合成のテストが出来ます。

以上が、AIスタックチャンの使い方になります。

注意点として、M5Burnerでファームを書き込んだ場合は再度SDからAPIキーを設定することを忘れないようにしてください。



ChatGPTのAPIキー取得の参考リンク

Web版 VOICEVOX のAPIキーの取得

  • Web版 VOICEVOX のAPIキーの取得方法は、このページ(ttsQuestV3Voicevox)の一番下の方を参照してください。)

Google Cloud Speech to TextのAPIキー取得の参考リンク

ChatGPTのキャラクター設定の参考リンク


VoiceVoxの話者番号

  • VoiceVox話者番号一覧
    0:四国めたん(あまあま)
    1:ずんだもん(あまあま)
    2:四国めたん(ノーマル)
    3:ずんだもん(ノーマル)
    4:四国めたん(セクシー)
    5:ずんだもん(セクシー)
    6:四国めたん(ツンツン)
    7:ずんだもん(ツンツン)
    8:春日部つむぎ(ノーマル)
    9:波音リツ(ノーマル)
    10:雨晴はう(ノーマル)
    11:玄野武宏(ノーマル)
    12:白上虎太郎(ふつう)
    13:青山龍星(ノーマル)
    14:冥鳴ひまり(ノーマル)
    15:九州そら(あまあま)
    16:九州そら(ノーマル)
    17:九州そら(セクシー)
    18:九州そら(ツンツン)
    19:九州そら(ささやき)
    20:もち子(cv 明日葉よもぎ)
    21:剣崎雌雄(ノーマル)
    22:ずんだもん(ささやき)
    23:WhiteCUL(ノーマル)
    24:WhiteCUL(たのしい)
    25:WhiteCUL(かなしい)
    26:WhiteCUL(びえーん)
    27:後鬼(人間ver.)
    28:後鬼(ぬいぐるみver.)
    29:No.7(ノーマル)
    30:No.7(アナウンス)
    31:No.7(読み聞かせ)
    32:白上虎太郎(わーい)
    33:白上虎太郎(びくびく)
    34:白上虎太郎(おこ)
    35:白上虎太郎(びえーん)
    36:四国めたん(ささやき)
    37:四国めたん(ヒソヒソ)
    38:ずんだもん(ヒソヒソ)
    39:玄野武宏(喜び)
    40:玄野武宏(ツンギレ)
    41:玄野武宏(悲しみ)
    42:ちび式じい(ノーマル)
    43:櫻歌ミコ(ノーマル)
    44:櫻歌ミコ(第二形態)
    45:櫻歌ミコ(ロリ)
    46:小夜/SAYO(ノーマル)
    47:ナースロボ_タイプT(ノーマル)
    48:ナースロボ_タイプT(楽々)
    49:ナースロボ_タイプT(恐怖)
    50:ナースロボ_タイプT(内緒話)
    51:†聖騎士 紅桜†(ノーマル)
    52:雀松朱司(ノーマル)
    53:麒ヶ島宗麟(ノーマル)
    54:春歌ナナ(ノーマル)
    55:猫使アル(ノーマル)
    56:猫使アル(おちつき)
    57:猫使アル(うきうき)
    58:猫使ビィ(ノーマル)
    59:猫使ビィ(おちつき)
    60:猫使ビィ(人見知り)


ai_stackchan2_readme's People

Contributors

robo8080 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.