書籍「AITuberを作ってみたら生成AIプログラミングがよくわかった件」の中で紹介されている、LLMのAPIを使った実装部分を元に、OpenAI APIの代わりにGeminiAPIを使用するよう変更したものです。
OpenAPI には無料で使えるプランがないため、十分な無料枠を提供しているGemini APIに変更しました。
以下のパッケージをpip
でインストールしてください。
google-generativeai==0.7.2
python-dotenv==1.0.1
sounddevice==0.5.0
soundfile==0.12.1
numpy==2.1.0
requests==2.32.3
Gemini-VOICEVOX-for-AITuber
| .env (作成してください)
| gemini_api.py
| gemini_voicevox.py
| make_list_sound_device.py
| voicevox_adapter.py
∟ play_sound.py
Gemini APIを呼んで回答を出力するのみのスクリプトです。(API Keyの確認用)
メインのスクリプトです。Gemini API による回答を、VOICEVOXで読み上げます。
使用できるスピーカーを表示するスクリプトです。(後述)
VOICEVOXのAPIを呼ぶスクリプトです。
音を鳴らす処理を行うスクリプトです。
- Gemini API Key を取得し、そのAPIKeyを
.env
ファイルに格納してください。
API_KEY="**************"
- 使用できるPC付属のスピーカーを設定する必要があります。make_list_sound_device.pyを実行して、PCに搭載されているスピーカー名を取得してください。
その後、gemini_voicevoxの以下のSpeaker
を変更してください。
play_sound = PlaySound("Speaker")
例えば、以下のような場合
0 Microsoft サウンド マッパー - Input, MME (2 in, 0 out)
> 1 Microphone Array (AMD Audio Dev, MME (2 in, 0 out)
2 Microsoft サウンド マッパー - Output, MME (0 in, 2 out)
3 スピーカー (Realtek(R) Audio), MME (0 in, 2 out)
:
3
を使うならば、スピーカー (Realtek(R) Audio)
に変更します。
必ずVOICEVOXソフトを起動してから、gemini_voicevoxを実行してください。
gemini_voicevoxのprompt
で入力文を、
voicevox_adapter.pyのspeaker_id
にて喋らせる声を変更できます。
VOICEVOX ソフトのインストール
ソフト起動中に閲覧できるドキュメントページ
著者による書籍紹介記事
「AITuberを作ってみたら生成AIプログラミングがよくわかった件」
著者:阿部 由延 (@sald_ra) 氏
出版社:日経BP (公式販売サイト)
Gemini-VOICEVOX-for-AITuber is under MIT license.