リアルタイム音声認識/Speech To Text/Automatic Speech Recognition(STT/ASR)のクライアントソフトウェアです。
認識したテキストをWebHook経由やWebsocoket経由でリアルタイムに取得することができます。
各種AIに対応していく計画です。
- 対応 AI
- v.1.0.4 released
- source code is opened.
- win_stdエディション:Windows向けのCPUで動作するエディションです。cuda版と比較して低速ですが、最近のそれなりのスペックのCPUであれば動きます。
- win_cudaエディション:Windows向けのNVIDIAのGPUで動作するエディションです。GPUのハードウェアアクセラレーションにより高速に動きます。
- macエディション:Mac(Apple silicon(M1, M2, M3, etc))向けのエディションです。
Colabでの実行が可能です。
こちらのノートにアクセスし、左上のOpen in Colab
ボタンをクリックして開いてください。
- zipファイルを展開後、
start_http.bat
を実行してください。表示された、URLにブラウザでアクセスしてください。 start_https.bat
を使用すると、リモートからでもアクセスすることができます。- (上級者向け)
start_http_with_ngrok.bat
を使用するとngrokを用いたトンネリングを使用してアクセスすることができます。
note: macエディションは.batを.commandで読み替えてください。
- poetry: how to install
下記のコマンドを実行してください。
git clone https://github.com/w-okada/asrclient.git
cd asrclient
cd third_party
git clone https://github.com/reazon-research/ReazonSpeech
cd ..
poetry install
下記のコマンドを実行してください。
poetry run main cui
fatal error: Python.h: そのようなファイルやディ レクトリはありません
のようなエラーが出る場合は、pythonのソースコードをインストールしてください。
sudo apt install python3-dev
No such file or directory: 'cmake'
のようなエラーが出る場合は、cmakeをインストールしてください。
sudo apt-get install cmake
poetry remove onnxruntime-directml torch-directml
poetry add torch==2.3.1 --source torch_cuda12
poetry add onnxruntime-gpu==1.17.1 --source ort_cuda12
下記のコマンドを実行してください。 表示されるwebhookのurlをGUIに設定してください。
python .\client\webhook_server\generic_main.py
下記のコマンドを実行してください。 表示されるwebhookのurlをGUIに設定してください。
node .\client\webhook_server\generic_main.js
下記のコマンドを実行してください。
http://localhost:20000
の部分はASRClientの起動URLを指定してください。
poetry run python_socket_io http://localhost:20000