Skip to content

Commit

Permalink
追加: 統一ドメイン用語 音声合成用のクエリ (#863)
Browse files Browse the repository at this point in the history
  • Loading branch information
tarepan authored Dec 16, 2023
1 parent 6c80586 commit b8e1831
Show file tree
Hide file tree
Showing 6 changed files with 19 additions and 19 deletions.
4 changes: 2 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -217,7 +217,7 @@ curl -s -X GET "127.0.0.1:50021/presets" > presets.json
preset_id=$(cat presets.json | sed -r 's/^.+"id"\:\s?([0-9]+?).+$/\1/g')
style_id=$(cat presets.json | sed -r 's/^.+"style_id"\:\s?([0-9]+?).+$/\1/g')

# AudioQueryの取得
# 音声合成用のクエリを取得
curl -s \
-X POST \
"127.0.0.1:50021/audio_query_from_preset?preset_id=$preset_id"\
Expand Down Expand Up @@ -589,7 +589,7 @@ VOICEVOX ENGINE リポジトリを fork し、一部の機能を改造するの
ダミーのアイコンなどが用意されているので適宜変更してください。
音声合成は`voicevox_engine/synthesis_engine/synthesis_engine.py`で行われています。
VOICEVOX API での音声合成は、エンジン側で音声合成クエリ`AudioQuery`の初期値を作成してユーザーに返し、ユーザーが必要に応じてクエリを編集したあと、エンジンがクエリに従って音声合成することで実現しています。
VOICEVOX API での音声合成は、エンジン側で音声合成用のクエリ `AudioQuery` の初期値を作成してユーザーに返し、ユーザーが必要に応じてクエリを編集したあと、エンジンがクエリに従って音声合成することで実現しています。
クエリ作成は`/audio_query`エンドポイントで、音声合成は`/synthesis`エンドポイントで行っており、最低この2つに対応すれば VOICEVOX API に準拠したことになります。
#### マルチエンジン機能対応エンジンの配布方法
Expand Down
4 changes: 2 additions & 2 deletions run.py
Original file line number Diff line number Diff line change
Expand Up @@ -246,7 +246,7 @@ def audio_query(
core_version: str | None = None,
) -> AudioQuery:
"""
クエリの初期値を得ます。ここで得られたクエリはそのまま音声合成に利用できます。各値の意味は`Schemas`を参照してください。
音声合成用のクエリの初期値を得ます。ここで得られたクエリはそのまま音声合成に利用できます。各値の意味は`Schemas`を参照してください。
"""
style_id = get_style_id_from_deprecated(style_id=style_id, speaker_id=speaker)
engine = get_engine(core_version)
Expand Down Expand Up @@ -276,7 +276,7 @@ def audio_query_from_preset(
core_version: str | None = None,
) -> AudioQuery:
"""
クエリの初期値を得ます。ここで得られたクエリはそのまま音声合成に利用できます。各値の意味は`Schemas`を参照してください。
音声合成用のクエリの初期値を得ます。ここで得られたクエリはそのまま音声合成に利用できます。各値の意味は`Schemas`を参照してください。
"""
engine = get_engine(core_version)
try:
Expand Down
2 changes: 1 addition & 1 deletion voicevox_engine/dev/synthesis_engine/mock.py
Original file line number Diff line number Diff line change
Expand Up @@ -87,7 +87,7 @@ def _synthesis_impl(self, query: AudioQuery, style_id: int) -> np.ndarray:
Parameters
----------
query : AudioQuery
/audio_query APIで得たjson
音声合成用のクエリ
style_id : int
スタイルID
Expand Down
2 changes: 1 addition & 1 deletion voicevox_engine/model.py
Original file line number Diff line number Diff line change
Expand Up @@ -59,7 +59,7 @@ class AudioQuery(BaseModel):
postPhonemeLength: float = Field(title="音声の後の無音時間")
outputSamplingRate: int = Field(title="音声データの出力サンプリングレート")
outputStereo: bool = Field(title="音声データをステレオ出力するか否か")
kana: Optional[str] = Field(title="[読み取り専用]AquesTalk風記法によるテキスト。音声合成クエリとしては無視される")
kana: Optional[str] = Field(title="[読み取り専用]AquesTalk風記法によるテキスト。音声合成用のクエリとしては無視される")

def __hash__(self):
items = [
Expand Down
18 changes: 9 additions & 9 deletions voicevox_engine/tts_pipeline/tts_engine.py
Original file line number Diff line number Diff line change
Expand Up @@ -130,7 +130,7 @@ def apply_prepost_silence(moras: list[Mora], query: AudioQuery) -> list[Mora]:
moras : List[Mora]
モーラ時系列
query : AudioQuery
音声合成クエリ
音声合成用のクエリ
Returns
-------
moras : List[Mora]
Expand All @@ -150,7 +150,7 @@ def apply_speed_scale(moras: list[Mora], query: AudioQuery) -> list[Mora]:
moras : list[Mora]
モーラ系列
query : AudioQuery
音声合成クエリ
音声合成用のクエリ
Returns
-------
moras : list[Mora]
Expand Down Expand Up @@ -216,7 +216,7 @@ def apply_pitch_scale(moras: list[Mora], query: AudioQuery) -> list[Mora]:
moras : list[Mora]
モーラ系列
query : AudioQuery
音声合成クエリ
音声合成用のクエリ
Returns
-------
moras : list[Mora]
Expand All @@ -235,7 +235,7 @@ def apply_intonation_scale(moras: list[Mora], query: AudioQuery) -> list[Mora]:
moras : list[Mora]
モーラ系列
query : AudioQuery
音声合成クエリ
音声合成用のクエリ
Returns
-------
moras : list[Mora]
Expand Down Expand Up @@ -281,7 +281,7 @@ def apply_volume_scale(wave: numpy.ndarray, query: AudioQuery) -> numpy.ndarray:
wave : numpy.ndarray
音声波形
query : AudioQuery
音声合成クエリ
音声合成用のクエリ
Returns
-------
wave : numpy.ndarray
Expand Down Expand Up @@ -326,7 +326,7 @@ def apply_output_sampling_rate(
sr_wave : int
`wave`のサンプリングレート
query : AudioQuery
音声合成クエリ
音声合成用のクエリ
Returns
-------
wave : ndarray
Expand All @@ -348,7 +348,7 @@ def apply_output_stereo(wave: ndarray, query: AudioQuery) -> ndarray:
wave : ndarray
音声波形
query : AudioQuery
音声合成クエリ
音声合成用のクエリ
Returns
-------
wave : ndarray
Expand Down Expand Up @@ -599,11 +599,11 @@ def _create_one_hot(accent_phrase: AccentPhrase, position: int):

def _synthesis_impl(self, query: AudioQuery, style_id: int):
"""
音声合成クエリから音声合成に必要な情報を構成し、実際に音声合成を行う
音声合成用のクエリから音声合成に必要な情報を構成し、実際に音声合成を行う
Parameters
----------
query : AudioQuery
音声合成クエリ
音声合成用のクエリ
style_id : int
スタイルID
Returns
Expand Down
8 changes: 4 additions & 4 deletions voicevox_engine/tts_pipeline/tts_engine_base.py
Original file line number Diff line number Diff line change
Expand Up @@ -307,12 +307,12 @@ def synthesis(
enable_interrogative_upspeak: bool = True,
) -> np.ndarray:
"""
音声合成クエリ内の疑問文指定されたMoraを変形した後
音声合成用のクエリ内の疑問文指定されたMoraを変形した後
継承先における実装`_synthesis_impl`を使い音声合成を行う
Parameters
----------
query : AudioQuery
音声合成クエリ
音声合成用のクエリ
style_id : int
スタイルID
enable_interrogative_upspeak : bool
Expand All @@ -337,11 +337,11 @@ def _synthesis_impl(
style_id: int,
) -> np.ndarray:
"""
音声合成クエリから音声合成に必要な情報を構成し、実際に音声合成を行う
音声合成用のクエリから音声合成に必要な情報を構成し、実際に音声合成を行う
Parameters
----------
query : AudioQuery
音声合成クエリ
音声合成用のクエリ
style_id : int
スタイルID
Returns
Expand Down

0 comments on commit b8e1831

Please sign in to comment.