CPU リアルタイム推論
ONNX 最適化により Style-Bert-VITS2 比で短いテキストは1.5倍、長いテキストは3.3倍速い CPU 単独推論。
GPU では torch.compile でさらに高速化されます。
どうやったのか
デフォルト提供の話者が同じ文章(「こんにちは、はじめまして。」)を話すサンプルです。







自分のノートPCで、CPUだけで、上記のサンプルを実際に作ってみたい方は 10分で試す へ。
pip install hayakoepip install torch --index-url https://download.pytorch.org/whl/cu126
pip install hayakoe[gpu]CPU プロファイルは PyTorch が不要なのでインストールが短く、イメージも軽量になります。
GPU プロファイルは追加の依存関係をインストールする代わりに、より高速に推論します。
from hayakoe import TTS
text = "こんにちは、はじめまして。"
tts = TTS().load("jvnv-F1-jp").prepare()
tts.speakers["jvnv-F1-jp"].generate(text).save("hello.wav")すぐに hello.wav を聴いてみてください!
デフォルトで提供される話者は11名です。
jvnv-F1-jp / jvnv-F2-jp / jvnv-M1-jp / jvnv-M2-jp — JVNV コーパスベースtsukuyomi_chan — つくよみちゃんコーパスベースamitaro_normal / amitaro_runrun / amitaro_yofukashi / amitaro_punsuka / amitaro_sasayaki_a / amitaro_sasayaki_b — あみたろ ITAコーパスベース上記コードの "jvnv-F1-jp" の部分を変えるだけで他の声もすぐに聴けます。
GPU プロファイルでインストールした場合は TTS(device="cuda") パラメータを追加するだけで GPU 推論ができます。
本プロジェクトの音声合成には以下の音声データを使用しています。