CPU 即時推論
透過 ONNX 最佳化,相比 Style-Bert-VITS2,短文本快 1.5 倍,長文本快 3.3 倍,僅用 CPU 即可推論。
在 GPU 上還可透過 torch.compile 進一步加速。
是怎麼做到的
以下是內建說話人朗讀同一句話(「こんにちは、はじめまして。」)的範例。







想在自己的筆電上,僅用 CPU 親自製作上述範例的話,請前往 10 分鐘快速體驗。
pip install hayakoepip install torch --index-url https://download.pytorch.org/whl/cu126
pip install hayakoe[gpu]CPU 設定不需要 PyTorch,安裝更快,映像檔也更輕量。
GPU 設定會安裝額外依賴,換來更快的推論速度。
from hayakoe import TTS
text = "こんにちは、はじめまして。"
tts = TTS().load("jvnv-F1-jp").prepare()
tts.speakers["jvnv-F1-jp"].generate(text).save("hello.wav")馬上聽聽 hello.wav 吧!
內建提供 11 位說話人。
jvnv-F1-jp / jvnv-F2-jp / jvnv-M1-jp / jvnv-M2-jp — 基於 JVNV 語料庫tsukuyomi_chan — 基於 つくよみちゃんコーパスamitaro_normal / amitaro_runrun / amitaro_yofukashi / amitaro_punsuka / amitaro_sasayaki_a / amitaro_sasayaki_b — 基於 あみたろ ITAコーパス只需替換上述程式碼中的 "jvnv-F1-jp",即可立即聽到其他聲音。
如果已安裝 GPU 設定,只需添加 TTS(device="cuda") 參數即可使用 GPU 推論。
本專案的語音合成使用了以下語音資料。