CPU 实时推理
通过 ONNX 优化,相比 Style-Bert-VITS2,短文本快 1.5 倍,长文本快 3.3 倍,仅用 CPU 即可推理。
在 GPU 上还可通过 torch.compile 进一步加速。
是怎么做到的
以下是内置说话人朗读同一句话("こんにちは、はじめまして。")的示例。







想在自己的笔记本上,仅用 CPU 亲自制作上述示例的话,请前往 10 分钟快速体验。
pip install hayakoepip install torch --index-url https://download.pytorch.org/whl/cu126
pip install hayakoe[gpu]CPU 配置不需要 PyTorch,安装更快,镜像也更轻量。
GPU 配置会安装额外依赖,换来更快的推理速度。
from hayakoe import TTS
text = "こんにちは、はじめまして。"
tts = TTS().load("jvnv-F1-jp").prepare()
tts.speakers["jvnv-F1-jp"].generate(text).save("hello.wav")马上听听 hello.wav 吧!
内置提供 11 位说话人。
jvnv-F1-jp / jvnv-F2-jp / jvnv-M1-jp / jvnv-M2-jp — 基于 JVNV 语料库tsukuyomi_chan — 基于 つくよみちゃんコーパスamitaro_normal / amitaro_runrun / amitaro_yofukashi / amitaro_punsuka / amitaro_sasayaki_a / amitaro_sasayaki_b — 基于 あみたろ ITAコーパス只需替换上述代码中的 "jvnv-F1-jp",即可立即听到其他声音。
如果已安装 GPU 配置,只需添加 TTS(device="cuda") 参数即可使用 GPU 推理。
本项目的语音合成使用了以下语音数据。