Skip to content

HayaKoe用我喜欢的声音制作 TTS,
仅用 CPU 也能准实时合成。

只要有视频或录音,从数据准备、训练、基准测试到部署,我们全部搞定。

可以制作这样的声音

以下是内置说话人朗读同一句话("こんにちは、はじめまして。")的示例。

JVNV jvnv-F1-jp — 女性说话人 1
0:00 / 0:00
JVNV jvnv-F2-jp — 女性说话人 2
0:00 / 0:00
JVNV jvnv-M1-jp — 男性说话人 1
0:00 / 0:00
JVNV jvnv-M2-jp — 男性说话人 2
0:00 / 0:00
つくよみちゃん tsukuyomi_chan — 动画风
0:00 / 0:00
あみたろ amitaro_normal — 普通
0:00 / 0:00
あみたろ amitaro_runrun — 兴奋
0:00 / 0:00
あみたろ amitaro_yofukashi — 沉稳
0:00 / 0:00
あみたろ amitaro_punsuka — 生气
0:00 / 0:00
あみたろ amitaro_sasayaki_a — 低语A
0:00 / 0:00
あみたろ amitaro_sasayaki_b — 低语B
0:00 / 0:00

想在自己的笔记本上,仅用 CPU 亲自制作上述示例的话,请前往 10 分钟快速体验

快速试用

安装

bash
pip install hayakoe
bash
pip install torch --index-url https://download.pytorch.org/whl/cu126
pip install hayakoe[gpu]

CPU 配置不需要 PyTorch,安装更快,镜像也更轻量。

GPU 配置会安装额外依赖,换来更快的推理速度。

推理

python
from hayakoe import TTS

text = "こんにちは、はじめまして。"

tts = TTS().load("jvnv-F1-jp").prepare()
tts.speakers["jvnv-F1-jp"].generate(text).save("hello.wav")

马上听听 hello.wav 吧!

内置提供 11 位说话人。

  • jvnv-F1-jp / jvnv-F2-jp / jvnv-M1-jp / jvnv-M2-jp — 基于 JVNV 语料库
  • tsukuyomi_chan — 基于 つくよみちゃんコーパス
  • amitaro_normal / amitaro_runrun / amitaro_yofukashi / amitaro_punsuka / amitaro_sasayaki_a / amitaro_sasayaki_b — 基于 あみたろ ITAコーパス

只需替换上述代码中的 "jvnv-F1-jp",即可立即听到其他声音。

如果已安装 GPU 配置,只需添加 TTS(device="cuda") 参数即可使用 GPU 推理。

应该阅读哪些文档?

  1. 首先跟着 快速开始 走一遍。从安装到首次合成、基准测试,亲自体验这个 TTS 有多快、音质如何。
  2. 想要更多的话,前往 自定义说话人训练。只需一段包含喜欢声音的视频,从数据准备到部署全程指引。
  3. 想分享给更多人的话,前往 服务器部署。整理了在 FastAPI · Docker 上以 API 形式发布的方法。
  4. 想深入技术细节的话,前往 深入解读。逐一解析是如何做到这样的速度和内存优化的。
  5. 遇到问题的话,前往 FAQ。汇集了缓存路径、Private HF、S3、多说话人内存等高级设置。

语音数据致谢

本项目的语音合成使用了以下语音数据。