HayaKoe用我喜欢的声音制作 TTS,
仅用 CPU 也能准实时合成。

只要有视频或录音,从数据准备、训练、基准测试到部署,我们全部搞定。

10 分钟快速体验

训练

部署

深入解读

CPU 实时推理

通过 ONNX 优化,相比 Style-Bert-VITS2,短文本快 1.5 倍,长文本快 3.3 倍,仅用 CPU 即可推理。
在 GPU 上还可通过 torch.compile 进一步加速。

是怎么做到的

AMD64 · ARM64 全平台

x86_64 · aarch64 Linux 均可用同一条命令安装。
在 Raspberry Pi 等 ARM 开发板上同样可以进行 CPU 推理。

树莓派基准测试

内存减少 47%

通过 BERT Q8 量化,相比 PyTorch 减少 47% 的 RAM 占用。
CPU 模式约 2.0 GB RAM,GPU 模式约 1.7 GB VRAM。

是怎么做到的

多说话人也很轻量

BERT 由所有说话人共享的架构。
每新增一个说话人,RAM 仅增加约 300 MB。

多说话人服务

句子级流式传输

通过 astream() 在句子合成完毕后立即发送。
比等待全部合成完毕更快地获取首条语音。

流式传输示例

用我想要的声音

只需准备包含喜欢声音的视频。
从预处理、训练、质量对比、优化到部署,我们全部搞定。

训练指南

HF · S3 兼容 · 本地可插拔

CLI 部署可发布到 HuggingFace · S3 兼容存储 · 本地任意位置。
运行时加载同样支持相同的三种路径。

Source 抽象层

可以制作这样的声音

以下是内置说话人朗读同一句话("こんにちは、はじめまして。")的示例。

JVNV jvnv-F1-jp — 女性说话人 1

0:00 / 0:00

JVNV jvnv-F2-jp — 女性说话人 2

0:00 / 0:00

JVNV jvnv-M1-jp — 男性说话人 1

0:00 / 0:00

JVNV jvnv-M2-jp — 男性说话人 2

0:00 / 0:00

つくよみちゃん tsukuyomi_chan — 动画风

0:00 / 0:00

あみたろ amitaro_normal — 普通

0:00 / 0:00

あみたろ amitaro_runrun — 兴奋

0:00 / 0:00

あみたろ amitaro_yofukashi — 沉稳

0:00 / 0:00

あみたろ amitaro_punsuka — 生气

0:00 / 0:00

あみたろ amitaro_sasayaki_a — 低语A

0:00 / 0:00

あみたろ amitaro_sasayaki_b — 低语B

0:00 / 0:00

想在自己的笔记本上,仅用 CPU 亲自制作上述示例的话,请前往 10 分钟快速体验。

快速试用

安装

CPUGPU (CUDA)

bash

pip install hayakoe

bash

pip install torch --index-url https://download.pytorch.org/whl/cu126
pip install hayakoe[gpu]

CPU 配置不需要 PyTorch,安装更快,镜像也更轻量。

GPU 配置会安装额外依赖,换来更快的推理速度。

推理

python

from hayakoe import TTS

text = "こんにちは、はじめまして。"

tts = TTS().load("jvnv-F1-jp").prepare()
tts.speakers["jvnv-F1-jp"].generate(text).save("hello.wav")

马上听听 hello.wav 吧!

内置提供 11 位说话人。

jvnv-F1-jp / jvnv-F2-jp / jvnv-M1-jp / jvnv-M2-jp — 基于 JVNV 语料库
tsukuyomi_chan — 基于つくよみちゃんコーパス
amitaro_normal / amitaro_runrun / amitaro_yofukashi / amitaro_punsuka / amitaro_sasayaki_a / amitaro_sasayaki_b — 基于あみたろ ITAコーパス

只需替换上述代码中的 "jvnv-F1-jp",即可立即听到其他声音。

如果已安装 GPU 配置,只需添加 TTS(device="cuda") 参数即可使用 GPU 推理。

应该阅读哪些文档?

首先跟着快速开始 走一遍。从安装到首次合成、基准测试,亲自体验这个 TTS 有多快、音质如何。
想要更多的话,前往自定义说话人训练。只需一段包含喜欢声音的视频,从数据准备到部署全程指引。
想分享给更多人的话,前往服务器部署。整理了在 FastAPI · Docker 上以 API 形式发布的方法。
想深入技术细节的话,前往深入解读。逐一解析是如何做到这样的速度和内存优化的。
遇到问题的话,前往 FAQ。汇集了缓存路径、Private HF、S3、多说话人内存等高级设置。

语音数据致谢

本项目的语音合成使用了以下语音数据。

あみたろの声素材工房 ITAコーパス読み上げ音声 — https://amitaro.net/

HayaKoe用我喜欢的声音制作 TTS,仅用 CPU 也能准实时合成。

CPU 实时推理

AMD64 · ARM64 全平台

内存减少 47%

多说话人也很轻量

句子级流式传输

用我想要的声音

HF · S3 兼容 · 本地可插拔

可以制作这样的声音 ​

快速试用 ​

安装 ​

推理 ​

应该阅读哪些文档? ​

语音数据致谢 ​

HayaKoe用我喜欢的声音制作 TTS,
仅用 CPU 也能准实时合成。

可以制作这样的声音

快速试用

安装

推理

应该阅读哪些文档?

语音数据致谢