HayaKoe用我喜歡的聲音製作 TTS,
僅用 CPU 也能準即時合成。

只要有影片或錄音,從資料準備、訓練、基準測試到部署,我們全部搞定。

10 分鐘快速體驗

訓練

部署

深入解讀

CPU 即時推論

透過 ONNX 最佳化,相比 Style-Bert-VITS2,短文本快 1.5 倍,長文本快 3.3 倍,僅用 CPU 即可推論。
在 GPU 上還可透過 torch.compile 進一步加速。

是怎麼做到的

AMD64 · ARM64 全平台

x86_64 · aarch64 Linux 均可用同一條指令安裝。
在 Raspberry Pi 等 ARM 開發板上同樣可以進行 CPU 推論。

樹莓派基準測試

記憶體減少 47%

透過 BERT Q8 量化,相比 PyTorch 減少 47% 的 RAM 佔用。
CPU 模式約 2.0 GB RAM,GPU 模式約 1.7 GB VRAM。

是怎麼做到的

多說話人也很輕量

BERT 由所有說話人共享的架構。
每新增一個說話人,RAM 僅增加約 300 MB。

多說話人服務

句子級串流傳輸

透過 astream() 在句子合成完畢後立即發送。
比等待全部合成完畢更快地獲取首條語音。

串流傳輸範例

用我想要的聲音

只需準備包含喜歡聲音的影片。
從前處理、訓練、品質對比、最佳化到部署,我們全部搞定。

訓練指南

HF · S3 相容 · 本地可插拔

CLI 部署可發佈到 HuggingFace · S3 相容儲存 · 本地任意位置。
執行時載入同樣支援相同的三種路徑。

Source 抽象層

可以製作這樣的聲音

以下是內建說話人朗讀同一句話(「こんにちは、はじめまして。」)的範例。

JVNV jvnv-F1-jp — 女性說話人 1

0:00 / 0:00

JVNV jvnv-F2-jp — 女性說話人 2

0:00 / 0:00

JVNV jvnv-M1-jp — 男性說話人 1

0:00 / 0:00

JVNV jvnv-M2-jp — 男性說話人 2

0:00 / 0:00

つくよみちゃん tsukuyomi_chan — 動畫風

0:00 / 0:00

あみたろ amitaro_normal — 普通

0:00 / 0:00

あみたろ amitaro_runrun — 興奮

0:00 / 0:00

あみたろ amitaro_yofukashi — 沉穩

0:00 / 0:00

あみたろ amitaro_punsuka — 生氣

0:00 / 0:00

あみたろ amitaro_sasayaki_a — 低語A

0:00 / 0:00

あみたろ amitaro_sasayaki_b — 低語B

0:00 / 0:00

想在自己的筆電上,僅用 CPU 親自製作上述範例的話,請前往 10 分鐘快速體驗。

快速試用

安裝

CPUGPU (CUDA)

bash

pip install hayakoe

bash

pip install torch --index-url https://download.pytorch.org/whl/cu126
pip install hayakoe[gpu]

CPU 設定不需要 PyTorch,安裝更快,映像檔也更輕量。

GPU 設定會安裝額外依賴,換來更快的推論速度。

推論

python

from hayakoe import TTS

text = "こんにちは、はじめまして。"

tts = TTS().load("jvnv-F1-jp").prepare()
tts.speakers["jvnv-F1-jp"].generate(text).save("hello.wav")

馬上聽聽 hello.wav 吧!

內建提供 11 位說話人。

jvnv-F1-jp / jvnv-F2-jp / jvnv-M1-jp / jvnv-M2-jp — 基於 JVNV 語料庫
tsukuyomi_chan — 基於つくよみちゃんコーパス
amitaro_normal / amitaro_runrun / amitaro_yofukashi / amitaro_punsuka / amitaro_sasayaki_a / amitaro_sasayaki_b — 基於あみたろ ITAコーパス

只需替換上述程式碼中的 "jvnv-F1-jp",即可立即聽到其他聲音。

如果已安裝 GPU 設定,只需添加 TTS(device="cuda") 參數即可使用 GPU 推論。

應該閱讀哪些文件?

首先跟著快速開始 走一遍。從安裝到首次合成、基準測試,親自體驗這個 TTS 有多快、音質如何。
想要更多的話,前往自訂說話人訓練。只需一段包含喜歡聲音的影片,從資料準備到部署全程指引。
想分享給更多人的話,前往伺服器部署。整理了在 FastAPI · Docker 上以 API 形式發佈的方法。
想深入技術細節的話,前往深入解讀。逐一解析是如何做到這樣的速度和記憶體最佳化的。
遇到問題的話,前往 FAQ。彙集了快取路徑、Private HF、S3、多說話人記憶體等進階設定。

語音資料致謝

本專案的語音合成使用了以下語音資料。

あみたろの声素材工房 ITAコーパス読み上げ音声 — https://amitaro.net/

HayaKoe用我喜歡的聲音製作 TTS,僅用 CPU 也能準即時合成。

CPU 即時推論

AMD64 · ARM64 全平台

記憶體減少 47%

多說話人也很輕量

句子級串流傳輸

用我想要的聲音

HF · S3 相容 · 本地可插拔

可以製作這樣的聲音 ​

快速試用 ​

安裝 ​

推論 ​

應該閱讀哪些文件? ​

語音資料致謝 ​

HayaKoe用我喜歡的聲音製作 TTS,
僅用 CPU 也能準即時合成。

可以製作這樣的聲音

快速試用

安裝

推論

應該閱讀哪些文件?

語音資料致謝