Skip to content

HayaKoe用我喜歡的聲音製作 TTS,
僅用 CPU 也能準即時合成。

只要有影片或錄音,從資料準備、訓練、基準測試到部署,我們全部搞定。

可以製作這樣的聲音

以下是內建說話人朗讀同一句話(「こんにちは、はじめまして。」)的範例。

JVNV jvnv-F1-jp — 女性說話人 1
0:00 / 0:00
JVNV jvnv-F2-jp — 女性說話人 2
0:00 / 0:00
JVNV jvnv-M1-jp — 男性說話人 1
0:00 / 0:00
JVNV jvnv-M2-jp — 男性說話人 2
0:00 / 0:00
つくよみちゃん tsukuyomi_chan — 動畫風
0:00 / 0:00
あみたろ amitaro_normal — 普通
0:00 / 0:00
あみたろ amitaro_runrun — 興奮
0:00 / 0:00
あみたろ amitaro_yofukashi — 沉穩
0:00 / 0:00
あみたろ amitaro_punsuka — 生氣
0:00 / 0:00
あみたろ amitaro_sasayaki_a — 低語A
0:00 / 0:00
あみたろ amitaro_sasayaki_b — 低語B
0:00 / 0:00

想在自己的筆電上,僅用 CPU 親自製作上述範例的話,請前往 10 分鐘快速體驗

快速試用

安裝

bash
pip install hayakoe
bash
pip install torch --index-url https://download.pytorch.org/whl/cu126
pip install hayakoe[gpu]

CPU 設定不需要 PyTorch,安裝更快,映像檔也更輕量。

GPU 設定會安裝額外依賴,換來更快的推論速度。

推論

python
from hayakoe import TTS

text = "こんにちは、はじめまして。"

tts = TTS().load("jvnv-F1-jp").prepare()
tts.speakers["jvnv-F1-jp"].generate(text).save("hello.wav")

馬上聽聽 hello.wav 吧!

內建提供 11 位說話人。

  • jvnv-F1-jp / jvnv-F2-jp / jvnv-M1-jp / jvnv-M2-jp — 基於 JVNV 語料庫
  • tsukuyomi_chan — 基於 つくよみちゃんコーパス
  • amitaro_normal / amitaro_runrun / amitaro_yofukashi / amitaro_punsuka / amitaro_sasayaki_a / amitaro_sasayaki_b — 基於 あみたろ ITAコーパス

只需替換上述程式碼中的 "jvnv-F1-jp",即可立即聽到其他聲音。

如果已安裝 GPU 設定,只需添加 TTS(device="cuda") 參數即可使用 GPU 推論。

應該閱讀哪些文件?

  1. 首先跟著 快速開始 走一遍。從安裝到首次合成、基準測試,親自體驗這個 TTS 有多快、音質如何。
  2. 想要更多的話,前往 自訂說話人訓練。只需一段包含喜歡聲音的影片,從資料準備到部署全程指引。
  3. 想分享給更多人的話,前往 伺服器部署。整理了在 FastAPI · Docker 上以 API 形式發佈的方法。
  4. 想深入技術細節的話,前往 深入解讀。逐一解析是如何做到這樣的速度和記憶體最佳化的。
  5. 遇到問題的話,前往 FAQ。彙集了快取路徑、Private HF、S3、多說話人記憶體等進階設定。

語音資料致謝

本專案的語音合成使用了以下語音資料。