Skip to content

HayaKoe好きな声で作ったTTSを、
CPUだけで準リアルタイムに。

動画や録音さえあれば、データ準備・学習・ベンチマーク・デプロイまですべてお任せください。

このような声を作れます

デフォルト提供の話者が同じ文章(「こんにちは、はじめまして。」)を話すサンプルです。

JVNV jvnv-F1-jp — 女性話者 1
0:00 / 0:00
JVNV jvnv-F2-jp — 女性話者 2
0:00 / 0:00
JVNV jvnv-M1-jp — 男性話者 1
0:00 / 0:00
JVNV jvnv-M2-jp — 男性話者 2
0:00 / 0:00
つくよみちゃん tsukuyomi_chan — アニメ風
0:00 / 0:00
あみたろ amitaro_normal — ノーマル
0:00 / 0:00
あみたろ amitaro_runrun — ワクワク
0:00 / 0:00
あみたろ amitaro_yofukashi — 落ち着き
0:00 / 0:00
あみたろ amitaro_punsuka — 怒り
0:00 / 0:00
あみたろ amitaro_sasayaki_a — ささやきA
0:00 / 0:00
あみたろ amitaro_sasayaki_b — ささやきB
0:00 / 0:00

自分のノートPCで、CPUだけで、上記のサンプルを実際に作ってみたい方は 10分で試す へ。

簡単に試すと

インストール

bash
pip install hayakoe
bash
pip install torch --index-url https://download.pytorch.org/whl/cu126
pip install hayakoe[gpu]

CPU プロファイルは PyTorch が不要なのでインストールが短く、イメージも軽量になります。

GPU プロファイルは追加の依存関係をインストールする代わりに、より高速に推論します。

推論

python
from hayakoe import TTS

text = "こんにちは、はじめまして。"

tts = TTS().load("jvnv-F1-jp").prepare()
tts.speakers["jvnv-F1-jp"].generate(text).save("hello.wav")

すぐに hello.wav を聴いてみてください!

デフォルトで提供される話者は11名です。

  • jvnv-F1-jp / jvnv-F2-jp / jvnv-M1-jp / jvnv-M2-jp — JVNV コーパスベース
  • tsukuyomi_chan — つくよみちゃんコーパスベース
  • amitaro_normal / amitaro_runrun / amitaro_yofukashi / amitaro_punsuka / amitaro_sasayaki_a / amitaro_sasayaki_b — あみたろ ITAコーパスベース

上記コードの "jvnv-F1-jp" の部分を変えるだけで他の声もすぐに聴けます。

GPU プロファイルでインストールした場合は TTS(device="cuda") パラメータを追加するだけで GPU 推論ができます。

どのドキュメントを読めばいいですか?

  1. まず クイックスタート に沿って進めてみてください。インストールから初回合成、ベンチマークまで、この TTS がどれほど速いか・音質はどうか直接確認できます。
  2. もっと試したくなったら 自前話者の学習 へ。好きな声が入った動画1つでデータ準備からデプロイまで全工程を案内します。
  3. 自分だけで使うのはもったいないなら サーバーへデプロイ へ。FastAPI・Docker 上で API として公開する方法をまとめました。
  4. 技術的に深く掘り下げたいなら 深掘り へ。どこをどう手を入れてこれだけの速度・メモリ改善を得たのか、改善ポイントを一つずつ解説します。
  5. つまずいた部分があれば FAQ へ。キャッシュパス・Private HF・S3・多話者メモリなどの詳細設定をまとめています。

音声データクレジット

本プロジェクトの音声合成には以下の音声データを使用しています。