HayaKoe好きな声で作ったTTSを、
CPUだけで準リアルタイムに。

動画や録音さえあれば、データ準備・学習・ベンチマーク・デプロイまですべてお任せください。

10分で試す

学習

デプロイ

深掘り

CPU リアルタイム推論

ONNX 最適化により Style-Bert-VITS2 比で短いテキストは1.5倍、長いテキストは3.3倍速い CPU 単独推論。
GPU では torch.compile でさらに高速化されます。

どうやったのか

AMD64・ARM64 どこでも

x86_64・aarch64 Linux どちらも同じコマンドひとつでインストール。
Raspberry Pi のような ARM ボードでも CPU 推論がそのまま動きます。

ラズベリーパイベンチマーク

メモリ 47% 削減

BERT Q8 量子化により PyTorch 比で RAM 47% 削減。
CPU モード約 2.0 GB RAM、GPU モード約 1.7 GB VRAM。

どうやったのか

多話者でも軽量

BERT を全話者で共有する構造。
話者を1人追加しても RAM は ~300 MB 増えるだけです。

多話者サービング

文単位ストリーミング

astream() で文が合成され次第流し出します。
全体の合成を待つより最初の音声をより早く受け取れます。

ストリーミング例

好きな声で

好きな声が入った動画を用意するだけ。
前処理・学習・品質比較・最適化・デプロイまで、すべてお任せください。

学習ガイド

HF・S3 互換・ローカルプラグ式

CLI デプロイは HuggingFace・S3 互換・ローカルのどこへでも。
ランタイムロードも同じ3つの経路を同様にサポートします。

Source 抽象化

このような声を作れます

デフォルト提供の話者が同じ文章（「こんにちは、はじめまして。」）を話すサンプルです。

JVNV jvnv-F1-jp — 女性話者 1

0:00 / 0:00

JVNV jvnv-F2-jp — 女性話者 2

0:00 / 0:00

JVNV jvnv-M1-jp — 男性話者 1

0:00 / 0:00

JVNV jvnv-M2-jp — 男性話者 2

0:00 / 0:00

つくよみちゃん tsukuyomi_chan — アニメ風

0:00 / 0:00

あみたろ amitaro_normal — ノーマル

0:00 / 0:00

あみたろ amitaro_runrun — ワクワク

0:00 / 0:00

あみたろ amitaro_yofukashi — 落ち着き

0:00 / 0:00

あみたろ amitaro_punsuka — 怒り

0:00 / 0:00

あみたろ amitaro_sasayaki_a — ささやきA

0:00 / 0:00

あみたろ amitaro_sasayaki_b — ささやきB

0:00 / 0:00

自分のノートPCで、CPUだけで、上記のサンプルを実際に作ってみたい方は 10分で試すへ。

簡単に試すと

インストール

CPUGPU (CUDA)

bash

pip install hayakoe

bash

pip install torch --index-url https://download.pytorch.org/whl/cu126
pip install hayakoe[gpu]

CPU プロファイルは PyTorch が不要なのでインストールが短く、イメージも軽量になります。

GPU プロファイルは追加の依存関係をインストールする代わりに、より高速に推論します。

推論

python

from hayakoe import TTS

text = "こんにちは、はじめまして。"

tts = TTS().load("jvnv-F1-jp").prepare()
tts.speakers["jvnv-F1-jp"].generate(text).save("hello.wav")

すぐに hello.wav を聴いてみてください！

デフォルトで提供される話者は11名です。

jvnv-F1-jp / jvnv-F2-jp / jvnv-M1-jp / jvnv-M2-jp — JVNV コーパスベース
tsukuyomi_chan — つくよみちゃんコーパスベース
amitaro_normal / amitaro_runrun / amitaro_yofukashi / amitaro_punsuka / amitaro_sasayaki_a / amitaro_sasayaki_b — あみたろ ITAコーパスベース

上記コードの "jvnv-F1-jp" の部分を変えるだけで他の声もすぐに聴けます。

GPU プロファイルでインストールした場合は TTS(device="cuda") パラメータを追加するだけで GPU 推論ができます。

どのドキュメントを読めばいいですか？

まずクイックスタート に沿って進めてみてください。インストールから初回合成、ベンチマークまで、この TTS がどれほど速いか・音質はどうか直接確認できます。
もっと試したくなったら自前話者の学習 へ。好きな声が入った動画1つでデータ準備からデプロイまで全工程を案内します。
自分だけで使うのはもったいないならサーバーへデプロイ へ。FastAPI・Docker 上で API として公開する方法をまとめました。
技術的に深く掘り下げたいなら深掘り へ。どこをどう手を入れてこれだけの速度・メモリ改善を得たのか、改善ポイントを一つずつ解説します。
つまずいた部分があれば FAQ へ。キャッシュパス・Private HF・S3・多話者メモリなどの詳細設定をまとめています。

音声データクレジット

本プロジェクトの音声合成には以下の音声データを使用しています。

あみたろの声素材工房 ITAコーパス読み上げ音声 — https://amitaro.net/

HayaKoe好きな声で作ったTTSを、CPUだけで準リアルタイムに。

CPU リアルタイム推論

AMD64・ARM64 どこでも

メモリ 47% 削減

多話者でも軽量

文単位ストリーミング

好きな声で

HF・S3 互換・ローカル プラグ式

このような声を作れます ​

簡単に試すと ​

インストール ​

推論 ​

どのドキュメントを読めばいいですか？ ​

音声データクレジット ​

HayaKoe好きな声で作ったTTSを、
CPUだけで準リアルタイムに。

HF・S3 互換・ローカルプラグ式

このような声を作れます

簡単に試すと

インストール

推論

どのドキュメントを読めばいいですか？

音声データクレジット