深掘り
HayaKoe は Style-Bert-VITS2 を日本語専用に縮小し、CPU 推論とサーバー運用に実用的な形に再構成した TTS エンジンです。
このセクションは どの箇所をどのように修正し、結果がどれだけ変わったか を実測値とともにまとめます。
関心のあるトピックから選んで読めます。
一目で要約
HayaKoe がオリジナル SBV2 比で確保した実測改善は以下の通りです(詳細は各ページ参照)。
| 区分 | オリジナル SBV2 | HayaKoe | 差分 |
|---|---|---|---|
| CPU 速度(短文、約2秒) | 1.13 s | 0.68 s | 1.67x 高速 |
| CPU 速度(中文、約8秒) | 3.35 s | 2.44 s | 1.37x 高速 |
| CPU 速度(長文、約38秒) | 35.33 s | 10.43 s | 3.39x 高速 |
| CPU メモリ | 5,122 MB | 2,346 MB | 54% 削減 |
| GPU VRAM | 3,712 MB | 1,661 MB | 55% 削減 |
| 実行アーキテクチャ | x86_64 | x86_64・aarch64 Linux | ARM ボード対応 |
各ページの構成
各ページは なぜ問題か → 実装 → 改善効果 の流れを基本としつつ、トピックに応じて柔軟に構成されます。
目次
全体像
- アーキテクチャ一覧 — TTS エンジンの全体構成
CPU 推論のリアルタイム化
- ONNX 最適化 / 量子化 — Q8 BERT + FP32 Synthesizer、arm64 対応
- 文境界 pause — Duration Predictor — 多文合成時の自然な休止復元
GPU 推論の追加最適化
- BERT GPU 保持 & バッチ推論 — PCIe 往復の除去と多文バッチ化
運用面の利便性
- Source 抽象化(HF・S3・ローカル) — 話者供給元を URI で統一
- OpenJTalk 辞書バンドル — 初回 import 遅延とネットワーク依存の除去
- arm64 対応 — Raspberry Pi 4B 実測
その他
読む順番の推奨
初めてなら アーキテクチャ一覧 をまず目を通してから、その後関心のあるトピックを選択的に読む方法を推奨します。
