後端選擇 (CPU vs GPU)

HayaKoe 支援 CPU (ONNX Runtime) 和 GPU (PyTorch + torch.compile) 兩種後端。

在程式碼層面只是 device 參數的區別。

python

tts_cpu = TTS(device="cpu").load("tsukuyomi").prepare()
tts_gpu = TTS(device="cuda").load("tsukuyomi").prepare()

但 從安裝設定就開始不同 — CPU 只需 pip install hayakoe,GPU 還需要 hayakoe[gpu] + PyTorch CUDA 建置。

在同一環境中同時安裝兩者執行也是可能的,但實際部署中通常根據目標環境 只安裝一個(詳見安裝 — CPU vs GPU)。

底層結構也完全不同。

以下整理幫助您判斷哪種適合自己的部署環境。

CPU (ONNX) 適用的場景

沒有 GPU 的伺服器環境 — 在一般 Web 託管、VPS、託管容器平台等沒有 CUDA 支援的環境中直接執行。
需要最小化映像檔大小的場景 — PyTorch + CUDA 堆疊在數 GB 級別,而僅包含 ONNX Runtime 的映像檔可縮減至數百 MB。
低並發請求的工作負載 — 個人專案或內部工具等並發負載不大的情況下,僅 CPU 也能確保足夠的處理量。
需要短冷啟動時間時 — ONNX 路徑沒有 torch.compile 編譯步驟,行程啟動後 prepare() 立即完成,可以馬上開始合成。GPU 路徑的首次 prepare() 需要承受數十秒的圖編譯時間,在自動擴縮·無伺服器環境中體感差異很大。

CPU 路徑構成

GPU 路徑構成

BERT — FP32 DeBERTa 載入到 GPU VRAM 中計算嵌入。因未量化,精度比 CPU ONNX 路徑略高。
Synthesizer — PyTorch VITS 解碼器。套用了 torch.compile。
Duration Predictor — 與 Synthesizer 相同的 PyTorch 路徑,一同包含在 torch.compile 目標中。

縮短 GPU 後端冷啟動

GPU 後端的首次 prepare() 可能因模型下載 + torch.compile 初始化交織而耗時數十秒。

在實際服務中建議透過以下兩種方式提前支付此成本。

Docker 建置時 pre_download() — 在建置階段將權重烘焙到映像檔中,執行時 prepare() 無需 HF · S3 存取直接從快取載入。映像檔啟動後立即無網路延遲地進行初始化。(→ Docker 映像檔)
prepare(warmup=True) — 在 prepare 時預先執行虛擬推論,將 torch.compile 編譯和 CUDA graph 捕獲成本提前到 prepare 階段。prepare 本身更久但 第一個實際請求不承擔 warmup 成本。(→ FastAPI 整合)

具體數值請看基準測試

倍速·記憶體·延遲數值高度依賴硬體。