CPU 실시간 추론
ONNX 최적화로 Style-Bert-VITS2 대비 짧은 텍스트는 1.5배, 긴 텍스트는 3.3배 빠른 CPU 단독 추론.
GPU에서는 torch.compile로 한층 더 빨라집니다.
어떻게 했나
동영상이나 녹음본만 있으면, 데이터 준비·학습·벤치마크·배포까지 저희가 다 해드릴게요.
기본 제공 화자들이 같은 문장 ("こんにちは、はじめまして。") 을 말하는 샘플입니다.







내 노트북에서, CPU 만으로, 위 샘플을 직접 만들어 보고 싶다면 10분 만에 써보기 로.
pip install hayakoepip install torch --index-url https://download.pytorch.org/whl/cu126
pip install hayakoe[gpu]CPU 프로파일은 PyTorch가 필요 없어 설치가 짧고 이미지도 가벼워집니다.
GPU 프로파일은 추가 의존성을 설치하는 대신, 더 빠르게 추론합니다.
from hayakoe import TTS
text = "こんにちは、はじめまして。"
tts = TTS().load("jvnv-F1-jp").prepare()
tts.speakers["jvnv-F1-jp"].generate(text).save("hello.wav")바로 hello.wav 를 들어보세요!
기본으로 제공되는 화자는 11명입니다.
jvnv-F1-jp / jvnv-F2-jp / jvnv-M1-jp / jvnv-M2-jp — JVNV 코퍼스 기반tsukuyomi_chan — つくよみちゃんコーパス 기반amitaro_normal / amitaro_runrun / amitaro_yofukashi / amitaro_punsuka / amitaro_sasayaki_a / amitaro_sasayaki_b — あみたろ ITAコーパス 기반위 코드의 "jvnv-F1-jp" 자리만 바꾸면 다른 목소리도 바로 들어볼 수 있습니다.
GPU 프로파일로 설치했다면 TTS(device="cuda") 파라미터만 넣으면 GPU로 추론할 수 있습니다.
본 프로젝트의 음성합성에는 아래 음성 데이터를 사용하고 있습니다.