Skip to content

HayaKoe내가 좋아하는 목소리로 만든 TTS를,
CPU만 가지고도 준실시간으로.

동영상이나 녹음본만 있으면, 데이터 준비·학습·벤치마크·배포까지 저희가 다 해드릴게요.

이런 목소리를 만들 수 있어요

기본 제공 화자들이 같은 문장 ("こんにちは、はじめまして。") 을 말하는 샘플입니다.

JVNV jvnv-F1-jp — 여성 화자 1
0:00 / 0:00
JVNV jvnv-F2-jp — 여성 화자 2
0:00 / 0:00
JVNV jvnv-M1-jp — 남성 화자 1
0:00 / 0:00
JVNV jvnv-M2-jp — 남성 화자 2
0:00 / 0:00
つくよみちゃん tsukuyomi_chan — 애니메이션풍
0:00 / 0:00
あみたろ amitaro_normal — 노멀
0:00 / 0:00
あみたろ amitaro_runrun — 설렘
0:00 / 0:00
あみたろ amitaro_yofukashi — 차분
0:00 / 0:00
あみたろ amitaro_punsuka — 화남
0:00 / 0:00
あみたろ amitaro_sasayaki_a — 속삭임A
0:00 / 0:00
あみたろ amitaro_sasayaki_b — 속삭임B
0:00 / 0:00

내 노트북에서, CPU 만으로, 위 샘플을 직접 만들어 보고 싶다면 10분 만에 써보기 로.

짧게 써보면

설치

bash
pip install hayakoe
bash
pip install torch --index-url https://download.pytorch.org/whl/cu126
pip install hayakoe[gpu]

CPU 프로파일은 PyTorch가 필요 없어 설치가 짧고 이미지도 가벼워집니다.

GPU 프로파일은 추가 의존성을 설치하는 대신, 더 빠르게 추론합니다.

추론

python
from hayakoe import TTS

text = "こんにちは、はじめまして。"

tts = TTS().load("jvnv-F1-jp").prepare()
tts.speakers["jvnv-F1-jp"].generate(text).save("hello.wav")

바로 hello.wav 를 들어보세요!

기본으로 제공되는 화자는 11명입니다.

  • jvnv-F1-jp / jvnv-F2-jp / jvnv-M1-jp / jvnv-M2-jp — JVNV 코퍼스 기반
  • tsukuyomi_chan — つくよみちゃんコーパス 기반
  • amitaro_normal / amitaro_runrun / amitaro_yofukashi / amitaro_punsuka / amitaro_sasayaki_a / amitaro_sasayaki_b — あみたろ ITAコーパス 기반

위 코드의 "jvnv-F1-jp" 자리만 바꾸면 다른 목소리도 바로 들어볼 수 있습니다.

GPU 프로파일로 설치했다면 TTS(device="cuda") 파라미터만 넣으면 GPU로 추론할 수 있습니다.

어떤 문서를 읽어야 하나요?

  1. 먼저 퀵스타트 를 따라가 보세요. 설치부터 첫 합성, 벤치마크까지 이 TTS가 얼마나 빠른지·음질은 어떤지 직접 확인할 수 있습니다.
  2. 욕심이 생겼다면 자체 화자 학습 으로. 좋아하는 목소리가 담긴 영상 하나로 데이터 준비부터 배포까지 전 과정을 안내합니다.
  3. 혼자 쓰기엔 아깝다면 서버로 배포 로. FastAPI·Docker 위에 API로 공개하는 방법을 정리했습니다.
  4. 기술적으로 깊이 들어가 보고 싶다면 깊이 읽기 로. 어디를 어떻게 건드려서 이만큼의 속도·메모리 개선을 얻었는지 개선 포인트를 하나씩 해설합니다.
  5. 막히는 부분이 있다면 FAQ 로. 캐시 경로·Private HF·S3·다화자 메모리 같은 고급 설정을 모아뒀습니다.

음성 데이터 크레딧

본 프로젝트의 음성합성에는 아래 음성 데이터를 사용하고 있습니다.