③ 质量报告
训练结束后通常会留下多个检查点。其中 哪个时间点最好 仅看 loss 数字很难判断,最终还是要靠耳朵来听。
质量报告将多个检查点合成同一句话,汇总到 一张 HTML 文件 中。在浏览器中横向并排试听,选择最佳时间点即可。
运行
训练结束后启动 CLI,在主菜单中选择 质量报告。
bash
uv run poe cli只有训练完成的数据集(exports/<model_name>/*.safetensors 存在的)才会被列出。仅完成预处理的不会显示。
选择说话人后 CLI 会输出检查点列表并询问评估文本预设。
text
? 选择说话人 tsukuyomi
使用 5 个检查点
· hayakoe_tsukuyomi_e15_s500
· hayakoe_tsukuyomi_e30_s1000
· hayakoe_tsukuyomi_e45_s1500
· hayakoe_tsukuyomi_e59_s2000
· hayakoe_tsukuyomi_e74_s2500
? 选择文本
❯ 示例 - 短 (3 个)
示例 - 中 (2 个)
示例 - 长 (1 个)
示例 - 全部 (6 个)
手动输入
返回评估文本选择
选择用哪些句子进行比较的预设。
- 示例 - 短 (3 个)
- 「おはようございます。今日もよろしくお願いします。」
早上好。今天也请多关照。 - 「えっ、本当ですか?それはすごいですね!」
诶?真的吗?那好厉害啊! - 「静かな夜に、星が綺麗に見えます。」
在寂静的夜晚,星星看起来很美。
- 「おはようございます。今日もよろしくお願いします。」
- 示例 - 中 (2 个)
- 「先週の土曜日、家族で動物園に行きました。子供たちはパンダを見てとても喜んでいました。天気も良くて、最高の一日になりました。」
上周六和家人去了动物园。孩子们看到熊猫非常开心。天气也很好,成了最棒的一天。 - 「音声合成の技術は年々進化しています。最近では人間の声と区別がつかないほど自然な音声を生成できるようになりました。今後の発展が楽しみです。」
语音合成技术每年都在进步。最近已经能生成自然到无法与人声区分的语音了。期待今后的发展。
- 「先週の土曜日、家族で動物園に行きました。子供たちはパンダを見てとても喜んでいました。天気も良くて、最高の一日になりました。」
- 示例 - 长 (1 个)
- 「春が来ると、日本中で桜が咲き始めます。人々は公園や川沿いに集まって、お花見を楽しみます。友人や家族と一緒にお弁当を広げ、美しい花びらが舞い散る様子を眺めるのは、日本の春の風物詩です。桜の季節は短く、わずか一週間ほどで散ってしまいますが、その儚さがまた人々の心を惹きつけるのかもしれません。」
春天到来时,日本各地的樱花开始绽放。人们聚集在公园和河畔赏花。和朋友家人一起打开便当,欣赏美丽花瓣纷飞的景象,是日本春天的风物诗。樱花季节很短,仅一周左右便散落,但或许正是这份短暂更能打动人心。
- 「春が来ると、日本中で桜が咲き始めます。人々は公園や川沿いに集まって、お花見を楽しみます。友人や家族と一緒にお弁当を広げ、美しい花びらが舞い散る様子を眺めるのは、日本の春の風物詩です。桜の季節は短く、わずか一週間ほどで散ってしまいますが、その儚さがまた人々の心を惹きつけるのかもしれません。」
- 示例 - 全部 (6 个) — 以上三者合并
- 手动输入 — 直接输入想要的句子(空行结束)
产出
在 <dataset>/reports/report_<YYYYMMDD_HHMMSS>.html 生成一张 HTML。在 WSL2 中提供直接用默认浏览器打开的功能。

HTML 中包含两部分内容。
- 训练指标图表 6 种 — loss 变化图。可作为检查点选择的参考,但最终决定靠耳朵。
- 音频比较表 — 行是评估句子,列是检查点。点击各单元格中的
<audio>播放器直接试听。
分享很方便
WAV 以 base64 嵌入在 HTML 中,只需传递一个文件所有音频就一起跟过去了。
直接上传到 Slack·Notion 也能无外部文件依赖地播放。
内部机制 — 检查点采样和生成顺序
检查点采样
检查点超过 8 个时会自动均匀采样(首尾 + 中间 6 个)。即使有 10 个、20 个也不会让页面横向溢出。
生成顺序
- 从
<dataset>/training/和<dataset>/training/eval/收集 TensorBoard 事件文件的标量指标。 - 逐个检查点用
hayakoe.tts_model.TTSModel加载,合成全部评估文本后 unload。为节省 VRAM 每次只在内存中保留一个。 - 将指标图表和音频表组装成 self-contained HTML。
如何阅读报告
打开报告后先看到 6 张训练指标图表,下方是 音频比较表。
以音频比较表为主来看。不要只凭 loss 数字做决定 — 过拟合开始时数字会继续下降,但耳朵听到的结果反而会变差。
训练指标图表 6 种
各图表右上角的数字是 最后一步的值。曲线本身也重要但先看终点。
- Generator Loss — 生成器总损失。越低说明越能骗过判别器
- Mel Loss — 生成与目标 mel-spectrogram 的 L1 距离。音色还原质量
- Discriminator Loss — 判别器总损失。区分真实与生成语音的能力
- KL Loss — Posterior 与 Prior 分布的 KL 散度。latent 对齐指标
- Duration Loss — 音素持续时间预测误差。发话节奏·速度学习
- Feature Matching Loss — 判别器中间 feature 匹配误差。训练稳定化项
选择哪个检查点
全部听一遍,选声音最好的。
但最后一个检查点未必最好。数据少时越往后可能越不自然,所以中间的检查点也务必一起听。
如果拿不准,可以在 ④ 部署 中将候选的 2~3 个分别以不同名称上传,实际使用后再做选择。
下一步
- 部署选定的检查点:④ 部署
- 修改超参数重新训练:② 预处理 & 训练
