现代语音合成技术应用

TTS

已看

阿里的 CosyVoice pass
- 论文阅读_语音合成_CosyVoice
ChatTTS pass
- 开源项目_语音合成_ChatTTS
FishTTS pass
字节 Seed-TTS 论文阅读_语音合成_Seed TTS
其它
- ToucanTTS 支持多达7000种语言
  - github.com/DigitalPhonetics/IMS-Toucan
  - 官网：toucantts.com
  - 评价：中文比较机器声
- 音频神级开源工具AudioCraft
  - 音频工具集
- MARS5-TTS
  - https://github.com/camb-ai/mars5-tts 2.2K Star
  - 140+ languages
  - 主打声音克隆
  - 可用 docker 部署
  - 试用：https://6b1a3a8e53ae.ngrok.app/
  - 我在 demo 界面，试了下中文，提示不能识别字符，没部署

未看

OpenVoice

最近，由于深度学习在语音特征提取方面的应用，以及大型语言模型对语义理解的加强，许多语音合成技术已经达到了以假乱真的效果。

使用场景

语音合成常在以下几种场景中被使用：

场景一：注重合成速度

原理：传统统计学 + 语言学方法。
典型代表：前几年的科大讯飞的中文语言合成，Google TTS 的多语言版。
效果：理想情况下，能离线调用，合成速度快，并能产生字正腔圆的播音员效果，较为流畅，语义不影响合成效果。男声有时会显得不够清晰，而女声则可能过于尖锐。
用途：广泛应用于读书、读屏、新闻播报等领域。手机自带的语音合成通常采用这种方式。

场景二：注意合成效果

原理：这两年开始兴起的合成方式，通常深度学习方法和基于 Transformer 或类似的生成模型结构。
典型代表：微信文章中的“听全文”，视频编辑平台配音，大模型语音对话。
效果：微信中的语音合成在误读、音质和语气等方面都有了明显的提升；配音和对话时，不仅可以选择音质，更重要的是可以根据文本内容调整语气。
用途：从现有技术来看，这种方法需要更多的资源，更长的合成时间，成本也更高，通常需要在线使用。

场景三：定制声音合成

原理：原理与第二场景基本相同，主要是利用少量特定人的音频数据，在预训练模型的基础上进行微调，或者将这些数据作为模型输入以控制输出的音频特性。
典型代表：最初在导航场景中，用户可以选择一些有特色的声音，如郭德纲或李雪琴，以替换系统默认的电子声。也应用于视频编辑和大模型对话领域。用户只需按照提示录制一段自己的声音，然后使用这种声音进行语音合成。
效果：基本可以复刻声音，在音质，韵律，情感表达上都很像，对于一些有特点的声音效果尤其明显。
用途：在阅读长篇内容时，一些声优的声音配合特定内容可以呈现出色效果。
开源工具：GPT-SoVITs 在这方面的功能做得已经很好，而 Fish-Speech 进一步简化了定制过程。

讨论

能实现但不一定有需求

还有一些需求，比如河南话、陕西话、天津话，其应用场景尚不明确。大家可能会因为新奇而试用，但在真正的作品中，这些方言很少被使用。

定制自己的声音也是这样。实际上，大部分人的声音并不那么动听，就像大部分人的长相并不那么出众。一种可行的使用场景是用自己的声音为自己的视频配音，既能保证流畅度，减少重复录制，又能保持自己的风格，可以看作是一种声音美颜。至于其他可能的应用场景，比如使用自己的声音给男朋友做语音助手，是否过于奇特，还有待商榷。

所以我觉得定制功能可能主要针对二次开发者，而非最终用户。

场景讨论

就交流而言，流畅和富含情感不能说不重要，但我觉得清晰度和速度可能更为关键。毕竟，交流只是个工具，简单实用才是王道。

在情感层面，特定场景下，比如给孩子讲睡前故事，或者听一篇小软文，有些声音能让人迅速沉浸在情境中，带来不一样的感受。它们能创造出 1+1>2 的效果，甚至可能成为一种艺术的媒介。比如：有声读物或视频配音。

所以，也应该根据不同场景采取不同的策略。

技术讨论

目前大公司如 Microsoft 和 OpenAI 提供的文本转语音（TTS）技术已经非常成熟。在开源领域，深度学习驱动的模型的效果也并不逊色。所以，对于普通用户来说，选择的关键在于易用性和成本。

对于 TTS 的开发者来说，目前的 TTS 技术几乎可以以假乱真了，未来大家可能会更关注降本增效，是否可以优化合成流程，加快速度并减少资源使用，将新技术的功耗降低到传统技术的水平。此外，用户体验方面也有优化空间，比如，用户以前需要录制一段很长的定制内容，现在只需要录一句话，而且不需要指定内容，还可以去除背景噪音。用户只需简单点击界面即可使用。

随着开源和技术的普及，TTS 可能不再是一个可以单独销售的核心技术，反而可能变成这波大潮中的底层技术之一（我觉得 LLM 也是同样逻辑）。大家可以直接使用，只需要考虑成本问题。将焦点从技术细节转向解决问题本身，可能是未来的发展趋势。