TTS

已看

未看

最近,由于深度学习在语音特征提取方面的应用,以及大型语言模型对语义理解的加强,许多语音合成技术已经达到了以假乱真的效果。

使用场景

语音合成常在以下几种场景中被使用:

场景一:注重合成速度

  • 原理:传统统计学 + 语言学方法。
  • 典型代表:前几年的科大讯飞的中文语言合成,Google TTS 的多语言版。
  • 效果:理想情况下,能离线调用,合成速度快,并能产生字正腔圆的播音员效果,较为流畅,语义不影响合成效果。男声有时会显得不够清晰,而女声则可能过于尖锐。
  • 用途:广泛应用于读书、读屏、新闻播报等领域。手机自带的语音合成通常采用这种方式。

场景二:注意合成效果

  • 原理:这两年开始兴起的合成方式,通常深度学习方法和基于 Transformer 或类似的生成模型结构。
  • 典型代表:微信文章中的“听全文”,视频编辑平台配音,大模型语音对话。
  • 效果:微信中的语音合成在误读、音质和语气等方面都有了明显的提升;配音和对话时,不仅可以选择音质,更重要的是可以根据文本内容调整语气。
  • 用途:从现有技术来看,这种方法需要更多的资源,更长的合成时间,成本也更高,通常需要在线使用。

场景三:定制声音合成

  • 原理:原理与第二场景基本相同,主要是利用少量特定人的音频数据,在预训练模型的基础上进行微调,或者将这些数据作为模型输入以控制输出的音频特性。
  • 典型代表:最初在导航场景中,用户可以选择一些有特色的声音,如郭德纲或李雪琴,以替换系统默认的电子声。也应用于视频编辑和大模型对话领域。用户只需按照提示录制一段自己的声音,然后使用这种声音进行语音合成。
  • 效果:基本可以复刻声音,在音质,韵律,情感表达上都很像,对于一些有特点的声音效果尤其明显。
  • 用途:在阅读长篇内容时,一些声优的声音配合特定内容可以呈现出色效果。
  • 开源工具:GPT-SoVITs 在这方面的功能做得已经很好,而 Fish-Speech 进一步简化了定制过程。

讨论

能实现但不一定有需求

还有一些需求,比如河南话、陕西话、天津话,其应用场景尚不明确。大家可能会因为新奇而试用,但在真正的作品中,这些方言很少被使用。

定制自己的声音也是这样。实际上,大部分人的声音并不那么动听,就像大部分人的长相并不那么出众。一种可行的使用场景是用自己的声音为自己的视频配音,既能保证流畅度,减少重复录制,又能保持自己的风格,可以看作是一种声音美颜。至于其他可能的应用场景,比如使用自己的声音给男朋友做语音助手,是否过于奇特,还有待商榷。

所以我觉得定制功能可能主要针对二次开发者,而非最终用户。

场景讨论

就交流而言,流畅和富含情感不能说不重要,但我觉得清晰度和速度可能更为关键。毕竟,交流只是个工具,简单实用才是王道。

在情感层面,特定场景下,比如给孩子讲睡前故事,或者听一篇小软文,有些声音能让人迅速沉浸在情境中,带来不一样的感受。它们能创造出 1+1>2 的效果,甚至可能成为一种艺术的媒介。比如:有声读物或视频配音。

所以,也应该根据不同场景采取不同的策略。

技术讨论

目前大公司如 Microsoft 和 OpenAI 提供的文本转语音(TTS)技术已经非常成熟。在开源领域,深度学习驱动的模型的效果也并不逊色。所以,对于普通用户来说,选择的关键在于易用性和成本。

对于 TTS 的开发者来说,目前的 TTS 技术几乎可以以假乱真了,未来大家可能会更关注降本增效,是否可以优化合成流程,加快速度并减少资源使用,将新技术的功耗降低到传统技术的水平。此外,用户体验方面也有优化空间,比如,用户以前需要录制一段很长的定制内容,现在只需要录一句话,而且不需要指定内容,还可以去除背景噪音。用户只需简单点击界面即可使用。

随着开源和技术的普及,TTS 可能不再是一个可以单独销售的核心技术,反而可能变成这波大潮中的底层技术之一(我觉得 LLM 也是同样逻辑)。大家可以直接使用,只需要考虑成本问题。将焦点从技术细节转向解决问题本身,可能是未来的发展趋势。