趋近智
自动语音识别(ASR)侧重于将语音转录成文字,而文本转语音(TTS)合成则承担了互补的任务:从输入文本生成可听的语音。虽然现代端到端神经网络系统通常直接学习映射关系,但理解传统的逻辑组成部分有助于更好地分析和设计复杂的TTS流程。这些组成部分顺序运作,将文本转换为听起来自然的波形。
让我们剖析参数化或拼接式TTS系统中涉及的典型阶段,同时考虑到神经网络方法可能会整合或重新构想这些步骤。
从文本到语音的过程始于理解和规范化输入文本。此前端处理确保文本清晰无歧义,并为后续阶段适当地构建其结构。
原始文本通常包含非标准词语,如数字、缩写、符号和标点符号,这些需要转换为其完全拼写出来、可读的形式。这个过程,称为文本规范化(TN)或非标准词(NSW)处理,对于可懂度很重要。
示例:
$12.50 -> “十二美元五十美分”Dr. Smith -> “史密斯医生”St. Louis -> “圣路易斯”10 Downing St. -> “唐宁街十号”1998 -> “一千九百九十八”文本规范化可能很复杂,涉及正则表达式、有限状态转换器(FSTs),或越来越多地使用机器学习模型。它高度依赖语言,需要谨慎处理歧义(例如,“St.”可以表示“Saint”或“Street”)。文本规范化中的错误会直接影响合成语音。
文本规范化后,会进行语言学分析,以提取与发音和韵律(语调、节奏、重音)相关联的特征。
/s ɪ n θ ə s ɪ s/(使用ARPABET记号)。这可以通过以下方式实现:
前端的输出通常是富含语言学和韵律信息的音素序列。
后端从前端接收处理过的语言学特征,并生成中间声学表示。
每个音素(或其他语言单元)没有固定的时长。其长度根据语音上下文、词语或短语内的位置、语速和强调而显著变化。时长模型预测输入序列中每个单元的时长(通常以毫秒或帧为单位)。准确的时长建模对于实现自然的语音节奏很重要。传统系统常使用HMMs或决策树,而现代神经网络系统通常在其架构中包含时长预测器(例如在FastSpeech中所示或集成到注意力机制中)。
这是核心合成步骤,系统将语言学特征(音素、时长、韵律目标)映射到声学特征序列。这些特征旨在捕捉目标语音的频谱包络和激励特性,但以一种压缩的中间格式呈现。
这一阶段的输出是逐帧的声学特征向量序列。
合成器生成的声学特征尚不是音频波形。最后一步使用声码器(语音编码器/解码器)将这些特征转换为可听见的声压波。
这些进阶声码器(在第5章中会更详细地讨论)是过去十年TTS自然度大幅提升的重要原因。
这些组成部分之间的紧密关联可以可视化为一个流程:
文本转语音合成的典型流程,展示了从输入文本到前端处理、后端合成(时长和声学特征预测),以及最终通过声码器生成波形的过程。现代端到端系统可能会整合这些阶段中的多个。
虽然这些组成部分顺序呈现,但它们紧密关联。早期阶段的错误或局限(例如不正确的音素转换或不自然的持续时间预测)显著影响最终输出质量。当我们在第4章讨论进阶TTS模型时,我们会看到端到端神经网络如何旨在学习从文本到声学特征的完整映射,有时甚至直接到波形,这可能会简化流程,但通常需要更大的数据集和细致的训练策略。理解这些基本构造仍然对于诊断问题、定制系统以及认识生成类人语音所涉及的复杂性来说,是必不可少的。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造