趋近智
虽然生成清晰可懂的语音是文本转语音(TTS)系统的基本成果,但要使语音听起来自然且吸引人,则不能仅仅停留在中性、单调的表达上。富有表现力的语音合成旨在为合成语音注入情感(如喜悦、悲伤、愤怒)、说话风格(如叙述、对话、宣告)或其他人类自然使用的副语言特征。这项能力显著提升了虚拟助手、有声读物叙述、游戏角色配音和辅助技术等应用中的用户体验。
实现语音表现力通常涉及根据所需风格或情感的某种表示来调节TTS模型。我们可以大致将所用方法分类如下:
最直接的方法需要使用标有所需表现力类别的训练数据。例如,数据集可能包含标有“高兴”、“悲伤”、“兴奋”或“低语”等标签的录音。
一种直接的技术是为训练数据中存在的每个预定义风格或情感标签学习一个独特的嵌入向量 (vector)。在训练过程中,TTS模型接收文本输入以及相应的风格嵌入。这个嵌入作为额外的调节信号,影响模型生成的声学特征。
风格嵌入 的常见集成点包括:
模型学习将特定的声学特征(音高轮廓、能量水平、语速、频谱特征)与每个风格嵌入关联起来。在推理 (inference)时,您选择与所需风格对应的嵌入来生成富有表现力的语音。
一个简化流程图,展示了风格标签如何转换为嵌入,并用于调节TTS声学模型。调节可以在不同点进行,例如影响文本编码器或解码器。
与预定义的独热标签不同,全局风格标记提供了一种更灵活、数据驱动的方法。GSTs涉及TTS模型内的一个“风格编码器”模块,该模块直接从训练音频中学习一组具有代表性的风格嵌入(即“标记”),通常以无监督或半监督方式进行。
在训练期间,这个风格编码器将声学特征(如梅尔频谱)作为输入,并使用注意力机制 (attention mechanism)计算学习到的风格标记的权重 (weight)。这些标记的加权和构成话语的风格嵌入。然后,这个嵌入用于调节主TTS模型,类似于上面描述的明确风格嵌入。
主要优势在于模型能从数据本身学习到有意义的风格聚类,可能捕获到预定义标签之外的细节。在推理时,您可以向风格编码器提供参考音频,或直接操作学习到的标记的权重来控制输出风格,尽管控制特定标记可能需要分析或额外的技术。
变分自编码器(VAEs)可以用来学习一个表示风格变化的连续潜在空间。一个VAE包含一个编码器和一个解码器。编码器将输入音频(或韵律等派生特征)映射到潜在空间 中的一个分布。解码器根据从该潜在空间中抽取的样本重构输入。
在富有表现力的TTS中,VAEs可以在不同种类的语音数据上进行训练。TTS声学模型随后根据从VAE先验分布(通常是标准高斯分布 )中抽样的潜在向量 ,或通过编码参考音频样本获得的后验分布进行调节。通过操作潜在向量 ,这允许对风格进行精细控制和插值。模型学习将潜在空间的不同区域与不同表现特征关联起来。
这种方法旨在合成与所提供参考音频话语风格匹配的语音,不一定需要预定义标签。它对于即时模仿特定表达风格特别有用。
与GSTs或VAEs中使用的编码器类似,一个专用的风格编码器网络被训练用于直接从参考音频波形或其频谱图中提取固定维度的风格嵌入 (embedding)。该编码器通常使用RNN、CNN或Transformer等架构,旨在概括相关风格信息(韵律、特征共振峰偏移等),同时理想情况下忽略语音内容和说话人身份(尽管解耦可能具有挑战性)。
从参考音频中提取的风格嵌入 随后用于在合成目标文本时调节主TTS模型:
这使得“零样本”风格迁移成为可能,即模型可以模仿参考音频样本的风格,即使训练期间没有明确见过该特定风格,前提是风格编码器泛化良好。
生成富有表现力的语音为TTS系统增添了丰富性和真实感。通过根据明确标签、参考音频或学习到的潜在表示来调节合成,Tacotron 2、FastSpeech 2和Transformer TTS等模型可以从中性表达中得到提升,使得人机交互更具吸引力且更符合语境。理解这些技术对于构建复杂的TTS应用很重要。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•