语音识别系统的一个特点是其预期的用户。系统是为理解单独一个人而设计,还是为理解任何对其说话的人而构建?这种区分将ASR系统分为两大类:说话人相关型和说话人无关型。说话人相关型系统说话人相关型系统是针对单个人的声音进行训练的。要使用此类系统,您必须首先进行注册或训练阶段。在此阶段,您通过朗读一组预设的词语或句子来提供语音样本。系统会分析您声音的独有特征,包括您的音高、语速和口音,从而建立一个专门适合您的模型。可以把它想象成一套为一个人量身定制的西装。它完美地适合那个人,但不太可能很好地适合其他人。其主要优点是针对该用户的高准确性。因为模型是专门化的,所以它能取得出色的表现。然而,它的主要不足之处是缺乏灵活性。如果注册用户以外的任何人尝试对它说话,它的表现会很差。这些系统常用于以单个用户的精确度为主要目标的场景,例如医生或律师的专业听写软件,或作为确认个人身份的生物识别安全形式。说话人无关型系统与此相反,说话人无关型系统旨在理解任何人的语音,无论其声音、口音或性别。这些系统不需要最终用户进行任何个人训练。相反,它们是通过对从成千上万甚至数百万不同说话人那里收集到的海量音频数据进行模型训练而开发的。这种多样的数据集使模型接触到丰富多样的说话风格,使其能够对新的、未曾听过的声音进行泛化处理。如果说说话人相关型系统是一套量身定制的西装,那么说话人无关型系统就是一件为大众设计的“均码”T恤。其明显优点是普适性,使其适用于大众市场产品和服务。主要挑战是在如此多样的人群中实现高准确性。背景噪音、不同方言以及语速快或慢等因素都可能使这项任务变得困难。绝大多数现代面向消费者的ASR应用都是说话人无关型的。这包括亚马逊Alexa和谷歌助手等数字助理、自动化电话系统以及视频字幕服务。digraph G { rankdir=TB; splines=ortho; bgcolor="transparent"; node [shape=box, style="rounded,filled", fontname="sans-serif"]; edge [fontname="sans-serif"]; subgraph cluster_0 { style=filled; color="#e9ecef"; label = "说话人相关型系统"; fontname="sans-serif"; UserA [label="用户A的声音", fillcolor="#a5d8ff"]; DataA [label="训练数据\n(单一说话人)", fillcolor="#96f2d7"]; ModelA [label="调优模型", fillcolor="#d0bfff"]; UserA -> DataA; DataA -> ModelA; } subgraph cluster_1 { style=filled; color="#e9ecef"; label = "说话人无关型系统"; fontname="sans-serif"; User1 [label="用户1", fillcolor="#a5d8ff"]; User2 [label="用户2", fillcolor="#a5d8ff"]; User3 [label="...", fillcolor="#a5d8ff", style=dashed]; User4 [label="用户N", fillcolor="#a5d8ff"]; DataB [label="训练数据\n(数千名说话人)", fillcolor="#96f2d7"]; ModelB [label="通用模型", fillcolor="#d0bfff"]; {User1, User2, User3, User4} -> DataB; DataB -> ModelB; } }说话人相关型模型的训练过程使用来自单个人的数据,而说话人无关型模型则使用来自多样的庞大群体的数据进行训练。快速比较下表总结了这两种系统之间的主要差异。特征说话人相关型说话人无关型训练数据单个用户的声音。数千名不同说话人的声音。用户要求需要“注册”阶段。无需单独训练。准确性对该用户非常高。通常较低,但稳步提高。灵活性低。仅适用于一个人。高。适用于大众。常见用途个人听写,语音生物识别。语音助手,呼叫中心。选择说话人相关型系统还是说话人无关型系统完全取决于应用的用途。如果您需要一个供自己使用的高准确度转录工具,那么相关型系统可能适合。对于多数面向公众或多用户使用的应用来说,说话人无关型系统是唯一可行的选择。现代ASR发展主要着重于改进说话人无关型系统的性能。本课程剩余部分讨论的技术和模型将着重处理构建这些功能强的通用系统所面临的难题。