趋近智
在像 Transformer 这样的模型处理文本之前,原始字符序列必须被转换为一系列数字 ID。这个转换过程被称为分词 (tokenization)。虽然像按空格分割文本这样的简单方法对小任务有效,但它们难以应对用于大型语言模型(LLM)的海量数据集中的庞大词汇量和形态变化。处理未知词(词汇表 (vocabulary)外词或 OOV)以及管理可能数百万个独特的词需要更复杂的方法。
本章侧重于旨在解决这些挑战的子词 (subword)分词算法。您将了解字节对编码(BPE)和 WordPiece,这些技术基于频繁的子词单元而非整个词来构建词汇表。我们还将讨论 SentencePiece 框架、特殊标记 (token)(如 [CLS]、[SEP])的作用和管理,以及选择词汇表大小 ()、平衡模型表达能力和计算效率的实际考量。学习结束时,您将明白如何有效地为大型模型准备文本数据。
5.1 子词分词的必要性
5.2 字节对编码 (BPE) 算法
5.3 WordPiece 分词
5.4 SentencePiece 实现
5.5 处理特殊分词
5.6 词汇量大小选择的权衡