文本数据中常出现同一个词的多种形式,例如“run”、“running”和“ran”,或者“study”、“studies”和“studying”。将这些视为独立的特征会增加数据的维度,并掩盖词语之间固有的关联。文本规范化技术的目的是将词语还原为共同的基础形式或词根形式。为此有两种常用方法:词干提取和词形还原。尽管它们有相似的目标,但它们的方法和结果差异很大。词干提取:一种启发式方法词干提取通常涉及基于预定义的启发式规则截断词尾(后缀,有时也包括前缀)。目标是将词语的屈折形式缩减为共同的“词干”,即使该词干本身并非有效的词典词语。可以将词干提取看作一种相对粗糙但快速的词语变体归类方式。常见的词干提取算法包括Porter词干提取器(最早且最具影响力的算法之一)和Snowball词干提取器(对Porter算法的改进,也称Porter2),后者支持多种语言。工作原理: 词干提取器按顺序应用一系列规则。例如,一条规则可能规定“如果一个词以'ing'结尾,则移除'ing'”。另一条可能处理复数形式的's'。这些规则通常旨在处理常见情况,但不考虑词语的语境或其词性。示例:running -> runstudies -> studiflies -> fliconnection、connections、connective -> connect (通常)argue、argued、argues、arguing -> argu优点:速度快: 词干提取算法通常很快,因为它们依赖简单的规则应用,无需查询大型词典。简单: 该过程在计算上比词形还原复杂度较低。维度降低: 有效减少唯一词符的数量。缺点:过度提取: 有时词语被过度移除,导致不应归类的词语被归类(例如,universal和university可能都变成univers)。提取不足: 未能将应关联的词语归类(例如,data和datum可能保持分离,或news和new)。意义模糊: 得到的词干通常不是实际存在的词语(如studi或argu),这会使得解释更加困难,并且可能不适合需要人工可读输出的应用。词形还原:一种基于词典的方法词形还原旨在达到与词干提取相似的效果,但采用更具原则性的方法。它使用词汇分析和形态学理解(词语的结构),将词语还原为其基础形式或词典形式,称为“词元”。与词干提取不同,词形还原会考虑词语的语境及其词性(POS)以确定正确的词元。例如,“running”的词元取决于它是用作动词(词元:“run”)还是名词/形容词。工作原理: 词形还原通常涉及:在词典或词库(如WordNet)中查找该词。通常使用词性(POS)标注来理解词语在句子中的作用(名词、动词、形容词等)。这有助于解决歧义(例如,“meeting”作为名词与动词的区别)。返回词库中为该词语和词性指定的基础形式。示例:running (动词) -> runstudies (名词) -> studystudies (动词) -> studyflies (名词) -> flyflies (动词) -> flybetter (形容词) -> good (因为“good”是其基础形式)meeting (名词) -> meetingmeeting (动词) -> meet优点:准确性高: 生成实际的词典词语(词元),这些词语在语义上有意义。语境敏感: 可以使用词性信息来提高准确性。易于理解: 结果是人工可读的基础形式。缺点:速度慢: 词形还原明显比词干提取慢,因为它涉及词典查询,并且通常需要词性标注,这本身就是一项计算任务。资源密集: 需要全面的词库,以及可能需要针对目标语言训练过的词性标注器。词干提取与词形还原的选择词干提取和词形还原的选择在很大程度上取决于具体的自然语言处理任务以及对性能和准确性的要求。特性词干提取词形还原处理方式基于规则的后缀/前缀截断词典查询,考虑形态和词性输出词根词干(可能不是词典词语)词典基础形式(词元)速度更快更慢计算成本更低更高(需要词库、词性标注器)准确性更低(可能出现过度/不足提取)更高(生成有意义的基础形式)可读性更低(词干可能不是词语)更高(词元是实际词语)何时使用词干提取:信息检索 / 搜索引擎: 速度通常很重要,如果能提高召回率,词语归类上的轻微不准确性可能可以接受。将不同形式(如connecting、connected)缩减为单个词干(connect)有助于将查询与文档匹配,即使文档中不存在精确的词语形式。大规模文本分析: 处理大量数据集时,计算效率是主要考虑因素。简单模型的特征工程: 对于基本的文本分类或聚类任务可能足够,在这些任务中,语义精度不如关联词语的归类重要。何时使用词形还原:问答系统: 准确理解词语的含义非常重要。聊天机器人 / 对话式人工智能: 需要准确的语言理解以生成恰当的回复。机器翻译: 保持词语正确的原始含义极其重要。情感分析 / 文本分类: 对词语的理解有助于提高模型准确性时。语言学分析: 任何需要形态准确性和有意义的基础形式的任务。实际应用中,当计算资源允许且任务从更准确、保留意义的规范化中受益时,词形还原通常更受青睐。然而,当速度和简单性被优先考虑时,或作为比较的基准时,词干提取仍然是一种有用的技术。两者都服务于减少词汇复杂度的根本目的,通过将同一词语的不同形式视为同一底层意思的实例,帮助模型更好地泛化。