趋近智
文本数据中常出现同一个词的多种形式,例如“run”、“running”和“ran”,或者“study”、“studies”和“studying”。将这些视为独立的特征会增加数据的维度,并掩盖词语之间固有的关联。文本规范化技术的目的是将词语还原为共同的基础形式或词根形式。为此有两种常用方法:词干提取和词形还原。尽管它们有相似的目标,但它们的方法和结果差异很大。
词干提取通常涉及基于预定义的启发式规则截断词尾(后缀,有时也包括前缀)。目标是将词语的屈折形式缩减为共同的“词干”,即使该词干本身并非有效的词典词语。
可以将词干提取看作一种相对粗糙但快速的词语变体归类方式。常见的词干提取算法包括Porter词干提取器(最早且最具影响力的算法之一)和Snowball词干提取器(对Porter算法的改进,也称Porter2),后者支持多种语言。
工作原理: 词干提取器按顺序应用一系列规则。例如,一条规则可能规定“如果一个词以'ing'结尾,则移除'ing'”。另一条可能处理复数形式的's'。这些规则通常旨在处理常见情况,但不考虑词语的语境或其词性。
示例:
running -> runstudies -> studiflies -> fliconnection、connections、connective -> connect (通常)argue、argued、argues、arguing -> argu优点:
缺点:
universal和university可能都变成univers)。data和datum可能保持分离,或news和new)。studi或argu),这会使得解释更加困难,并且可能不适合需要人工可读输出的应用。词形还原旨在达到与词干提取相似的效果,但采用更具原则性的方法。它使用词汇分析和形态学理解(词语的结构),将词语还原为其基础形式或词典形式,称为“词元”。
与词干提取不同,词形还原会考虑词语的语境及其词性(POS)以确定正确的词元。例如,“running”的词元取决于它是用作动词(词元:“run”)还是名词/形容词。
工作原理: 词形还原通常涉及:
示例:
running (动词) -> runstudies (名词) -> studystudies (动词) -> studyflies (名词) -> flyflies (动词) -> flybetter (形容词) -> good (因为“good”是其基础形式)meeting (名词) -> meetingmeeting (动词) -> meet优点:
缺点:
词干提取和词形还原的选择在很大程度上取决于具体的自然语言处理任务以及对性能和准确性的要求。
| 特性 | 词干提取 | 词形还原 |
|---|---|---|
| 处理方式 | 基于规则的后缀/前缀截断 | 词典查询,考虑形态和词性 |
| 输出 | 词根词干(可能不是词典词语) | 词典基础形式(词元) |
| 速度 | 更快 | 更慢 |
| 计算成本 | 更低 | 更高(需要词库、词性标注器) |
| 准确性 | 更低(可能出现过度/不足提取) | 更高(生成有意义的基础形式) |
| 可读性 | 更低(词干可能不是词语) | 更高(词元是实际词语) |
何时使用词干提取:
connecting、connected)缩减为单个词干(connect)有助于将查询与文档匹配,即使文档中不存在精确的词语形式。何时使用词形还原:
实际应用中,当计算资源允许且任务从更准确、保留意义的规范化中受益时,词形还原通常更受青睐。然而,当速度和简单性被优先考虑时,或作为比较的基准时,词干提取仍然是一种有用的技术。两者都服务于减少词汇复杂度的根本目的,通过将同一词语的不同形式视为同一底层意思的实例,帮助模型更好地泛化。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造