趋近智
在处理完原始文本数据后,下一步很自然就是将其转变为机器学习 (machine learning)算法能理解的数值形式。原始文本字符串不直接适用于大多数模型,因此需要生成有意义的数值特征。
本章将介绍用于文本表示的基本特征工程方法。我们将从词袋模型等简单的基于计数的方法的思路说起,并逐步介绍广泛使用的词频-逆文档频率 (TF-IDF) 加权方式。你将学习 TF-IDF 分数(通常计算为 )如何在文档集合中衡量词语的重要性。
我们还将查看 N-gram(如二元词组、三元词组等)如何用于在特征中包含局部词序和上下文 (context)。最后,我们将提及处理文本特征可能存在的较高维度问题的方法,包括特征哈希和像奇异值分解 (SVD) 这样的降维方法。完成本章后,你将能够生成和比较文本数据的不同数值表示形式,为其作为机器学习模型的输入做好准备。
2.1 从词袋模型到TF-IDF
2.2 计算 TF-IDF 分数
2.3 使用N-gram来获取语境信息
2.4 特征哈希简介
2.5 文本特征的降维
2.6 比较不同的文本表示方法
2.7 动手实践:生成文本特征