所有课程

自然语言处理基本原理

章节 1: 自然语言处理基本原理与高级文本处理

自然语言处理流程

高级分词方法

词干提取与词形还原比较

文本数据中的噪声处理

停用词高级定制

文本标准化方法

动手实践：构建预处理流程

第 1 章测验

章节 2: 文本特征工程

从词袋模型到TF-IDF

计算 TF-IDF 分数

使用N-gram来获取语境信息

特征哈希简介

文本特征的降维

比较不同的文本表示方法

动手实践：生成文本特征

第 2 章测验

章节 3: 监督学习在文本分类中的应用

分类算法回顾

将分类器应用于文本数据

分类模型评估指标

交叉验证策略

文本模型的超参数调优

处理不平衡数据集

实践：构建文本分类器

第 3 章测验

章节 4: 嵌入表示与序列数据理解

基于频率的模型的局限性

分布式语义学简介

词嵌入基本原理

Word2Vec：CBOW 与 Skip-gram 模型结构

GloVe：词语的全局向量表示

词嵌入的可视化

使用预训练词嵌入模型

动手实践：使用词嵌入

第 4 章测验

章节 5: 自然语言处理中的序列模型介绍

序列感知的必要性

循环神经网络（RNN）基础

理解梯度消失问题

长短期记忆（LSTM）网络

门控循环单元 (GRUs)

将序列模型应用于文本

动手实践：构建一个简单的序列模型

第 5 章测验

Word2Vec：CBOW 与 Skip-gram 模型结构

这部分内容有帮助吗？

参考文献

Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, 2013 arXiv preprint arXiv:1301.3781 DOI: 10.48550/arXiv.1301.3781 - 介绍了用于学习词嵌入的原始连续词袋（CBOW）和Skip-gram架构。
Distributed Representations of Words and Phrases and their Compositionality, Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, Jeffrey Dean, 2013 Advances in Neural Information Processing Systems 26 (Curran Associates) DOI: 10.48550/arXiv.1310.4546 - 介绍了负采样和层次Softmax，它们是高效Word2Vec训练的优化技术。
Speech and Language Processing (3rd ed. draft), Daniel Jurafsky, James H. Martin, 2025 - 在更广泛的自然语言处理背景下，提供了对词嵌入（包括Word2Vec）的全面解释（第6章）。
gensim.models.word2vec.Word2Vec, Gensim Development Team, 2024 - Gensim库中Word2Vec实现的官方API文档和使用示例。

© 2025 ApX Machine Learning用心打造