概率与统计基础知识

这部分内容有帮助吗？

参考文献

Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 全面涵盖了概率论、信息论和深度学习基础，包括softmax和交叉熵。
Speech and Language Processing, Daniel Jurafsky, James H. Martin, 2020 (Stanford University) - 自然语言处理的教材，详细介绍了统计语言模型、链式法则以及NLP的概率基础。
Elements of Information Theory, Thomas M. Cover, Joy A. Thomas, 2006 (John Wiley & Sons, Inc.) DOI: 10.1002/0471742762 - 信息论的经典著作，提供严谨的数学处理，涵盖熵、交叉熵和KL散度等信息论概念。
The Curious Case of Neural Text Degeneration, Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, Yejin Choi, 2020 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1904.09751 - 介绍了核采样（Top-p）并讨论了神经语言模型中文本生成的各种高级采样策略。