所有课程

了解大型语言模型大小与硬件需求

章节 1: 大型语言模型及其规模介绍

什么是大型语言模型（LLM）？

了解模型参数

模型大小如何衡量

不同模型大小的例子

第 1 章测验

章节 2: 人工智能必需的硬件组件

中央处理器 (CPU)

随机存取存储器 (RAM)

图形处理器 (GPU)

视频内存 (VRAM)

TPU简要介绍

第 2 章测验

章节 3: 模型大小与硬件需求的关联

模型参数与内存占用

数据类型与精度 (FP16, INT8)

计算需求 (FLOPS)

内存带宽的重要性

第 3 章测验

章节 4: 运行LLM：推理与训练

什么是模型推理？

推断的硬件需求

什么是模型训练？

训练的硬件需求

专注于推理需求

第 4 章测验

章节 5: 估算硬件需求

显存需求估算：参数量经验法则

考虑激活内存

影响实际使用量的因素

检查硬件配置

实践：简单的显存估算

第 5 章测验

什么是大型语言模型（LLM）？

这部分内容有帮助吗？

参考文献

Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017 Advances in Neural Information Processing Systems (NeurIPS) DOI: 10.48550/arXiv.1706.03762 - 描述了Transformer架构，该架构是现代大型语言模型的基础，解释了其模式匹配能力背后的机制。
Language Models are Few-Shot Learners, Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei, 2020 Advances in Neural Information Processing Systems (NeurIPS) DOI: 10.48550/arXiv.2005.14165 - 介绍了GPT-3，展示了参数和训练数据规模的增加如何使大型语言模型能够以最少的特定任务数据执行各种任务。
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu, 2019 Journal of Machine Learning Research (JMLR) DOI: 10.48550/arXiv.1910.10683 - 详细介绍了文本到文本传输Transformer (T5) 模型，对迁移学习技术进行了全面研究，并展示了如何将各种自然语言处理任务构建为文本到文本问题。
On the Opportunities and Risks of Foundation Models, Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Dilara Bakar, Percy Liang, et al., 2021 arXiv (Stanford Institute for Human-Centered Artificial Intelligence (HAI)) DOI: 10.48550/arXiv.2108.07258 - 介绍了基础模型的概念，其中大型语言模型是突出类型，讨论了它们在各种应用中的共享能力和影响。

© 2025 ApX Machine Learning用心打造