计算资源管理

全新 · 开源

Kerb - 大语言模型开发工具包

用于构建生产级 LLM 应用的 Python 工具包。提供提示词、RAG、智能体、结构化输出和多提供商支持等模块化实用工具。

这部分内容有帮助吗？

参考文献

Mixed-Precision Training, Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, Hao Wu, 2018 International Conference on Learning Representations (ICLR) 2018 DOI: 10.48550/arXiv.1710.03740 - 介绍混合精度训练技术（包括损失缩放）的奠基性论文，旨在显著降低内存使用并加速深度学习模型训练。
Training Deep Nets with Sublinear Memory Cost, Tianqi Chen, Bing Xu, Chiyuan Zhang, Carlos Guestrin, 2016 arXiv preprint arXiv:1604.06174 DOI: 10.48550/arXiv.1604.06174 - 提出梯度检查点（也称为激活检查点）的原始研究论文，通过计算换取内存，从而实现更深层神经网络的训练。
QLoRA: Efficient Finetuning of Quantized LLMs via LoRA, Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer, 2023 arXiv preprint arXiv:2305.14314 DOI: 10.48550/arXiv.2305.14314 - 介绍了 QLoRA，一种微调量化大型语言模型的方法，其内存节省主要依赖于8位优化器和分页优化器。
DeepSpeed: Large Scale Distributed Training of DL Models with System Optimizations, Saurabh Agarwal, Shuai Che, Michael Gschwind, Hanwen Chang, Minjia Zhang, Reza Yazdani, Jeff Rasley, Elton Zheng, Minmin Gong, Xinggang Wang, Hao Liu, Bo Li, Yuxiong He, 2021 Proceedings of the VLDB Endowment, Vol. 15 (VLDB Endowment) DOI: 10.14778/3554821.3554867 - 介绍了 DeepSpeed，一个深度学习优化库，通过各种系统优化（包括内存管理）实现高效的大规模分布式训练。
Hugging Face Accelerate Documentation, Hugging Face, 2024 (Hugging Face) - Hugging Face Accelerate 的官方文档，该库简化了混合精度训练、梯度累积和分布式训练的设置。