键值（KV）缓存

这部分内容有帮助吗？

参考文献

Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017 Advances in Neural Information Processing Systems, Vol. 30 DOI: 10.48550/arXiv.1706.03762 - 介绍Transformer架构和自注意力机制的原始论文，这是KV缓存的基础。
Accelerate Inference, Hugging Face, 2024 (Hugging Face) - 官方文档，提供优化Transformer推理的实用指导，包括Hugging Face生态系统中KV缓存的实现和使用方式。
vLLM: Efficient Memory Management for Large Language Model Serving, Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, Ion Stoica, 2023 SOSP 2023 DOI: 10.48550/arXiv.2309.06180 - 解决大型语言模型服务中KV缓存的内存管理挑战，并介绍Paged Attention作为一种先进的优化技术。
Attention Mechanisms and Transformers, Aston Zhang, Zack C. Lipton, Mu Li, Alex Smola, 2023 (Cambridge University Press) - 一本开源深度学习教材的章节，以教育形式清晰地解释了Transformer架构、自注意力机制和相关概念。