Managing Long Contexts with Large Retrieved Datasets

Was this section helpful?

References

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré, 2022 arXiv preprint arXiv:2205.14135 DOI: 10.48550/arXiv.2205.14135 - Details an attention algorithm that speeds up and reduces memory usage for transformers, enabling longer context windows.
Retrieval-Augmented Generation for Large Language Models: A Survey, Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Meng Wang, Haofen Wang, 2023 arXiv preprint arXiv:2312.10997 DOI: 10.48550/arXiv.2312.10997 - Provides a comprehensive overview of RAG techniques, covering various methods for optimizing generation through retrieval.