路由架构：线性、非线性、基于注意力

全新 · 开源

用于构建生产级 LLM 应用的 Python 工具包。提供提示词、RAG、智能体、结构化输出和多提供商支持等模块化实用工具。

这部分内容有帮助吗？

参考文献

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean, 2017 arXiv preprint arXiv:1701.06538 DOI: 10.48550/arXiv.1701.06538 - 这篇开创性论文介绍了现代稀疏门控专家混合层，详细阐述了如何使用带有top-k选择和噪声的线性门控网络进行负载均衡，这是线性路由器的基础。
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsely Activated Transformers, William Fedus, Barret Zoph, Noam Shazeer, 2022 Journal of Machine Learning Research, Vol. 23 DOI: 10.5555/3540277.3540449 - 这项工作展示了简单的线性路由器（通常是top-1或top-2）在将专家混合模型扩展到数十亿参数方面的有效性，突出了其计算效率和实用性。
Attention-based Experts Selection for Deep Neural Networks, Jung-Min Kim, Jong-Seok Lee, 2020 Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 34 (Association for the Advancement of Artificial Intelligence (AAAI)) DOI: 10.1609/aaai.v34i04.5879 - 这篇论文提出了一种基于注意力机制的专家选择机制，通过学习为每个输入分配注意力权重来选择专家，直接阐述了基于注意力机制的路由器的概念。