Mixtral of Experts, Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed, 2024arXiv preprint arXiv:2401.04088DOI: 10.48550/arXiv.2401.04088 - 介绍了Mixtral 8x7B模型,这是一个稀疏激活的专家混合模型,为推测解码中提到的“目标MoE模型”提供了关键背景,并展示了这种大规模MoE架构的性能。