下游任务评估的理由

这部分内容有帮助吗？

参考文献

GLUE: A Multi-Task Benchmark for Natural Language Understanding, Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R. Bowman, 2018 ICLR 2019 DOI: 10.48550/arXiv.1804.07461 - 介绍了一种广泛采用的基准测试，用于评估跨各种下游任务的自然语言理解模型。
SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems, Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, Samuel R. Bowman, 2019 NeurIPS 2019 DOI: 10.48550/arXiv.1905.00537 - 提出了一个更具挑战性的自然语言理解模型基准，通过更难的任务扩展了GLUE的概念。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, 2018 NAACL HLT DOI: 10.48550/arXiv.1810.04805 - 介绍了BERT模型，展示了预训练后在各种下游自然语言处理任务上进行微调的有效性。