VQA: Visual Question Answering, Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh, 2015Proceedings of the IEEE International Conference on Computer Vision (ICCV) (IEEE)DOI: 10.1109/ICCV.2015.337 - 这篇论文介绍了视觉问答(VQA)任务,这是多模态AI的一个突出例子,它需要结合视觉和文本信息来理解并回答问题,展示了新型应用的开发。