好的,你已经看到了多模态人工智能的一些令人印象深刻的例子,从生成图像描述到回答图片相关问题,甚至开始从文本生成图像。这些应用都有一个共同点:它们结合了不同类型的信息(模态),以完成仅靠一种数据类型难以或无法完成的任务。现在轮到你扮演设计师的角色了!这个实践练习是关于构思你自己的简单多模态人工智能应用。不必担心如何构建它的技术细节;目标是创造性地思考结合模态如何解决问题或创造出新颖有趣的事物。你的机会:设计一个多模态助手让我们走过一个思考过程,帮助你勾勒出一个构想。拿一张纸或打开一个新文档,然后我们开始吧。1. 确定一个场景或需求考虑你的日常生活、爱好或简单任务。有没有什么地方感觉有点笨拙,或能通过一点“智能”辅助来改进的?一个能同时理解多种信息的人工智能会有用吗?例如,想象你正在组装一件新家具,而且说明书有点让人困惑。又或者你正在学习一门新语言,想在查看相关图片时练习发音。写下一两个你所想到的场景。2. 涉及哪些信息类型?(模态)对于你选择的场景,哪些数据类型自然存在,或者对人工智能来说访问会很有用?视觉内容?(图像、视频、某人正在看的东西)声音?(语音、音乐、环境噪音)文本?(书面说明、问题、标签)回顾本章的例子:图像描述使用图像(输入)生成文本(输出)。视觉问答使用图像和文本(一个问题)作为输入,生成文本(一个答案)作为输出。多模态情感分析可能使用视频(视觉表情)、音频(语调)和文本(评论)来理解某种观点。对于你选择的场景,列出你的人工智能助手需要理解或生成的主要模态。3. 输入是什么?输出是什么?(输入和输出)现在,让我们更具体一些。输入: 用户(或环境)会向你的人工智能系统提供哪些精确的信息?例如:如果你的构想是“植物识别器”,输入可能是一张用手机拍摄的植物图片和一个口头问题,例如“这是什么植物,我该如何照料它?”输出: 人工智能系统会产生什么结果?例如(继续植物识别器):输出可以是显示为文本的植物名称,并附带口头护理说明。描述你的多模态人工智能构想的输入和输出。4. 模态如何配合运作?这正是“多模态”方面的出色之处。不同数据类型的结合如何帮助你的人工智能实现其目标?一种模态是否为另一种提供上下文?它们是否一起处理以获得更全面的理解?人工智能是否将信息从一种模态翻译到另一种模态?考虑“视觉提示增强语音识别”的例子。人工智能不只听音频;它还会观察唇部动作(视觉)。音频和视觉信息配合作用,以提高语音识别的准确性,尤其是在嘈杂的环境中。简要说明你的构想中不同模态如何彼此配合或互补。5. 为什么多模态方法更优?考虑你的任务是否能只用一种模态完成。如果是,使用多种模态有什么优势?它会使系统更准确吗?更直观易用吗?更适应不同情况吗?它能带来全新的能力吗?对于图像描述,仅有一张图像(单模态)无法告诉你它的描述。你需要人工智能来连接视觉信息和文本语言。简单写下一两句话,说明为什么多模态方法对你的具体构想有益。我们一起来看一个快速示例:场景/需求: 帮助游客在一个外国城市中导航,并理解非母语的标识或菜单。模态:输入:图像(通过手机摄像头拍摄的标识或菜单照片)。输入:文本(游客偏好的语言,在应用中设置)。输出:文本(翻译后的文本,叠加在图像上或显示在下方)。输出:音频(文本的语音翻译)。输入与输出:输入:用户将手机摄像头对准标识(图像),并预先选择“英语”作为其语言(文本)。输出:标识上的外语文本被翻译成英语并显示在手机屏幕上(文本),并且可选地朗读出来(音频)。模态如何配合运作: 系统使用图像处理来检测视觉输入中的文本。然后,这个检测到的文本由翻译模型处理,该模型使用目标语言(另一个文本输入)来生成翻译后的文本输出。音频输出由这个翻译后的文本生成。为什么多模态更优: 纯粹基于文本的翻译器需要用户输入外语文本,这对于不熟悉的字母可能很困难。纯粹基于图像的系统可能不知道要翻译成哪种语言。将图像捕捉(用于源文本)与文本设置(用于目标语言)结合,并提供文本和音频输出,使其更具用户友好性和效率。**现在,使用这些提示来完善你自己的构想。**这里没有对错之分。目标是练习思考如何将不同的信息流编织在一起,以创建有用且有趣的人工智能应用。当你反思你的构想时,你甚至可能会开始预见本课程前面讨论过的一些简单挑战,例如如何获取这些不同类型的数据(第2章的数据对齐),或者系统如何学习连接它们(第3章的集成技术)。这很棒!这表明你已经在融会贯通。这种思考是设计任何人工智能系统的第一步。通过理解问题和可用的信息,工程师和设计师可以开始勾勒出解决方案。保留你的笔记;当你对人工智能有更多了解时,你可能会带着新的观点重新审视这些构想!