这个练习侧重于识别常见技术中的数据模态。理解这些不同类型的数据,多模态AI旨在将它们一起处理,是一项主要的步骤。这个练习将帮助你更善于观察日常技术所处理的各种数据,这是在思考AI系统如何处理它们之前的一项基本技能。你的任务:成为模态侦探你的目标是检视一些你可能正在使用或对其熟悉的常用技术。对于每一个,请思考:你向它提供哪些信息(输入)?它向你反馈哪些信息(输出)?根据这些输入和输出,涉及的主要数据模态是什么?让我们一起过一遍几个例子。在阅读我们的分析之前,请尝试自己思考一下。例子1:智能音箱(如亚马逊Echo或谷歌Home)思考一下: 你如何与它互动?它会做出什么回应?我们的分析:输入: 主要是你的语音指令(音频模态)。你也可能按下物理按钮,这是一种互动形式,但我们通常关注AI处理的丰富数据类型。输出: 音箱会用合成语音(音频模态)回应。它也可能在设备上显示光线模式(视觉模态),以表明它正在监听或处理。涉及的模态: 主要有音频(输入和输出)和视觉(简单输出)。这是一个典型的系统示例,它核心处理的是音频信息,但常使用简单的视觉提示。例子2:视频会议软件(如Zoom或微软Teams)思考一下: 你和他人可以在视频通话中通过哪些方式分享信息?我们的分析:输入: 你的摄像头提供的实时视频流(视频模态),麦克风捕捉到的你的声音(音频模态),你在聊天中输入的文本消息(文本模态),以及可能的屏幕共享(这本质上是图像序列,所以是视频或图像序列模态)。输出: 其他参与者的视频流(视频模态),他们的声音(音频模态),聊天中的文本消息(文本模态),和共享屏幕(视频/图像序列模态)。涉及的模态: 视频、音频和文本是这里突出的模态。视频会议本身就是多模态的,结合了视觉、听觉和书面交流。例子3:一个以视觉为主的社交媒体应用(如Instagram或Pinterest)思考一下: 当你使用这个应用时,你上传什么?你看到并与之互动的是什么?我们的分析:输入: 你可能上传照片(图像模态)或视频(视频模态,其中也包含音频模态成分)。你撰写描述、评论或消息(文本模态)。在某些功能中,你也可能录制或通过音频片段进行回应。输出: 你看到他人分享的图像和视频。你阅读描述、评论和用户资料中的文本。你听到视频中的音频。涉及的模态: 图像、视频、音频和文本。这些平台包含丰富不同类型媒体,使它们成为多模态信息环境的典型案例。例子4:食物配送应用思考一下: 你如何找到一家餐厅?你如何下单?应用提供哪些信息?我们的分析:输入: 你输入搜索查询或浏览类别(文本模态)。你点击食物或餐厅的图片(与视觉模态互动)。你可能提供你的位置(位置数据,这可视为另一种模态)。输出: 应用显示餐厅列表(文本模态),食物菜单(文本模态),菜肴照片(图像模态),以及显示餐厅位置或配送进度的地图(视觉/图形模态,通常包含位置数据)。涉及的模态: 文本、图像、位置数据和图形视觉(地图)。即使是看似简单的应用,比如食物配送,也依赖多种数据类型才能有效运作。现在轮到你啦思考两到三种你经常使用的其他技术产品。它可以是:你的智能手机操作系统。现代汽车的信息娱乐系统。游戏机。在线学习平台。新闻网站或应用。对于每一个,记录下:技术产品:主要输入(及其模态):主要输出(及其模态):已识别模态列表:反思你的发现在你分析了几种技术产品后,思考这些问题:对于看似简单的应用所涉及到的模态数量,你是否感到惊讶?对于任何一种技术,不同的模态如何一起发挥作用以提供完整的体验?例如,在导航应用中,地图(视觉)、语音指令(音频)和地名(文本)如何结合?这些技术中是否有任何一个只使用单一模态仍能有效运作?会失去什么?这个练习不仅仅是列出数据类型。它是关于开始从多模态信息的视角看待事物。随着这门课程的学习,你将了解AI系统是如何被设计来理解和生成这些不同形式的数据的,通常以协调的方式进行,类似于人类感知和互动的方式。识别现有技术中的这些模态,是理解和欣赏多模态AI的复杂性和潜力的第一步。