趋近智
这个练习侧重于识别常见技术中的数据模态。理解这些不同类型的数据,多模态AI旨在将它们一起处理,是一项主要的步骤。这个练习将帮助你更善于观察日常技术所处理的各种数据,这是在思考AI系统如何处理它们之前的一项基本技能。
你的目标是检视一些你可能正在使用或对其熟悉的常用技术。对于每一个,请思考:
让我们一起过一遍几个例子。在阅读我们的分析之前,请尝试自己思考一下。
思考一下: 你如何与它互动?它会做出什么回应?
我们的分析:
这是一个典型的系统示例,它核心处理的是音频信息,但常使用简单的视觉提示。
思考一下: 你和他人可以在视频通话中通过哪些方式分享信息?
我们的分析:
视频会议本身就是多模态的,结合了视觉、听觉和书面交流。
思考一下: 当你使用这个应用时,你上传什么?你看到并与之互动的是什么?
我们的分析:
这些平台包含丰富不同类型媒体,使它们成为多模态信息环境的典型案例。
思考一下: 你如何找到一家餐厅?你如何下单?应用提供哪些信息?
我们的分析:
即使是看似简单的应用,比如食物配送,也依赖多种数据类型才能有效运作。
思考两到三种你经常使用的其他技术产品。它可以是:
对于每一个,记录下:
在你分析了几种技术产品后,思考这些问题:
这个练习不仅仅是列出数据类型。它是关于开始从多模态信息的视角看待事物。随着这门课程的学习,你将了解AI系统是如何被设计来理解和生成这些不同形式的数据的,通常以协调的方式进行,类似于人类感知和互动的方式。识别现有技术中的这些模态,是理解和欣赏多模态AI的复杂性和潜力的第一步。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造