趋近智
首页
博客
课程
大模型
中
所有课程
多模态人工智能介绍
章节 1: 什么是多模态人工智能?
人工智能:简要概述
理解数据模态:文本、图像、音频
多模态AI的界定:处理多样数据
结合多种模态的益处
多模态AI与单模态AI:主要区别
多模态系统示例
多模态AI的主要难点
一个多模态任务示例:生成图像描述
练习:识别常见技术中的模态
章节 2: 多模态系统的数据预备
文本数据表示:从字符到意义
图像数据表示:像素、特征与结构
音频数据表示:声波到数字信号
视频数据:图像与声音的序列
不同数据类型的基本预处理
多源数据对齐
跨模态信息比较
动手实践:观察数据格式
章节 3: 模态整合方法
多模态整合的方法:早期、中期、晚期
早期整合:在输入阶段结合数据
中间层次的合并:已处理特征的整合
晚期融合:组合独立预测结果
共享表示:学习共同特征
协调表示:模态间映射
多模态学习的基本架构
注意力机制简介:集中于相关信息
实践:图示结合方法
章节 4: 多模态AI模型的组成部分
从文本数据中提取特征
从图像数据中提取特征
从音频数据中提取特征
用于多模态任务的简单神经网络层
衡量性能:组合数据的损失函数
多模态系统训练:概述
多模态输出的基础评估指标
动手实践:构思一个简单模型
章节 5: 多模态AI入门应用
图像描述系统:从图像生成文本
视觉问答:通过提问与图片互动
文本到图像生成:根据描述创建视觉内容(简介)
通过视觉信息提升的语音识别 (介绍)
多模态情感分析:从多重线索理解观点
多模态应用中的输入与输出
实践:构思多模态解决方案
文本到图像生成:根据描述创建视觉内容(简介)
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning