ApX 标志ApX 标志

趋近智

GLM-4V

参数

9B

上下文长度

128K

模态

Multimodal

架构

Dense

许可证

MIT License

发布日期

15 Jan 2024

训练数据截止日期

-

技术规格

注意力结构

Multi-Head Attention

隐藏维度大小

4096

层数

40

注意力头

32

键值头

32

激活函数

-

归一化

-

位置嵌入

Absolute Position Embedding

GLM-4V

由 Z.ai 开发的 GLM-4V 模型变体代表了多模态人工智能领域的重大进步。作为 GLM-4 系列的一员,它旨在处理和解析高分辨率图像、视频数据以及文本输入。该架构实现了视觉与语言特征的深度融合,使模型能够执行复杂的多模态任务,同时不会损耗其自然语言处理能力。其设计目标是为理解多样化的数据模态提供一个统一的框架。

在技术上,GLM-4V 采用了精密的架构,包括视觉编码器(Visual Encoder)、MLP 投影器(MLP Projector)以及语言解码器(Language Decoder)。视觉编码器处理包括图像和视频在内的视觉输入,通常采用改进的 Vision Transformer (ViT),并能处理任意图像宽高比和高达 4K 像素的分辨率。MLP 投影器充当中间介质,将视觉特征转换为与语言模型兼容的格式,并可能结合 3D-RoPE 等技术以增强空间理解。语言解码器基于底层 GLM 架构,负责整合处理后的视觉和文本信息,从而生成连贯的文本响应。

GLM-4V 专为支持多种实际应用而设计,包括视觉问答、图像描述和复杂目标检测。其能力还扩展到了视频理解,通过结合时序信息来有效分析序列。该模型的设计重点是在需要视觉感知和高级语言推理的任务中提供稳健的性能,例如 STEM 学科的交互式辅导或根据视觉问题生成分步骤的解决方案。

关于 GLM Family

Z.ai 通用语言大模型


其他 GLM Family 模型

评估基准

没有可用的 GLM-4V 评估基准。

排名

排名

-

编程排名

-

模型透明度

总分

B

68 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
63k
125k

所需显存:

推荐 GPU