ApX 标志ApX 标志

趋近智

MaLLaM-3B

参数

3B

上下文长度

4.096K

模态

Text

架构

Dense

许可证

Apache-2.0

发布日期

15 Jan 2024

训练数据截止日期

Jan 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

8

注意力头维度

100

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

3,200

层数

26

FFN 中间层大小(稠密层)

8,640

多 Token 预测头数

-

分词器

词汇量大小

32,000

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 3.2k · Context: 4.1k · Vocab: 32kx 26 layersRMSNormPre-AttentionMulti-Head Attention32Q / 8KV heads · SW: 4.1kHead dim: 100+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 8.6k+Final RMSNormOutput Logits

MaLLaM-3B

MaLLaM-3B(马来西亚大语言模型)是一个拥有 30 亿参数的基础级稠密模型,专为马来西亚语言环境而设计。该模型由 Malaysia AI 和 Mesolitica 从零开始开发,通过利用包含 900 亿个 Token 的精选数据集,解决了高质量本地语言表示稀缺的问题。该训练语料库包含 349GB 多样化的马来西亚数字语料,涵盖了政府文件、当地新闻、国家语言出版局(Dewan Bahasa Pustaka)的文学作品以及社交媒体上的口语化交流。通过使用自定义训练的字节对编码(BPE)分词器,该模型能够捕捉到在以英语为中心的基础模型中经常被稀释的独特马来西亚成语、俚语和文化背景。

在技术架构上,MaLLaM-3B 采用了基于 Mistral Transformer 的仅解码器(decoder-only)架构,这使其在拥有较小参数量的同时,实现了高效的推理和卓越的性能。该模型利用分组查询注意力(GQA)来优化 KV 缓存,从而减少序列生成过程中的内存开销。它还引入了 SwiGLU 激活函数和 RMSNorm,以实现在预训练期间稳定且加速的收敛。在位置编码方面,模型采用了旋转位置嵌入(RoPE),使其能够在其标准的 4096 Token 上下文窗口内维持精确的 Token 关系。

MaLLaM-3B 主要针对边缘部署和本地化应用而设计,特别针对需要低延迟文本生成以及马来语(Bahasa Malaysia)和英语双语精通能力的场景进行了优化。其紧凑的架构使其非常适合集成到移动应用、本地化聊天机器人和私有化文档处理系统中。该模型以 Apache 2.0 协议发布,为研究人员和开发者提供了一个开源权重基础,以便构建针对马来西亚人群定制的情感分析、摘要生成和指令遵循助手等下游任务。

关于 MaLLaM

马来西亚大语言模型 (MaLLaM) 是一个开源语言模型系列,旨在支持马来语和英语。该模型基于马来西亚本地新闻、文学和数字内容等文本数据训练而成,专门用于处理马来西亚的语言细微差别和文化背景。该系列模型提供多种参数规模,以适配不同的硬件部署需求。


其他 MaLLaM 模型
  • 没有相关模型

评估基准

没有可用的 MaLLaM-3B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

73 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
2k
4k

所需显存:

推荐 GPU