趋近智
参数
3B
上下文长度
4.096K
模态
Text
架构
Dense
许可证
Apache-2.0
发布日期
15 Jan 2024
训练数据截止日期
Jan 2024
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
8
注意力头维度
100
位置嵌入
Absolute Position Embedding
RoPE Theta
10,000
滑动窗口注意力
Yes
滑动窗口大小
4,096
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
3,200
层数
26
FFN 中间层大小(稠密层)
8,640
多 Token 预测头数
-
分词器
词汇量大小
32,000
MaLLaM-3B(马来西亚大语言模型)是一个拥有 30 亿参数的基础级稠密模型,专为马来西亚语言环境而设计。该模型由 Malaysia AI 和 Mesolitica 从零开始开发,通过利用包含 900 亿个 Token 的精选数据集,解决了高质量本地语言表示稀缺的问题。该训练语料库包含 349GB 多样化的马来西亚数字语料,涵盖了政府文件、当地新闻、国家语言出版局(Dewan Bahasa Pustaka)的文学作品以及社交媒体上的口语化交流。通过使用自定义训练的字节对编码(BPE)分词器,该模型能够捕捉到在以英语为中心的基础模型中经常被稀释的独特马来西亚成语、俚语和文化背景。
在技术架构上,MaLLaM-3B 采用了基于 Mistral Transformer 的仅解码器(decoder-only)架构,这使其在拥有较小参数量的同时,实现了高效的推理和卓越的性能。该模型利用分组查询注意力(GQA)来优化 KV 缓存,从而减少序列生成过程中的内存开销。它还引入了 SwiGLU 激活函数和 RMSNorm,以实现在预训练期间稳定且加速的收敛。在位置编码方面,模型采用了旋转位置嵌入(RoPE),使其能够在其标准的 4096 Token 上下文窗口内维持精确的 Token 关系。
MaLLaM-3B 主要针对边缘部署和本地化应用而设计,特别针对需要低延迟文本生成以及马来语(Bahasa Malaysia)和英语双语精通能力的场景进行了优化。其紧凑的架构使其非常适合集成到移动应用、本地化聊天机器人和私有化文档处理系统中。该模型以 Apache 2.0 协议发布,为研究人员和开发者提供了一个开源权重基础,以便构建针对马来西亚人群定制的情感分析、摘要生成和指令遵循助手等下游任务。
马来西亚大语言模型 (MaLLaM) 是一个开源语言模型系列,旨在支持马来语和英语。该模型基于马来西亚本地新闻、文学和数字内容等文本数据训练而成,专门用于处理马来西亚的语言细微差别和文化背景。该系列模型提供多种参数规模,以适配不同的硬件部署需求。
没有可用的 MaLLaM-3B 评估基准。
APX AI
在线