MaLLaM-7B

开源

开放权重

参数

上下文长度

4.096K

模态

Text

架构

Dense

许可证

Apache-2.0

发布日期

15 Jan 2024

训练数据截止日期

Jan 2024

技术规格

注意力结构

Multi-Head Attention

隐藏维度大小

4096

层数

注意力头

键值头

激活函数

SwigLU

归一化

RMS Normalization

位置嵌入

Absolute Position Embedding

MaLLaM-7B

MaLLaM-7B（Malaysian Large Language Model，马来西亚大语言模型）是一款稠密仅解码器（decoder-only）Transformer 模型，旨在处理并生成高度忠实于马来西亚地区语言模式的文本。该模型由 Mesolitica 开发，是在一个包含约 900 亿个 Token 的专用数据集上从零开始预训练而成的，该数据集涵盖了政府文件、本地新闻和社交媒体论坛等多种马来西亚资源。通过广泛接触这些本地化内容，该模型能够处理在通用全球模型中往往代表性不足的地区方言、俚语和文化细微差别。

MaLLaM-7B 的架构遵循 Mistral-7B 的设计模式，采用了针对高效推理和训练而优化的标准 Transformer 结构。它使用了一个词表大小为 32,000 的字节对编码（BPE）分词器，该分词器专门针对包含马来语、英语、华语、泰米尔语和爪夷文（Jawi）的马来西亚多语言数据进行了训练。该模型集成了旋转位置嵌入（RoPE）和分组查询注意力（GQA）等现代架构改进，有助于在生成过程中更好地处理序列依赖性并提高计算效率。

在技术配置上，MaLLaM-7B 的隐藏层维度为 4096，由 32 个 Transformer 层组成。它的训练上下文窗口为 4096 个 Token，适用于多轮对话、文档摘要和本地化文本补全等任务。该模型采用 Apache 2.0 许可证发布，为东南亚自然语言处理（NLP）生态系统内的研究人员和开发人员提供了透明度和可访问性。它是构建需要与马来西亚语言特征和惯用表达深度对齐的应用的基础组件。

关于 MaLLaM

马来西亚大语言模型 (MaLLaM) 是一个开源语言模型系列，旨在支持马来语和英语。该模型基于马来西亚本地新闻、文学和数字内容等文本数据训练而成，专门用于处理马来西亚的语言细微差别和文化背景。该系列模型提供多种参数规模，以适配不同的硬件部署需求。

其他 MaLLaM 模型

MaLLaM-3B

评估基准

没有可用的 MaLLaM-7B 评估基准。

排名

编程排名

模型透明度

总分

B+

73 / 100

上游

22.5 / 30

模型

28.0 / 40

下游

22.0 / 30

GPU 要求

完整计算器

量化

选择模型权重的量化方法

上下文大小：1024 个令牌

所需显存:

资源

官方文档阅读论文下载权重源代码

MaLLaM-7B

技术规格

MaLLaM-7B

关于 MaLLaM

其他 MaLLaM 模型

评估基准

排名

模型透明度

GPU 要求

所需显存:

推荐 GPU

资源