ApX 标志ApX 标志

趋近智

Codestral 25.01

参数

-

上下文长度

32K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

15 Jan 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

48

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

6,144

层数

56

FFN 中间层大小(稠密层)

16,384

多 Token 预测头数

-

分词器

词汇量大小

32,768

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 6.1k · Context: 32K · Vocab: 32.8kx 56 layersRMSNormPre-AttentionMulti-Head Attention48Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 16.4k+Final RMSNormOutput Logits

Codestral 25.01

Codestral 25.01 是 Mistral AI 专为编程设计的专业模型,对软件开发有着深刻的理解。其特点是在多种编程语言中具备增强的代码生成、补全、调试和重构能力。该模型在多样化的代码库上进行训练,专注于现代开发实践、设计模式和代码质量。它擅长理解开发者意图,并能生成地道且结构良好的代码。2025 年 1 月发布的版本进一步提升了准确性并扩展了语言支持。

关于 Codestral

Codestral 是由 Mistral AI 开发的一款专为代码生成和理解设计的模型。它支持 80 多种编程语言。该模型系列包含一个 220 亿参数的变体。


其他 Codestral 模型
  • 没有相关模型

评估基准

排名

#137

基准分数排名

0.11

34

排名

排名

#137

编程排名

#129

模型完整性

总分

D+

43 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
31k

所需显存:

推荐 GPU