趋近智
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
-
激活函数
-
维度
隐藏维度大小
-
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Grok 3 是 xAI 在 Colossus 超级计算机上训练的先进推理模型。它集成了来自 X 平台的实时信息,能够提供最新的知识和背景信息。该模型擅长推理、编程和创意任务,并保持了 xAI 独特、直接且机智的个性。它在信息综合与分析方面具备尖端能力,同时包含多模态理解,并在多项技术基准测试中表现强劲。
xAI 的 Grok 3 系列模型是在庞大的 Colossus 超级计算机集群上训练而成的。该系列模型具备来自 X 平台的实时信息整合功能、先进的推理能力以及鲜明的个性,在推理和信息综合方面提供顶尖的技术实力。
排名
#52
| 基准 | 分数 | 排名 |
|---|---|---|
QA 助手 ProLLM QA Assistant | 0.967 | 4 |
0.867 | 8 | |
研究生级问答 GPQA | 0.846 | 12 |
0.63 | 17 | |
0.53 | 24 | |
StackUnseen ProLLM Stack Unseen | 0.293 | 31 |
专业知识 MMLU Pro | 0.80 | 36 |
APX AI
在线