趋近智
参数
-
上下文长度
200K
模态
Text
架构
Dense
许可证
Proprietary
发布日期
15 Jan 2025
训练数据截止日期
Jan 2025
注意力
注意力结构
Multi-Head Attention
注意力头
-
键值头
-
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
-
激活函数
-
维度
隐藏维度大小
-
层数
-
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Claude 4 Sonnet 是一款面向生产的大语言模型,采用了混合推理框架,旨在优化执行速度与逻辑深度之间的权衡。该模型的架构支持两种不同的处理状态:用于近乎瞬时生成响应的标准模式,以及利用可配置 Token 预算进行内部逐步思维链(CoT)处理的扩展思考模式。这种双状态能力使其能够在软件工程和数学等复杂领域解决更高级的问题,在这些领域,模型可以在提交最终输出之前系统地验证其逻辑。
技术层面,该模型集成了先进的注意力机制和旋转位置编码(RoPE),以支持广阔的上下文窗口,从而能够处理诸如整个软件仓库或法律语料库之类的高密度信息。该架构基于稠密 Transformer 基础构建,利用多头注意力(MHA)和绝对位置嵌入,在整个运行范围内保持高精度。开发者可以通过专用的 API 参数以编程方式控制模型的推理强度,从而有效地调节分配给特定请求的潜在计算开销。
针对智能体工作流(agentic workflows)中的可靠性进行了优化,Claude 4 Sonnet 具有增强的指令遵循能力和改进的记忆持久性,可减少长周期任务中的上下文衰减。其多模态能力支持同时处理文本和图像输入,涵盖从自动化视觉检测到复杂文档分析的多种用例。该模型作为专有基础模型部署,确保了适用于企业级应用和高吞吐量生产环境的一致性能与安全标准。
Anthropic 的第四代 Claude 模型,具备先进的推理能力、高达 200K token 的扩展上下文窗口以及可配置的思考强度等级。其特点包括改进的安全对齐、细致入微的理解能力和卓越的任务完成能力。该系列包含 Opus(性能最强)、Sonnet(平衡型)和 Haiku(快速型)三种版本,并提供思考模式以实现针对复杂问题的透明思维链推理。
排名
#96
| 基准 | 分数 | 排名 |
|---|---|---|
0.81 | 🥉 3 | |
StackEval ProLLM Stack Eval | 0.978 | 🥉 3 |
QA 助手 ProLLM QA Assistant | 0.96 | 7 |
0.82 | 11 | |
0.56 | 18 | |
研究生级问答 GPQA | 0.754 | 35 |
0.38 | 36 | |
专业知识 MMLU Pro | 0.79 | 38 |
0.60 | 51 | |
0.40 | 54 | |
0.44 | 55 |
APX AI
在线