ApX 标志ApX 标志

趋近智

Claude 4 Sonnet

参数

-

上下文长度

200K

模态

Text

架构

Dense

许可证

Proprietary

发布日期

15 Jan 2025

训练数据截止日期

Jan 2025

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

-

键值头

-

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

-

激活函数

-

维度

隐藏维度大小

-

层数

-

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

Claude 4 Sonnet

Claude 4 Sonnet 是一款面向生产的大语言模型,采用了混合推理框架,旨在优化执行速度与逻辑深度之间的权衡。该模型的架构支持两种不同的处理状态:用于近乎瞬时生成响应的标准模式,以及利用可配置 Token 预算进行内部逐步思维链(CoT)处理的扩展思考模式。这种双状态能力使其能够在软件工程和数学等复杂领域解决更高级的问题,在这些领域,模型可以在提交最终输出之前系统地验证其逻辑。

技术层面,该模型集成了先进的注意力机制和旋转位置编码(RoPE),以支持广阔的上下文窗口,从而能够处理诸如整个软件仓库或法律语料库之类的高密度信息。该架构基于稠密 Transformer 基础构建,利用多头注意力(MHA)和绝对位置嵌入,在整个运行范围内保持高精度。开发者可以通过专用的 API 参数以编程方式控制模型的推理强度,从而有效地调节分配给特定请求的潜在计算开销。

针对智能体工作流(agentic workflows)中的可靠性进行了优化,Claude 4 Sonnet 具有增强的指令遵循能力和改进的记忆持久性,可减少长周期任务中的上下文衰减。其多模态能力支持同时处理文本和图像输入,涵盖从自动化视觉检测到复杂文档分析的多种用例。该模型作为专有基础模型部署,确保了适用于企业级应用和高吞吐量生产环境的一致性能与安全标准。

关于 Claude 4

Anthropic 的第四代 Claude 模型,具备先进的推理能力、高达 200K token 的扩展上下文窗口以及可配置的思考强度等级。其特点包括改进的安全对齐、细致入微的理解能力和卓越的任务完成能力。该系列包含 Opus(性能最强)、Sonnet(平衡型)和 Haiku(快速型)三种版本,并提供思考模式以实现针对复杂问题的透明思维链推理。


其他 Claude 4 模型

评估基准

排名

#96

基准分数排名

0.81

🥉

3

0.978

🥉

3

0.96

7

0.82

11

0.56

18

研究生级问答

GPQA

0.754

35

智能编程

LiveBench Agentic

0.38

36

专业知识

MMLU Pro

0.79

38

0.60

51

0.40

54

0.44

55

排名

排名

#96

编程排名

#18

模型完整性

总分

C

49 / 100

Claude 4 Sonnet:模型规格和详细信息