ApX 标志ApX 标志

趋近智

Claude Sonnet 4.5 Thinking

参数

-

上下文长度

200K

模态

Text

架构

Dense

许可证

Proprietary

发布日期

29 Sept 2025

训练数据截止日期

Jul 2025

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

-

键值头

-

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

-

激活函数

-

维度

隐藏维度大小

-

层数

-

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

Claude Sonnet 4.5 Thinking

Claude Sonnet 4.5 Thinking 是由 Anthropic 开发的前沿级混合推理模型,旨在实现低延迟执行与高保真认知处理之间的卓越平衡。该模型架构引入了双模式推理框架,允许用户在标准响应路径和扩展思考模式之间进行选择。在扩展思考模式下,模型利用内部草稿本在生成最终输出前进行多步规划、反思和自我修正。这种透明的推理过程以可视化的思考块形式呈现给用户,为处理复杂的计算机技术任务提供了更具可解释性且可验证的交互方式。

从技术层面看,该模型基于先进的 Transformer 架构,并针对智能体自主性(agentic autonomy)和长周期执行进行了优化。它支持标准的 200,000 token 上下文窗口,并提供最高 100 万 token 的 Beta 版支持,专为处理大规模代码库和海量文档集而设计。并行工具执行的创新以及改进的注意力机制,使模型能够胜任复杂的计算机使用任务,如导航文件系统、执行 Shell 命令,并能自主协调多模块软件项目,持续执行时间可超过 30 小时。

该系统主要应用于对精准度和持续专注力有严苛要求的高风险环境。其设计在生产级软件工程、严谨的财务分析以及自主智能体编排方面表现出色。通过整合先进的内存管理和检查点(checkpointing)功能,该模型支持迭代开发工作流,允许在长会话中保存并引用进度。这使其成为构建持久化 AI 智能体的首选,能够同时提供深厚的技术知识以及处理模糊、多步指令的推理能力。

关于 Claude 4.5

增强型 Claude 模型,在推理、编程和智能体能力(agentic capabilities)方面进行了进一步改进。具备先进的思考模式,提供可调节的投入程度(高、中、标准),以实现性能与延迟之间的最优权衡。在复杂分析、软件开发、Web 开发和长上下文理解方面表现卓越。包含可展示推理过程的思考变体,以提高透明度。


其他 Claude 4.5 模型

评估基准

排名

#31

基准分数排名

0.80

5

0.97

5

专业知识

MMLU Pro

0.87

7

智能编程

LiveBench Agentic

0.53

13

0.61

13

0.78

19

0.79

24

通用文本

Text Arena

1452

24

0.57

26

Web 开发

WebDev Arena

1388

41

排名

排名

#31

编程排名

#30

模型完整性

总分

C

51 / 100