Claude Sonnet 4.5 Thinking

闭源

封闭权重

参数

上下文长度

200K

模态

Text

架构

Dense

许可证

Proprietary

发布日期

29 Sept 2025

训练数据截止日期

Jul 2025

评估基准

排名

#31

基准	分数	排名
编程 LiveBench Coding	0.80	⭐ 5
StackEval ProLLM Stack Eval	0.97	5
专业知识 MMLU Pro	0.87	⭐ 7
智能编程 LiveBench Agentic	0.53	13
编程 Aider Coding	0.61	13
推理 LiveBench Reasoning	0.78	19
数学 LiveBench Mathematics	0.79	24
通用文本 Text Arena	1452	24
数据分析 LiveBench Data Analysis	0.57	26
Web 开发 WebDev Arena	1388	41

排名

#31

编程排名

#30

关于 Claude Sonnet 4.5 Thinking

Claude Sonnet 4.5 Thinking 是由 Anthropic 开发的前沿级混合推理模型，旨在实现低延迟执行与高保真认知处理之间的卓越平衡。该模型架构引入了双模式推理框架，允许用户在标准响应路径和扩展思考模式之间进行选择。在扩展思考模式下，模型利用内部草稿本在生成最终输出前进行多步规划、反思和自我修正。这种透明的推理过程以可视化的思考块形式呈现给用户，为处理复杂的计算机技术任务提供了更具可解释性且可验证的交互方式。

从技术层面看，该模型基于先进的 Transformer 架构，并针对智能体自主性（agentic autonomy）和长周期执行进行了优化。它支持标准的 200,000 token 上下文窗口，并提供最高 100 万 token 的 Beta 版支持，专为处理大规模代码库和海量文档集而设计。并行工具执行的创新以及改进的注意力机制，使模型能够胜任复杂的计算机使用任务，如导航文件系统、执行 Shell 命令，并能自主协调多模块软件项目，持续执行时间可超过 30 小时。

该系统主要应用于对精准度和持续专注力有严苛要求的高风险环境。其设计在生产级软件工程、严谨的财务分析以及自主智能体编排方面表现出色。通过整合先进的内存管理和检查点（checkpointing）功能，该模型支持迭代开发工作流，允许在长会话中保存并引用进度。这使其成为构建持久化 AI 智能体的首选，能够同时提供深厚的技术知识以及处理模糊、多步指令的推理能力。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

激活函数

维度

隐藏维度大小

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

模型完整性

总分

51 / 100

上游

16.0 / 30

模型

19.0 / 40

下游

16.0 / 30

资源

官方文档

关于 Claude 4.5

增强型 Claude 模型，在推理、编程和智能体能力（agentic capabilities）方面进行了进一步改进。具备先进的思考模式，提供可调节的投入程度（高、中、标准），以实现性能与延迟之间的最优权衡。在复杂分析、软件开发、Web 开发和长上下文理解方面表现卓越。包含可展示推理过程的思考变体，以提高透明度。