趋近智
参数
-
上下文长度
200K
模态
Text
架构
Dense
许可证
Proprietary
发布日期
15 Jan 2025
训练数据截止日期
Mar 2025
注意力结构
Multi-Head Attention
隐藏维度大小
-
层数
-
注意力头
-
键值头
-
激活函数
-
归一化
-
位置嵌入
Absolute Position Embedding
Claude 4 Sonnet Thinking 是 Anthropic 第四代模型系列中一款先进的中端模型,旨在计算效率与高级推理能力之间取得最佳平衡。该模型集成了独特的混合推理架构,使其能够以两种不同的模式运行:用于快速交互的标准响应模式,以及用于复杂、多步问题求解的扩展思考模式。通过在专门的“思考内容块”中展示其内部思维链过程,该模型为开发人员在得出最终输出之前,提供了关于推理轨迹的更高透明度和控制力。
在技术层面上,该模型基于稠密 Transformer 架构构建,并针对智能体工作流和软件工程任务进行了专门优化。此版本的一项重大创新是支持“交替思考”,即模型可以在单次对话轮次中交替进行内部推理和外部工具执行。这种能力使模型能够发起多次搜索、评估中间结果并动态调整策略。它在通用版本中支持 20 万 token 的超大上下文窗口,而在 Beta 配置下支持高达 100 万 token,从而能够在单个会话中处理庞大的代码库和技术文档。
Claude 4 Sonnet Thinking 专为生产级规模的部署而设计,在需要精确指令遵循以及网络安全、金融和软件开发等领域深厚专业知识的高通量应用中表现卓越。其出色的可引导性和增强的记忆保持能力使其特别适用于自主 AI 智能体和复杂的浏览器自动化。开发人员可以通过调整“思考预算”来微调模型性能,从而在推理深度与延迟之间有效权衡,以满足特定的应用需求。
Anthropic 的第四代 Claude 模型,具备先进的推理能力、高达 200K token 的扩展上下文窗口以及可配置的思考强度等级。其特点包括改进的安全对齐、细致入微的理解能力和卓越的任务完成能力。该系列包含 Opus(性能最强)、Sonnet(平衡型)和 Haiku(快速型)三种版本,并提供思考模式以实现针对复杂问题的透明思维链推理。
排名
#42
| 基准 | 分数 | 排名 |
|---|---|---|
0.77 | 9 | |
0.61 | 13 | |
专业知识 MMLU Pro | 0.84 | 19 |
0.69 | 22 | |
0.55 | 26 | |
0.40 | 28 | |
0.70 | 30 |