趋近智
活跃参数
196.81B
上下文长度
256K
模态
Multimodal
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
11 Feb 2026
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
64
键值头
8
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
Yes
滑动窗口大小
512
归一化
RMS Normalization
激活函数
GELU
维度
隐藏维度大小
4,096
层数
45
FFN 中间层大小(稠密层)
1,280
多 Token 预测头数
3
分词器
词汇量大小
128,896
混合专家
专家参数总数
11.0B
专家数量
288
活跃专家
8
共享专家数
-
FFN 中间层大小(每专家)
1,280
MoE 前的稠密层数
-
Step 3.5 Flash 是阶跃星辰(StepFun)最强大的开源基座模型。该模型采用稀疏混合专家(MoE)架构,总参数量达 196B,而每个 token 激活参数仅为 11B,在保持卓越效率的同时,提供了前沿的推理与智能体(agentic)能力。它具备 256K 上下文窗口,支持文本和图像输入,并在 SWE-bench Verified 和 Terminal-Bench 2.0 上分别取得了 74.4% 和 51.0% 的优异成绩。模型针对包括 Mac Studio M4 Max 及高端 GPU 在内的消费级硬件本地部署进行了优化。得益于三路多 Token 预测(MTP-3)技术,其生成吞吐量可达 100-350 tok/s。
Step 3.5 is StepFun's flagship frontier reasoning model family. Built on sparse Mixture-of-Experts (MoE) architecture, Step 3.5 models deliver frontier-level intelligence for agentic, reasoning, and coding tasks. The Flash variant selectively activates only 11B of its 196B parameters per token, achieving the reasoning depth of top-tier proprietary models while maintaining exceptional efficiency. Features 256K context window, native function calling, and Multi-Token Prediction for high-throughput inference. Released under Apache 2.0 license.
排名
#74
没有可用的 Step 3.5 Flash 评估基准。
APX AI
在线