Gemini Omni Flash

闭源

封闭权重

参数

上下文长度

模态

Multimodal

架构

Dense

许可证

Proprietary

发布日期

19 May 2026

训练数据截止日期

评估基准

没有可用的 Gemini Omni Flash 评估基准。

排名

编程排名

关于 Gemini Omni Flash

Google 全新 Omni 系列的首款模型，于 2026 年 5 月 19 日在 Google I/O 大会上发布。Gemini Omni Flash 是一款原生视频生成模型，支持文本、图像、音频和视频的任意组合作为输入，并能生成基于 Gemini 真实世界知识的高质量视频输出。它支持跨多轮对话的交互式视频编辑——在保持角色一致性、物理规律和场景连贯性的同时，还支持通过数字人 (Avatars) 进行个性化视频创作。该模型已通过 Gemini 应用和 Google Flow 向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

激活函数

维度

隐藏维度大小

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

资源

官方文档

关于 Gemini Omni

The Gemini Omni family is Google's first generation of native video-generation models, combining Gemini's multimodal reasoning with the ability to create from any input. Announced at Google I/O 2026, Omni models accept combinations of text, images, audio, and video, allowing users to generate and conversationally edit high-quality videos grounded in Gemini's real-world knowledge.

其他 Gemini Omni 模型

没有相关模型