Google 的多模态创作模型 — Gemini 的推理能力与生成式媒体系统的结合。通过自然语言从文本、图片、视频或音频生成和编辑视频,每次编辑都基于上一次的结果。使用 FireRed Image Edit 免费体验。
Gemini Omni 是 Google DeepMind 在 2025 年 Google I/O 大会上发布的多模态创作模型。它将 Gemini 的推理能力与生成式媒体系统相结合,实现了超越简单提示词生成视频的能力。该模型理解场景、动作、环境、物理行为和真实世界上下文 — 生成的结果具有明确意图而非随机输出。Gemini Omni Flash 是 Omni 系列的首个模型,专为实用的视频创作和编辑工作流而设计,用户可以转换素材、使用参考引导结果,并通过自然语言对话逐步优化场景。

多模态输入、对话式编辑、风格转换、真实世界知识 — 集于一体
Gemini Omni 引入了一种全新的视频编辑方式。你不需要每次都从头开始生成,而是可以通过一系列自然语言指令逐步优化视频。改变背景、调整动作、替换物体、转换摄像机角度或添加视觉效果 — 同时保持视频其余部分的稳定。这种对话式工作流意味着你可以一步步迭代接近你的愿景,就像编辑文档一样。
多轮编辑保持一致性 — 改变摄像机角度同时维持场景连贯
多轮编辑在连续修改中保持场景连贯性
先建立一个人在房间里的场景,然后改变光照为黄金时刻,再添加窗户上的雨滴 — 每次编辑基于上一次
连续环境变化展示对话式逐步优化
Gemini Omni 可以转换任何输入视频的视觉风格,同时保留底层的运动、结构和场景构图。描述目标美学 — 金属表面、手绘素描、毛毡布偶、全息投影、体素艺术 — 模型会在每一帧上连贯地应用转换。原始的摄像机运动、角色动作和空间关系保持不变,创造出远超简单滤镜的无缝风格转换。
当人触碰镜子时,让镜子像液体一样美丽地荡漾,人的手臂变成反射镜面材质
风格转换在完全改变视觉美学为金属质感的同时保留运动
当人触碰镜子时,整个环境变成3D体素艺术,呈现方块几何形状
完整环境转换为体素艺术,同时保留空间结构
与只接受文本或单张图片的模型不同,Gemini Omni 可以同时处理多种输入类型。提供文本作为方向指引、图片作为视觉参考、视频作为运动引导、音频作为语音或声音同步。模型将所有输入综合为单一连贯的视频输出。这使其适用于灵感来自多个来源的真实创作工作流 — 分镜草图、参考片段、语音录制和文字描述都可以为最终结果做出贡献。
添加与我触碰每片蕨叶同步的竖琴声。将叶片结构改为生物发光植物,周围有萤火虫飞舞
结合视频输入、文本指令和音频参考实现同步输出
使用真实世界科学知识可视化蛋白质折叠过程,以黏土动画风格呈现准确的分子行为
将真实世界知识应用于科学可视化,结合创意风格
Gemini Omni FAQ
Gemini Omni 是 Google DeepMind 的多模态创作模型,将 Gemini 的推理能力与视频生成相结合。与传统的文生视频模型不同,Gemini Omni 支持多轮对话式编辑(每次编辑基于上一次结果)、同时接受多种输入类型(文本、图片、视频、音频),并运用真实世界知识生成有上下文意义的结果。
Gemini Omni 接受文本提示词、最多 7 张参考图片、1 个视频片段(最大 100MB,30 秒)和音频 ID。你可以在单次生成中组合多种输入类型 — 例如提供参考视频加文本指令来转换场景,同时保留原始运动。
是的。FireRed Image Edit 提供积分来使用 Gemini Omni 生成视频。新用户可获得免费积分立即开始创作。该模型支持 4/6/8/10 秒时长,16:9 和 9:16 两种比例。
可以。Gemini Omni 擅长通过自然语言进行视频编辑。上传源视频并描述你想要的改变 — 转换环境、替换物体、改变风格、调整摄像机视角或添加效果。模型会保留你未提及的元素,同时应用你请求的更改。
视频输入文件必须小于 100MB 且不超过 30 秒。可用的裁剪范围(起始到结束)不能超过 10 秒。图片文件每张不超过 20MB,每次生成最多 7 张图片。生成的视频可以是 4、6、8 或 10 秒长。
多轮编辑意味着每次生成都可以基于上一次的结果。你从初始创作开始,然后通过后续指令进行优化 — 改变角度、添加效果、修改动作、调整光照 — 同时模型保持与之前内容的一致性。这类似于通过多次修订编辑文档。
可以。通过 FireRed Image Edit 生成的视频附带商业使用权。Gemini Omni 已获得商业使用许可,适用于营销内容、社交媒体、产品展示、教育材料和专业视频制作。
"多轮编辑是 Gemini Omni 的独特之处。我可以逐步优化场景,而不是每次都从头重新生成。这真的感觉像是在导演而不是在写提示词。"
创意总监
"多轮编辑是 Gemini Omni 的独特之处。我可以逐步优化场景,而不是每次都从头重新生成。这真的感觉像是在导演而不是在写提示词。"
创意总监