Google 的多模態創作模型 — Gemini 的推理能力與生成式媒體系統的結合。透過自然語言從文字、圖片、影片或音訊生成和編輯影片,每次編輯都基於上一次的結果。使用 FireRed Image Edit 免費體驗。
Gemini Omni 是 Google DeepMind 在 2025 年 Google I/O 大會上發佈的多模態創作模型。它將 Gemini 的推理能力與生成式媒體系統相結合,實現了超越簡單提示詞生成影片的能力。該模型理解場景、動作、環境、物理行為和真實世界上下文 — 生成的結果具有明確意圖而非隨機輸出。Gemini Omni Flash 是 Omni 系列的首個模型,專為實用的影片創作和編輯工作流而設計,用戶可以轉換素材、使用參考引導結果,並透過自然語言對話逐步優化場景。

多模態輸入、對話式編輯、風格轉換、真實世界知識 — 集於一體
Gemini Omni 引入了一種全新的影片編輯方式。你不需要每次都從頭開始生成,而是可以透過一系列自然語言指令逐步優化影片。改變背景、調整動作、替換物體、轉換攝影機角度或添加視覺效果 — 同時保持影片其餘部分的穩定。這種對話式工作流意味着你可以一步步迭代接近你的願景,就像編輯文件一樣。
多輪編輯:先建立場景,然後改變攝影機角度,再添加氛圍效果 — 全程保持一致性
多輪編輯在連續修改中保持場景連貫性
先建立一個人在房間裡的場景,然後改變光照為黃金時刻,再添加窗戶上的雨滴 — 每次編輯基於上一次
連續環境變化展示對話式逐步優化
Gemini Omni 可以轉換任何輸入影片的視覺風格,同時保留底層的運動、結構和場景構圖。描述目標美學 — 金屬表面、手繪素描、毛氈布偶、全息投影、體素藝術 — 模型會在每一幀上連貫地應用轉換。原始的攝影機運動、角色動作和空間關係保持不變,創造出遠超簡單濾鏡的無縫風格轉換。
當人觸碰鏡子時,讓鏡子像液體一樣美麗地蕩漾,人的手臂變成反射鏡面材質
風格轉換在完全改變視覺美學的同時保留運動
當人觸碰鏡子時,整個環境變成3D體素藝術,呈現方塊幾何形狀
完整環境轉換為體素藝術,同時保留空間結構
與只接受文字或單張圖片的模型不同,Gemini Omni 可以同時處理多種輸入類型。提供文字作為方向指引、圖片作為視覺參考、影片作為運動引導、音訊作為語音或聲音同步。模型將所有輸入綜合為單一連貫的影片輸出。這使其適用於靈感來自多個來源的真實創作工作流 — 分鏡草圖、參考片段、語音錄製和文字描述都可以為最終結果做出貢獻。
添加與我觸碰每片蕨葉同步的豎琴聲。將葉片結構改為生物發光植物,周圍有螢火蟲飛舞
結合影片輸入、文字指令和音訊參考實現同步輸出
使用真實世界科學知識視覺化蛋白質摺疊過程,以黏土動畫風格呈現準確的分子行為
將真實世界知識應用於科學視覺化,結合創意風格
Gemini Omni FAQ
Gemini Omni 是 Google DeepMind 的多模態創作模型,將 Gemini 的推理能力與影片生成相結合。與傳統的文字生成影片模型不同,Gemini Omni 支援多輪對話式編輯(每次編輯基於上一次結果)、同時接受多種輸入類型(文字、圖片、影片、音訊),並運用真實世界知識生成有上下文意義的結果。
Gemini Omni 接受文字提示詞、最多 7 張參考圖片、1 個影片片段(最大 100MB,30 秒)和音訊 ID。你可以在單次生成中組合多種輸入類型 — 例如提供參考影片加文字指令來轉換場景,同時保留原始運動。
是的。FireRed Image Edit 提供積分來使用 Gemini Omni 生成影片。新用戶可獲得免費積分立即開始創作。該模型支援 4/6/8/10 秒時長,16:9 和 9:16 兩種比例。
可以。Gemini Omni 擅長透過自然語言進行影片編輯。上傳來源影片並描述你想要的改變 — 轉換環境、替換物體、改變風格、調整攝影機視角或添加效果。模型會保留你未提及的元素,同時應用你請求的更改。
影片輸入檔案必須小於 100MB 且不超過 30 秒。可用的裁剪範圍(起始到結束)不能超過 10 秒。圖片檔案每張不超過 20MB,每次生成最多 7 張圖片。生成的影片可以是 4、6、8 或 10 秒長。
多輪編輯意味着每次生成都可以基於上一次的結果。你從初始創作開始,然後透過後續指令進行優化 — 改變角度、添加效果、修改動作、調整光照 — 同時模型保持與之前內容的一致性。這類似於透過多次修訂編輯文件。
可以。透過 FireRed Image Edit 生成的影片附帶商業使用權。Gemini Omni 已獲得商業使用許可,適用於市場推廣內容、社交媒體、產品展示、教育材料和專業影片製作。
"多輪編輯是 Gemini Omni 的獨特之處。我可以逐步優化場景,而不是每次都從頭重新生成。這真的感覺像是在導演而不是在寫提示詞。"
創意總監
"多輪編輯是 Gemini Omni 的獨特之處。我可以逐步優化場景,而不是每次都從頭重新生成。這真的感覺像是在導演而不是在寫提示詞。"
創意總監