Le modèle de création multimodal de Google — là où le raisonnement de Gemini rencontre la capacité de créer. Générez et éditez des vidéos à partir de texte, d'images, de vidéo ou d'audio en langage naturel. Chaque modification s'appuie sur la précédente. Essayez gratuitement avec FireRed Image Edit.
Gemini Omni est le modèle de création multimodal de Google DeepMind, annoncé lors de Google I/O 2025. Il associe la capacité de raisonnement de Gemini aux systèmes de génération de médias, permettant une création et une édition vidéo qui vont au-delà de la simple conversion prompt-vers-vidéo. Le modèle comprend les scènes, les actions, les environnements, les comportements physiques et le contexte du monde réel — produisant des résultats qui semblent intentionnels plutôt qu'aléatoires. Gemini Omni Flash est le premier modèle de la famille Omni, conçu pour des flux de travail pratiques de création et d'édition vidéo où les utilisateurs peuvent transformer des séquences, guider les résultats avec des références et affiner les scènes par la conversation en langage naturel.

Entrée multimodale, édition conversationnelle, transformation de style et connaissances du monde réel — le tout dans un seul modèle
Gemini Omni introduit une approche fondamentalement différente de l'édition vidéo. Au lieu de repartir de zéro à chaque génération, vous pouvez affiner votre vidéo par une série d'instructions en langage naturel. Changez l'arrière-plan, ajustez l'action, remplacez des objets, modifiez l'angle de caméra ou ajoutez des effets visuels — tout en gardant le reste de la vidéo stable. Ce flux de travail conversationnel signifie que vous pouvez itérer vers votre vision étape par étape, comme si vous éditiez un document avec suivi des modifications.
Éditer en plusieurs tours : d'abord établir la scène, puis changer l'angle de caméra, puis ajouter des effets atmosphériques — en maintenant la cohérence tout au long
L'édition multi-tours préserve la cohérence de la scène à travers les modifications séquentielles
D'abord établir la scène avec une personne dans une pièce, puis changer l'éclairage en heure dorée, puis ajouter de la pluie sur la fenêtre — chaque modification s'appuie sur la précédente
Les changements séquentiels d'environnement démontrent le raffinement conversationnel
Gemini Omni peut transformer le style visuel de n'importe quelle vidéo source tout en préservant le mouvement sous-jacent, la structure et la composition de la scène. Décrivez l'esthétique cible — surfaces métalliques, croquis dessinés à la main, marionnettes en feutre, projections holographiques, art voxel — et le modèle applique la transformation de manière cohérente sur chaque image. Le mouvement de caméra original, les actions des personnages et les relations spatiales restent intacts, créant un transfert de style fluide qui va bien au-delà des simples filtres.
Quand la personne touche le miroir, faire onduler le miroir comme un liquide, et le bras de la personne se transforme en matériau miroir réfléchissant
La transformation de style préserve le mouvement tout en changeant complètement l'esthétique visuelle
Quand la personne touche le miroir, tout l'environnement se transforme en art voxel 3D avec des formes géométriques en blocs
Transformation complète de l'environnement en art voxel tout en préservant la structure spatiale
Contrairement aux modèles qui n'acceptent que du texte ou une seule image, Gemini Omni peut traiter plusieurs types d'entrées simultanément. Fournissez du texte pour la direction, des images pour la référence visuelle, de la vidéo pour le guidage du mouvement et de l'audio pour la synchronisation vocale ou sonore. Le modèle synthétise toutes les entrées en une seule sortie vidéo cohérente. Cela le rend pratique pour les flux de travail créatifs réels où l'inspiration vient de sources multiples — un croquis de storyboard, un clip de référence, un enregistrement vocal et une description écrite peuvent tous contribuer au résultat final.
Ajouter des sons de harpe synchronisés au moment où je touche chaque feuille de fougère. Transformer la structure des feuilles en plantes bioluminescentes avec des lucioles volant autour
Combinaison d'une entrée vidéo avec des instructions textuelles et une référence audio pour une sortie synchronisée
Visualiser le processus de repliement des protéines en utilisant des connaissances scientifiques réelles, rendu en style claymation avec un comportement moléculaire précis
Connaissances du monde réel appliquées à la visualisation scientifique avec un style créatif
Gemini Omni FAQ
Gemini Omni est le modèle de création multimodal de Google DeepMind qui combine la capacité de raisonnement de Gemini avec la génération vidéo. Contrairement aux modèles texte-vers-vidéo traditionnels, Gemini Omni prend en charge l'édition conversationnelle multi-tours (chaque modification s'appuie sur la précédente), accepte plusieurs types d'entrées simultanément (texte, images, vidéo, audio) et applique des connaissances du monde réel pour produire des résultats contextuellement pertinents.
Gemini Omni accepte des prompts textuels, jusqu'à 7 images de référence, 1 clip vidéo (jusqu'à 100 Mo, 30 secondes) et des identifiants audio. Vous pouvez combiner plusieurs types d'entrées en une seule génération — par exemple, fournir une vidéo de référence plus des instructions textuelles pour transformer la scène tout en préservant le mouvement d'origine.
Oui. FireRed Image Edit offre des crédits pour générer des vidéos avec Gemini Omni. Les nouveaux utilisateurs reçoivent des crédits gratuits pour commencer à créer immédiatement. Le modèle prend en charge des durées de 4/6/8/10 secondes avec des ratios d'aspect 16:9 et 9:16.
Oui. Gemini Omni excelle dans l'édition vidéo par langage naturel. Téléchargez une vidéo source et décrivez ce que vous souhaitez modifier — transformer l'environnement, remplacer des objets, changer le style, ajuster la perspective de la caméra ou ajouter des effets. Le modèle préserve les éléments que vous ne mentionnez pas tout en appliquant les modifications demandées.
Les fichiers vidéo en entrée doivent faire moins de 100 Mo et ne pas dépasser 30 secondes. La plage de découpe utilisable (début à fin) ne peut pas excéder 10 secondes. Les fichiers image doivent faire moins de 20 Mo chacun, avec un maximum de 7 images par génération. Les vidéos générées peuvent durer 4, 6, 8 ou 10 secondes.
L'édition multi-tours signifie que chaque génération peut s'appuyer sur le résultat précédent. Vous commencez par une création initiale, puis vous l'affinez par des instructions successives — changer l'angle, ajouter des effets, modifier l'action, ajuster l'éclairage — tandis que le modèle maintient la cohérence avec ce qui précède. C'est similaire à la façon dont vous pourriez éditer un document à travers plusieurs révisions.
Oui. Les vidéos générées via FireRed Image Edit sont accompagnées de droits d'utilisation commerciale. Gemini Omni est licencié pour un usage commercial, ce qui le rend adapté au contenu marketing, aux réseaux sociaux, aux présentations de produits, aux supports éducatifs et à la production vidéo professionnelle.
"L'édition multi-tours est ce qui distingue Gemini Omni. Je peux affiner une scène étape par étape au lieu de tout régénérer à chaque fois. On a vraiment l'impression de diriger plutôt que de simplement écrire des prompts."
Directrice créative
"L'édition multi-tours est ce qui distingue Gemini Omni. Je peux affiner une scène étape par étape au lieu de tout régénérer à chaque fois. On a vraiment l'impression de diriger plutôt que de simplement écrire des prompts."
Directrice créative
Découvrez la puissance de Gemini Omni — gratuit en ligne