Google prépare la génération vidéo dans Gemini : un pas de plus vers l’IA multimodale

Des indices repérés dans le code de l’application Google suggèrent que l’assistant IA Gemini pourrait bientôt intégrer des capacités avancées de création vidéo.

Les nouvelles capacités de Gemini ne sont peut-être plus très loin. Une analyse de la version 16.6.23 de l’application Google a révélé des références intrigantes à un mystérieux “videogen”, un terme jusque-là inconnu, mentionné aux côtés de “robin”, le nom de code interne de Gemini. Des messages tels que “Travail en cours…” et “Nous vous informerons lorsqu’il sera prêt” laissent entendre qu’une fonctionnalité de génération vidéo est en développement.

Ce genre de fuites dans le code source a déjà permis d’anticiper certaines annonces technologiques majeures par le passé. Bien qu’il ne s’agisse pas d’une confirmation officielle, ces indices suggèrent fortement que Google teste une technologie de génération vidéo intégrée à Gemini.

Gemini et la montée en puissance de l’IA créative

L’entrée de Google dans la génération vidéo ne serait pas une surprise. L’entreprise dispose déjà d’outils comme Google Vids, une plateforme qui assiste les utilisateurs dans le montage et la narration, sans pour autant générer de vidéos autonomes.

Avec Gemini, Google pourrait franchir un cap majeur en intégrant des technologies similaires à celles d’Imagen 3, son modèle de génération d’images, pour produire des séquences animées réalistes à partir de simples instructions textuelles. Si cette piste se confirme, Gemini pourrait devenir l’un des assistants numériques les plus avancés du marché, combinant génération de texte, d’images et désormais de vidéos en un seul et même outil.

Un assistant numérique tout-en-un ?

Gemini a été conçu pour comprendre le contexte et interagir intelligemment avec son environnement numérique. L’ajout de la génération vidéo renforcerait cette ambition en permettant aux utilisateurs de créer des contenus multimédias sans avoir à maîtriser des logiciels complexes.

Ce développement pourrait avoir des implications majeures pour plusieurs secteurs :

Marketing et publicité : création rapide de contenus promotionnels animés.
Éducation : génération de supports visuels interactifs en quelques secondes.
Réseaux sociaux : production de vidéos personnalisées directement depuis un assistant IA.

Avec cette approche, Google pourrait se positionner en concurrent direct de Sora d’OpenAI, qui a déjà démontré des capacités impressionnantes dans la génération vidéo basée sur l’IA.

Une sortie imminente ou un projet en gestation ?

Si Google travaille bien sur une intégration de la vidéo dans Gemini, aucune date de lancement n’a encore fuité. Il est probable que la technologie soit encore en phase de tests internes et qu’elle ne soit dévoilée qu’une fois suffisamment mature.

L’enjeu sera double :

Proposer une qualité vidéo crédible et exploitable dès les premières versions.
S’assurer que l’outil respecte des critères stricts de sécurité et d’éthique pour éviter les abus et les usages malveillants.

Google avance ses pions dans l’IA multimodale

L’arrivée potentielle de la génération vidéo dans Gemini confirme que Google pousse son assistant IA vers une approche multimodale capable d’intégrer texte, images et vidéos dans un même environnement. Une évolution logique alors que la concurrence – OpenAI en tête – accélère également sur ce terrain.

Il faudra maintenant attendre une annonce officielle pour savoir jusqu’où Google est prêt à aller avec cette technologie et quelles seront ses applications concrètes pour le grand public.