Dr. Tali Dekel. Re-rendre la réalité

Réimagerie d’images

Tali Dekel de Weizmann, l’une des principales chercheuses au monde en IA générative, se concentre sur les capacités cachées des modèles d’apprentissage profond à grande échelle existants. Les recherches qu’elle a menées avec Google ont conduit à la mise au point de l’application « Lumiere »

Il y a quelques années à peine, nous aurions difficilement pu imaginer que des millions de personnes dans le monde auraient accès à des applications d’IA générative faciles à utiliser pour produire des textes, des images et des vidéos. Ces applications peuvent produire des résultats qui semblent avoir été créés par des êtres humains, ainsi que créer des choses qui n’ont jamais existé dans la réalité

Les progrès rapides des capacités des grands modèles linguistiques, qui, après des décennies de développement, ont commencé à générer des textes complexes et raisonnablement crédibles, ont surpris même les experts. En conséquence, l’attention s’est également portée sur les modèles qui combinent le texte avec des données visuelles telles que des images et des vidéos, et leur développement a été accéléré. Aujourd’hui, ces modèles peuvent générer des vidéos réalistes d’une rue animée ou d’un écureuil marchant sur la Lune – et tout ce que l’utilisateur doit faire, c’est saisir une brève description textuelle ou des images qui serviront de source visuelle. Cependant, à côté de ces capacités stupéfiantes et des préoccupations liées aux dangers inhérents à des ordinateurs aussi puissants, le champ d’action des réseaux d’apprentissage profond est encore limité, en particulier lorsqu’il s’agit de vidéo, et c’est le défi auquel s’attaquent de nombreux chercheurs.

Dr. Tali Dekel. Re-rendre la réalité
Dr. Tali Dekel. Re-rendre la réalité

L’équipe du laboratoire du Dr Tali Dekel pour l’étude de la vision par ordinateur au sein du Département d’Informatique et de Mathématiques Appliquées de l’Institut Weizmann des Sciences espère surmonter les limites de ces machines génératives et les amener au niveau humain, voire au-delà. « Je définis notre domaine de recherche comme le « re-rendu de la réalité », en d’autres termes, la recréation du monde visuel à l’aide d’outils informatiques », explique-t-elle. « Nous analysons des images et des vidéos et nous nous concentrons sur leurs aspects spécifiques, puis nous créons une nouvelle version avec des caractéristiques différentes. Mon objectif est d’améliorer la façon dont nous voyons le monde, de nous donner plus de créativité et même un nouveau type d’interaction avec les données visuelles. »

Et le Dr. Dekel d’ajouter : « Nos recherches soulèvent des questions fascinantes, telles que : Qu’est-ce qu’un modèle génératif apprend sur le monde et comment encode-t-il ces informations ? Comment pouvons-nous représenter efficacement les informations visuelles dans l’espace et le temps pour nous permettre de les modifier afin d’interagir avec notre monde dynamique par le biais de vidéos ? »

Outre ses travaux à l’Institut Weizmann, le Dr.Dekel est également chercheuse chez Google. Alors que ses études à l’Institut Weizmann visent à surmonter les limites des modèles d’IA existants, son travail chez Google consiste à développer de nouveaux modèles, tels que le modèle révolutionnaire Lumiere de conversion de texte en vidéo et dont les résultats ont été récemment dévoilés au public. Lumiere peut, à l’aide d’un court texte ou d’une photo de référence, produire une gamme riche et impressionnante de vidéos ou éditer des vidéos existantes. Par exemple, le modèle a généré une série de vidéos d’une femme courant dans un parc, la transformant en une figure faite de blocs de bois, de briques colorées ou même de fleurs. Lorsqu’on a présenté à Lumiere l’image d’un vieux train à vapeur dégageant de la fumée sur une voie ferrée et que les chercheurs ont mis en évidence la partie de l’image contenant la fumée, le modèle a créé une image partiellement animée dans laquelle seule la fumée bougeait. Il l’a fait de manière très réaliste, en conservant le reste de l’image inchangé. Les chercheurs se sont même amusés avec Lumière, en lui demandant de générer une Mona Lisa baillante et de faire sourire la jeune fille de la Fille à la perle de Vermeer.

« Lumiere est un modèle de diffusion texte-vidéo conçu pour synthétiser des vidéos qui représentent des mouvements réalistes, divers et cohérents – un défi majeur dans la synthèse vidéo », selon l’article publié par les chercheurs, dont le Dr. Dekel, lorsqu’ils ont dévoilé le nouveau modèle. Lumiere est unique dans sa capacité à générer une série complète d’images sans espace entre elles, alors que les modèles précédents commençaient par générer des images clés distantes à l’échelle de l’espace-temps et ne remplissaient qu’ensuite le mouvement entre les images clés. C’est pourquoi les modèles précédents avaient du mal à générer des mouvements convaincants et naturels ; Lumiere peut générer des séquences entières de mouvements de haute qualité.

Mais comment les modèles d’apprentissage profond opèrent-ils leur magie ? Même les scientifiques n’en sont pas tout à fait sûrs. « L’ensemble du domaine de l’IA générative est en train de subir un changement de paradigme », explique le Dr. Dekel. « Dans un passé pas si lointain, ces modèles étaient beaucoup plus petits, plus simples et conçus pour effectuer des tâches spécifiques, le plus souvent à l’aide de données marquées. Par exemple, pour apprendre à un ordinateur à reconnaître des objets dans une image, nous devions lui présenter une série d’images dans lesquelles ces objets étaient étiquetés et lui expliquer qu’il s’agissait d’une voiture, d’un chat, etc. Aujourd’hui, les modèles se sont développés et peuvent apprendre à partir d’énormes quantités de données sans étiquetage humain. Les modèles acquièrent une représentation universelle du monde visuel qu’ils peuvent utiliser pour toute une série de tâches, et pas seulement pour l’objectif spécifique pour lequel ils ont été formés à l’origine. Bien que l’amélioration des capacités d’auto-apprentissage de ces modèles soit évidente, nous ne savons toujours pas exactement comment ils fonctionnent. Des pans entiers de réseaux neuronaux constituent pour nous une sorte de « boîte noire » », ajoute le Dr. Dekel.

Cette énigme est particulièrement déconcertante lorsqu’il s’agit de modèles de génération de vidéos, puisque chaque seconde de vidéo est composée d’environ 25 images différentes. En particulier, la plupart des modèles texte-vidéo à grande échelle sont très compliqués, nécessitent une énorme puissance de calcul et sont entraînés sur de grandes quantités de données. Cela signifie que la taille des réseaux informatiques et les défis informatiques auxquels ils sont confrontés sont encore plus importants que pour les modèles qui créent des textes ou des images – et le champ d’action impénétrable des modèles s’élargit en conséquence.

À gauche : image d'un couple dans une cuisine. À droite : Une image créée par un modèle d'IA, à qui l'on a fourni l'image de gauche et l'invite suivante : "deux robots qui dansent dans la cuisine" : "deux robots dansant dans la cuisine". Le modèle a réussi à générer des robots dans des poses réalistes et crédibles, se tenant dans des positions similaires à celles du couple de l'image originale
À gauche : image d’un couple dans une cuisine. À droite : Une image créée par un modèle d’IA, à qui l’on a fourni l’image de gauche et l’invite suivante : « deux robots qui dansent dans la cuisine » : « deux robots dansant dans la cuisine ». Le modèle a réussi à générer des robots dans des poses réalistes et crédibles, se tenant dans des positions similaires à celles du couple de l’image originale

Pour le Dr. Dekel, les « boîtes noires » que renferment ces modèles offrent d’excellentes possibilités de recherche. « Au cours du processus d’auto-apprentissage, les modèles acquièrent une grande quantité d’informations sur le monde. Dans le cadre de nos recherches sur le re-rendu de la réalité à l’aide d’outils numériques, nous essayons de produire différents résultats à partir de modèles existants, presque sans les modifier du tout. Nous essayons plutôt de mieux comprendre comment ils fonctionnent tout en essayant de découvrir de nouvelles tâches qu’ils sont capables d’accomplir « , explique le Dr. Dekel à propos de la recherche qu’elle a menée avec son collègue de Weizmann, le Dr Shai Bagon, le Dr Yoni Kasten de NVIDIA Research et les étudiants de Weizmann Omer Bar-Tal, Narek Tumanyan, Michal Geyer, Rafail Fridman et Danah Yatim.

Les chercheurs du laboratoire du Dr.  Dekel sont également à la recherche de méthodes sophistiquées de traitement des vidéos, qui consistent notamment à décomposer le contenu en éléments plus simples, tels qu’une image qui présente l’arrière-plan d’une vidéo et d’autres images, chacune représentant des objets qui changent au cours de la vidéo. Cette séparation simplifie grandement le processus d’édition : au lieu de traiter un grand nombre de pixels, le modèle ne modifie qu’une seule image et toutes les autres images changent en conséquence. Par exemple, si la couleur d’une robe change dans une image, le modèle sait comment effectuer ce changement dans l’ensemble de la vidéo, assurant ainsi la continuité. Un autre défi auquel les chercheurs sont confrontés est le fait que de nombreuses images et vidéos générées par des modèles ne sont pas réalistes, présentant des objets qui bougent différemment de ce à quoi on s’attendrait, compte tenu de notre expérience dans le monde réel.

Dans le cadre de leurs efforts pour apprendre aux modèles à générer des vidéos dans lesquelles les mouvements sont cohérents et logiques, le Dr.e Dekel et son équipe ont montré comment les capacités des modèles texte-image peuvent être étendues de manière à ce qu’ils puissent également générer et éditer des vidéos. Par exemple, ils ont introduit une vidéo d’un loup bougeant sa tête d’un côté à l’autre dans un modèle open-source appelé Stable Diffusion et lui ont demandé de générer une vidéo similaire montrant un ragdoll (poupée en chiffon) ressemblant à un loup. Dans un premier temps, le modèle a créé une vidéo décalée et irréaliste, car chaque image de la vidéo était éditée différemment. Mais en comprenant mieux comment le modèle traite et représente les images lors du montage, les chercheurs ont réussi à lui faire traiter toutes les images de la même manière, ce qui a donné une vidéo dans laquelle la poupée-loup bougeait de manière naturelle et convaincante.

Images créées par Lumiere de Google : Une Joconde qui bâille et un panda qui conduit une voiture.
Images créées par Lumiere de Google : Une Joconde qui bâille et un panda qui conduit une voiture.

Le Dr. Dekel a récemment reçu une bourse de démarrage du Conseil Européen de la Recherche d’un montant de 1,5 million d’euros, une ressource prestigieuse pour les jeunes scientifiques. Elle a l’intention d’utiliser cette bourse pour s’attaquer à d’autres limites des modèles qui génèrent et éditent les vidéos. Le traitement vidéo étant une tâche très complexe, il existe un écart important entre les connaissances qu’un modèle a déjà accumulées grâce aux nombreuses vidéos sur lesquelles il a été formé et les caractéristiques spécifiques du mouvement dans une vidéo donnée que le modèle est invité à générer. Le Dr. Dekel tentera de développer un modèle capable d’en apprendre davantage sur ce qu’il doit faire avec une vidéo spécifique à partir de l’expérience qu’il a acquise sur des milliers d’autres vidéos.

Qu’en est-il des inquiétudes suscitées par l’énorme puissance de ces modèles ? « Il existe un équilibre délicat entre le fait d’être conscient des risques potentiels d’une technologie et la volonté de la faire progresser », explique le Dr. Dekel. « Notre engagement consiste à préserver cet équilibre. Le grand public peut parfois avoir l’impression que ces modèles sont omnipotents, mais ce n’est pas le cas actuellement. Mon principal objectif en tant que chercheur est d’élargir les possibilités créatives de chacun d’entre nous, y compris des personnes qui ne sont pas des professionnels, et de faire progresser la science et la capacité informatique de voir le monde. »

 

La Science en Chiffres
En un seul passage, Lumiere de Google génère 80 images par séquence vidéo d’une durée d’environ 3 secondes, ce qui permet d’obtenir des vidéos de haute qualité et cohérentes.



Processing...
Thank you! Your subscription has been confirmed. You'll hear from us soon.
ErrorHere