La Nouvelle Image Multimodale De Gemini 2.0 Flash Est Mon Nouvel éditeur D'image

Google vient de publier la génération et l’édition d’images natifs avec le modèle expérimental Flash Gemini 2.0.
Il est disponible gratuitement dans AI Studio en ce moment.
Gemini utilise la capacité multimodale native pour modifier les images. Vous pouvez ajouter et supprimer du texte et des objets, modifier les angles de caméra, la couleur et plus à l’aide d’invites textuelles simples.

Google a publié une mise à jour impressionnante avec Gemini 2.0 Flash Experimental. Vous pouvez non seulement générer des images maintenant, mais également les modifier de manière cohérente sans perdre de modifications en utilisant des invites textuelles simples.

Il existe de nombreux éditeurs d’images AI avec des gens comme Dall-E 3 et Imagen 3 se battant pour votre temps et votre argent. Bien qu’ils soient bons pour générer des images, l’édition avec eux était malheureusement hors de portée. Ces modèles d’IA ont été formés pour générer des images uniquement. Au lieu d’apporter des modifications, ils ont généralement fini par en créer de nouveaux à partir de zéro.

Gemini est actuellement le seul chatbot AI multimodal qui peut gérer le texte et les images nativement. Ce qui signifie que lorsque vous demandez aux Gémeaux de modifier une image générée, il le fait nativement au lieu d’achever la demande à un modèle de diffusion d’image spécialisé comme Imagen 3.

Les capacités multimodales de Gemini aident à comprendre à la fois le texte et les images qui l’aident nativement à réaliser des exploits impressionnants. Décomposons-le avec quelques exemples.

Quoi de neuf avec la génération et l’édition d’images natives Gemini 2.0 Flash

Jusqu’à présent, lorsque vous avez demandé à un modèle d’IA de modifier une image, au lieu de modifier l’image générée, il régénérerait une nouvelle image entièrement créant deux images distinctes à la place.

Par exemple, voici la réponse de Chatgpt lorsque je lui demande de changer la couleur de la voiture du noir au rouge. Au lieu de changer la couleur, il génère une nouvelle voiture rouge à la place avec une nouvelle route, un arrière-plan différent et même un modèle de voiture différent.

Maintenant, lorsque je demande aux Gémeaux de changer la couleur de la voiture du noir au rouge, il maintient l’image cohérente et ne fait que le changement requis. Il ne change que la couleur mais maintient le modèle de voiture, la route et l’arrière-plan, tous cohérents.

Gemini utilise la capacité multimodale native pour garder les images cohérentes même lors de la génération d’instructions étape par étape. Par exemple, lorsque vous demandez une recette de pâtes, Gemini générera des images pour chaque étape de cuisson, en gardant les détails comme le bol ou la casserole cohérents. Vous pouvez même télécharger ces images pour un usage personnel.

Il s’agit toujours d’une fonctionnalité bêta et n’est actuellement pas disponible directement à l’intérieur des Gémeaux. Cependant, tout le monde peut y accéder gratuitement à l’intérieur de l’application AI Studio, l’application de test AI Beta de Google. Sautez juste sur Site Web de Google de l’IA Studiosélectionnez le modèle expérimental Flash Gemini 2.0 et testez-le.

Exemples de génération d’images Flash Gemini 2.0

Nous avons testé la fonctionnalité de plusieurs manières différentes et à chaque fois, il est sorti en haut pour fournir des résultats cohérents.

Tout d’abord, j’ai demandé au modèle de générer une image de la glace à la vanille. Plus tard, je lui ai demandé d’ajouter du sirop de chocolat, et cela a fait exactement cela sans rien changer – même le scoop était exactement le même que dans la première image.

De même, j’ai demandé aux Gémeaux de changer l’angle de la caméra et cela l’a fait parfaitement. Par exemple, j’ai d’abord généré une image d’une voiture rouge classique. Lorsque j’ai demandé un angle de caméra différent, il a généré une image avec la vue d’entrée au lieu de la vue latérale.

Alors que je demande aux Gémeaux d’ajouter plus de modifications, le modèle a apporté des modifications comme l’ajout / supprimer les éléments, la modification des placements, le réglage des angles de caméra, etc. comme demandé.

Pas seulement pour les images générées, vous pouvez également télécharger vos propres images, puis les modifier. Dans l’exemple ci-dessous, j’ai demandé au modèle de convertir l’image en coucher de soleil avec des couleurs vives, et cela l’a parfaitement fait.

Vous voulez rendre votre image en noir et blanc coloré? Vous pouvez demander aux Gémeaux de le faire.

Vous pouvez également essayer de télécharger un style artistique et lui demander de générer quelque chose dans ce style particulier, et le modèle peut le reproduire exactement.

Étant donné que Gemini est bon avec le texte et les images, vous pouvez maintenant lui demander d’ajouter du texte aux images. Plus tôt, Gemini, comme la plupart des modèles d’IA, a eu du mal à ajouter et à modifier du texte à l’intérieur d’une image.

Voici les Gémeaux générant une carte de joyeux anniversaire avec un tas de texte exactement comme demandé.

Comme mentionné, Gemini utilise sa capacité multimodale pour générer des images cohérentes de diverses manières. Par exemple, voici une histoire entière créée par les Gémeaux, générant des images pour chaque étape de l’histoire. Remarquez comment les personnages sont cohérents.

Vous pouvez également demander des recettes avec des images pour chaque étape, et le modèle maintiendra la cohérence partout.

Cependant, le modèle n’est pas complètement parfait. Si vous observez, lors de la création d’une recette, le modèle a d’abord cuit les cookies, puis les a placés sur un plateau. Bien que cela ne se produise généralement pas, nous avons observé des problèmes occasionnels lors de nos tests. De plus, une fois lorsque j’ai demandé à changer la couleur de la voiture, il a changé toute la voiture plutôt que la couleur. Cependant, lorsque j’ai réessayé, cela a correctement changé la couleur de la voiture.