Ne payez pas pour un générateur d’images IA.
Les modèles de génération de texte en image basés sur l’IA sont omniprésents et deviennent chaque jour plus faciles d’accès. Bien qu’il soit facile de simplement visiter un site Web et de générer l’image que vous recherchez, les générateurs de texte en image open source sont votre meilleur choix si vous souhaitez plus de contrôle sur le processus de génération.
Il existe des dizaines de générateurs de texte-image IA gratuits et open source disponibles sur Internet, spécialisés dans des types spécifiques d’images. Nous avons donc passé au crible la pile et trouvé les meilleurs générateurs de texte-image d’IA open source que vous pouvez essayer dès maintenant.
VOIR AUSSI: 12 meilleurs générateurs d’images AI que vous pouvez essayer en 2024
1- Craiyon
Craiyon est l’un des générateurs d’images IA open source les plus facilement accessibles. Il est basé sur DALL-E Mini, et même si vous pouvez cloner le référentiel Github et installer le modèle localement sur votre ordinateur, Craiyon semble avoir abandonné cette approche au profit de son site Web.
Le référentiel officiel Github n’a pas été mis à jour depuis juin 2022, mais le dernier modèle est toujours disponible gratuitement sur le site officiel de Craiyon. Il n’existe pas non plus d’applications Android ou iOS.
En termes de fonctionnalités, vous verrez toutes les options habituelles que vous attendez d’un générateur d’images IA. Une fois que vous avez entré votre invite et obtenu une image, vous pouvez utiliser la fonction de mise à l’échelle pour obtenir une copie de plus haute résolution. Vous avez le choix entre trois styles : Art, Photo et Dessin. Vous pouvez également sélectionner l’option « Aucun » si vous souhaitez que le modèle décide.
De plus, le « Mode Expert » vous permet d’inclure des mots négatifs, ce qui indique au modèle d’éviter des éléments spécifiques. Il existe également une fonction de prédiction d’invite, qui utilise ChatGPT pour aider les utilisateurs à rédiger les invites les meilleures et les plus détaillées possibles. Enfin, les fonctionnalités de suppression d’arrière-plan basées sur l’IA peuvent vous aider à économiser du temps et des efforts en recadrant les arrière-plans des images.
Et c’est à peu près tout ce que fait Craiyon. Ce n’est pas le modèle de génération d’images IA le plus sophistiqué, mais il constitue un modèle de base si vous ne voulez pas quelque chose de détaillé ou de réaliste.
Le modèle est gratuit, mais les utilisateurs gratuits sont limités à neuf images gratuites à la fois par minute. Vous pouvez vous abonner à leurs niveaux Supporter ou Professionnel (au prix de 5 $ et 20 $ par mois, respectivement, et facturés annuellement) pour ne recevoir aucune publicité ni filigrane, une génération plus rapide et la possibilité de garder vos images générées privées. Un niveau d’abonnement personnalisé permet également des modèles personnalisés, une intégration, une assistance dédiée et des serveurs privés.
2- Stable Diffusion 1.5
Stable Diffusion est peut-être l’un des modèles de génération de texte en image open source les plus populaires. Il alimente également d’autres modèles, notamment les trois générateurs d’images mentionnés ci-dessous. Il est sorti en 2022 et a connu de nombreuses implémentations depuis.
Je vous épargnerai les détails trop techniques du fonctionnement du modèle (pour lesquels vous pouvez consulter leur dépôt officiel Github), mais le modèle est facile à installer même pour les débutants complets et fonctionne bien tant que vous disposez d’un GPU dédié avec au moins 4 Go de mémoire. Vous pouvez également accéder à Stable Diffusion en ligne, et nous sommes là pour vous si vous souhaitez exécuter Stable Diffusion sur un Mac.
Il existe plusieurs points de contrôle (considérez-les comme versions) disponibles pour une diffusion stable. Alors que nous avons testé la version 1.5, la version 2.1 est également en développement actif et est plus précise.
L’exécution du modèle est également assez simple. Nous l’avons testé avec l’interface utilisateur Web AUTOMATIC1111 Stable Diffusion , et tous les contrôles et paramètres fonctionnent bien. Il est également tout à fait à l’épreuve du NSFW grâce à la base de données LAION-5B sur laquelle le modèle s’est entraîné (même si elle n’est pas parfaite, remarquez). Bien que le temps de génération lui-même varie en fonction de votre matériel, vous pouvez vous attendre à ce que vos images soient détaillées et réalistes, même avec des invites de base.
3- InvokeAI
Invoke AI est un autre modèle de génération d’images basé sur l’IA basé sur Stable Diffusion, avec une version XL basée sur Stable Diffusion XL. Il possède également sa propre interface utilisateur Web et en ligne de commande, ce qui signifie que vous n’aurez pas à sauter des étapes avec des éléments tels que l’interface utilisateur Web Stable Diffusion.
Le modèle vise à permettre aux utilisateurs de créer des visuels basés sur leur propriété intellectuelle avec des flux de travail personnalisés. InvokeAI est l’un des meilleurs modèles de génération d’images d’IA open source pour former des modèles personnalisés et travailler avec la propriété intellectuelle.
Son référentiel officiel Github répertorie deux méthodes d’installation : l’installation via le programme d’installation d’InvokeAI ou l’utilisation de PyPI si vous êtes à l’aise avec un terminal et Python et avez besoin de plus de contrôle sur les packages installés avec le modèle.
Cependant, le contrôle supplémentaire entraîne quelques limitations, notamment des exigences matérielles plus strictes. InvokeAI recommande un GPU dédié avec au moins 4 Go de mémoire, avec six à huit Go recommandés pour exécuter la variante XL. Les exigences VRAM s’appliquent aux GPU AMD et Nvidia. Vous aurez également besoin d’au moins 12 Go de RAM et de 12 Go d’espace disque libre pour le modèle, ses dépendances et Python.
Bien que la documentation ne recommande pas les GPU GTX séries 10 et 16 de Nvidia en raison de leur manque de mémoire vidéo, le programme d’installation fourni a très bien fonctionné. Bien que votre kilométrage puisse varier, si vous utilisez un GPU bas de gamme, attendez-vous à attendre plus longtemps pour voir vos invites se transformer en images. Enfin, si vous êtes sous Windows, vous ne pouvez utiliser qu’un GPU Nvidia, car les GPU AMD ne sont actuellement pas pris en charge.
Pour la partie génération d’images, le modèle a tendance à pencher davantage vers les styles artistiques que vers le photoréalisme. Bien sûr, vous pouvez entraîner le modèle sur votre ensemble de données et lui faire générer des images plus proches de ce que vous souhaitez, même si cela implique des images photoréalistes, surtout si vous travaillez dans la conception de produits, l’architecture ou les espaces de vente au détail. Cependant, une chose importante à garder à l’esprit est qu’InvokeAI est avant tout un moteur de génération d’images, ce qui signifie que vous devrez probablement utiliser vos propres modèles pour obtenir les meilleurs résultats (facilement trouvés via le gestionnaire de modèles fourni dans l’interface Web) par défaut. Le modèle est assez similaire à Stable Diffusion lui-même.
4- DreamShaper
DreamShaper est un modèle de génération d’images basé sur Stable Diffusion. Il a été conçu comme une alternative open source à MidJourney et se concentre sur le photoréalisme dans les images générées, bien qu’il puisse tout aussi bien gérer les styles d’anime et de peinture avec quelques ajustements.
Le modèle est plus performant que Stable Diffusion, offrant aux utilisateurs plus de liberté sur le résultat final, allant d’améliorations éclair à des restrictions NSFW plus souples. L’exécution du modèle est également simple, avec une version téléchargeable et pré-entraînée disponible en ligne pour un accès local et une multitude de sites Web, notamment Sinkin.ai , RandomSeed et Mage.space (nécessite un abonnement de base) qui vous permettent d’exécuter le modèle avec Accélération GPU.
Comme vous pouvez probablement le deviner maintenant, les images générées par DreamShaper ont tendance à paraître plus réalistes que celles générées par Stable Diffusion. Même si vous exécutez la même invite sur les deux modèles, le modèle DreamShaper sera probablement plus réaliste, détaillé et mieux éclairé.
Cela est particulièrement vrai pour les portraits ou les personnages, ce qui me manque dans la diffusion stable par rapport à la même invite. Si vos images deviennent trop réalistes, voici quatre façons d’identifier une image générée par l’IA.
Vous n’avez pas non plus besoin d’un PC géant pour exécuter le modèle. Ma GTX 1650Ti avec 4 Go de VRAM faisait parfaitement fonctionner le modèle. Le temps de génération était un peu plus long, mais cela ne semblait pas affecter la production réelle. Cela dit, vous aurez peut-être besoin de GPU avec plus de VRAM pour exécuter DreamShaper XL, qui est basé sur le modèle Stable Diffusion XL.
LIRE AUSSI: Les 9 meilleurs outils de vectorisation et de conversion de texte en vecteur
5- Openjourney
Openjourney est un modèle de génération d’images IA gratuit et open source basé encore une fois sur Stable Diffusion. Si vous vous demandez pourquoi le modèle s’appelle Openjourney, c’est parce qu’il a été formé sur des images Midjourney et peut imiter son style dans les images qu’il génère.
PromptHero, la société derrière Openjourney, vous permet de tester le modèle aux côtés d’autres modèles, notamment Stable Diffusion (versions 1.5 et 2), DreamShaper et Realistic Vision. Lors de votre inscription, vous obtenez 25 crédits gratuits (un crédit pour chaque image générée), après quoi vous devez vous abonner à leur niveau d’abonnement Pro, qui coûte 9 $ par mois et vous donne accès à 300 crédits chaque mois avec d’autres fonctionnalités exclusives.
Cependant, si vous souhaitez l’exécuter localement et gratuitement, vous pouvez télécharger le fichier modèle depuis HuggingFace et l’exécuter à l’aide de l’interface utilisateur Web de Stable Diffusion. Openjourney est également le deuxième modèle de génération d’images IA le plus téléchargé sur HuggingFace, juste derrière Stable Diffusion.
Openjourney ne répertorie aucune configuration matérielle spécifique pour exécuter le modèle localement sur son site Web, mais vous pouvez vous attendre à des exigences matérielles similaires à celles de Stable Diffusion. Cela signifie un GPU dédié avec 4 Go de VRAM, 16 Go de RAM et environ 12 à 15 Go d’espace libre sur votre ordinateur pour sauvegarder le modèle et ses dépendances.
Les images générées par Openjourney ont tendance à être équilibrées entre photoréalisme et art, sauf indication contraire. Si vous recherchez un modèle polyvalent et préférez l’apparence de Midjourney sans payer l’abonnement, Openjourney est l’une des meilleures options.