Cet été je deviens freelance ! Webinar le jeudi 18 juin à 13h sur Teams avec Pauline et Jérôme.

3/4 Intelligence artificielle générative : le match !

L'intelligence artificielle

Fin 2022, l’intelligence artificielle se fait connaître de manière tonitruante avec l’ouverture au grand public de ChatGPT, l’IA générative de OpenAI.

Depuis toutes les grandes firmes de l’IT sont dans une course effrénée à qui proposera un outil plus puissant que le précédent !

Sommaire

1 – C’est quoi une intelligence artificielle générative ?

2 – Les intelligences artificielles génératives d’images

3 – Les intelligences artificielles génératives conversationnelles

Mais au fait, c’est quoi au juste une IA générative ?

L’intelligence artificielle générative est un type de système d’IA capable de générer du texte, des images ou d’autres médias en réponse à des invites (ou “prompts”). Les modèles génératifs apprennent les modèles et la structure des données d’entrée. Ils génèrent ensuite un contenu similaire aux données d’apprentissage mais avec un certain degré de nouveauté. Les anciens modèles se contentaient de simplement classer ou prédire les données. Pour aborder l’IA générative, les cadres les plus importants comprennent les réseaux antagonistes génératifs (GAN) et les transformateurs génératifs pré-entraînés (GPT).

L’IA générative peut être unimodale ou multimodale. Les systèmes unimodaux n’acceptent qu’un seul type d’entrée (par exemple, du texte). De leur côté, les systèmes multimodaux peuvent accepter plusieurs types d’entrée (par exemple, du texte et des images).

Les applications potentielles de l’IA générative sont nombreuses, notamment dans des domaines créatifs tels que l’art, la musique et l’écriture, ou les soins de santé, la finance et les jeux. Cependant, il existe des inquiétudes quant à l’utilisation abusive potentielle de l’IA générative. Citons par exemple la création de fake news ou de deepfakes, qui sont utilisés pour tromper ou manipuler les gens.

Les intelligences artificielles génératives d’images

Deux IAs sortent aujourd’hui du lot (août 2023) : Midjourney et Dall E.

Midjourney est accessible depuis juillet 2022 en béta. Pour l’utiliser, il vous faudra un compte Discord. Ce programme a servi à réaliser la Une d’un numéro de The Economist, une œuvre réalisée grâce à lui a remporté un concours de beaux-arts aux Etats-Unis.

Midjourney a également pas mal fait parler de lui au sujet des deepfakes. Qui n’a pas entendu parler ou vu les photos d’Emmanuel Macron éboueur, de Donald Trump arrêté ou du pape François dans une magnifique doudoune blanche !

De son côté DALL-E a vu le jour en janvier 2021. OpenAI, également aux manettes de ChatGPT, se cache derrière. DALL-E est capable de créer des images à partir de descriptions textuelles. Il utilise une version à 12 milliards de paramètres du modèle de langage GPT-3 pour interpréter les entrées en langage naturel et générer les images demandées.

C’est DALL-E 2 qui est actuellement accessible au grand public.

Prise en main :

DALL-E 2 est accessible sur le site internet d’OPEN AI. Il vous suffit d’un navigateur internet et c’est parti ! Vous pouvez également utiliser une autre version de DALL-E, via Bing Creator.

Accéder à Midjourney demandera que vous possédiez un compte Discord, puis que vous rejoignez le serveur de Midjourney, puis en tant que débutant, un salon « Newbies ». Ce sera donc moins facile pour le grand public de prendre la main sur l’IA !

Résultats :

Nous avons testé les trois plateformes avec un même prompt. Une image (ou plutôt 4) valant mieux que 1000 mots, observons le résultat.

Voici le prompt qui a été utilisé : Bear and 3 years old boy Adventures in dark caves It’s raining, so let’s take a break.

DALL E (version Bing)

Notons que les tests semblent révéler que DALL-E dans sa version Bing Creator est plus efficace que dans sa version officielle DALL-E 2 – et gratuit !

Prix :

Deux salles, deux ambiances ! DALL-E 2 fonctionne au crédit : 15 $ pour 115 crédits. L’offre de Midjourney est beaucoup moins claire. À partir de 8 $ / mois vous devriez pouvoir générer environ 200 images chaque mois.

Intégration :

Avantage clair et net pour DALL-E. En effet OpenAI fournit des API qui permettent aux développeurs de créer des intégrations personnalisées. Midjourney ne le propose pas de son côté.

Pour conclure :

Les images proposées par Midjourney lors de notre test ont fait l’unanimité auprès de notre équipe, suivies de près par celles proposées par la version Bing de DALL-E.

Toutefois les facilités d’intégration de DALL-E et sa tarification claire lui confèrent des avantages non négligeables.

Votre choix dépendra donc de l’utilisation que vous comptez faire de ces outils.

Gageons de toute façon que rien n’est figé ! Cet article écrit à la fin de l’été 2023 pourrait ne plus être aussi pertinent dans 6 mois : l’émergence de nouveaux concurrents et l’apprentissage des IA existantes pouvant rabattre les cartes à tout moment.

Les intelligences artificielles génératives conversationnelles