Comment utiliser l'intelligence artificielle : Tous les modèles

L'intelligence artificielle révolutionne la façon dont nous interagissons avec le monde numérique. Grâce à sa capacité d'apprendre et de s'améliorer continuellement, l'IA offre des possibilités d'application infinies.

En particulier, il existe six façons principales dont elle peut être utilisée :

texte-vers-texte
audio-vers-texte
texte-vers-audio
texte-vers-image
image-vers-texte
image-vers-image

Voyons ensemble comment ces six modes d'utilisation peuvent transformer notre expérience numérique et améliorer notre vie quotidienne.

Avant de commencer, il convient de définir deux concepts de base communs à tous les modèles : le Prompt et les Modèles Neuronaux.

Que sont les Prompts pour les modèles IA ?

Les prompts peuvent être des mots supplémentaires introduits par un être humain. Comme les indices des mots croisés, les prompts guident le modèle vers une décision ou une prédiction souhaitée.

Que sont les Modèles Neuronaux dans l'IA ?

Les modèles neuronaux dans l'Intelligence Artificielle sont des algorithmes d'apprentissage automatique qui s'inspirent du fonctionnement du cerveau humain. Ces réseaux de neurones sont composés de neurones artificiels interconnectés qui traitent les informations de manière similaire aux neurones biologiques.

La façon dont on obtient ces modèles est à travers des systèmes d'entraînement où, à partir d'une série d'entrées, on visualise les sorties et on modifie les coefficients du réseau neuronal afin d'obtenir les sorties souhaitées. Pour pouvoir effectuer l'entraînement, il faut énormément de données de qualité, sinon les résultats seront imprécis.

Modèles de texte

La génération de textes est l'un des domaines de l'Intelligence Artificielle qui a connu une attention croissante ces dernières années.

Grâce à la capacité des machines à traiter de grandes quantités de données et à apprendre à partir de modèles existants, il est possible de créer des logiciels capables de produire des textes de qualité, qui semblent écrits par des êtres humains.

Les possibilités peuvent notamment être divisées en plusieurs types ; pour simplifier, nous ferons référence aux exemples présentés officiellement par OpenAI (cliquez ici pour mieux connaître OpenAI).

Générateur de réponses pour FAQ ou Q&R

Ce type de système utilise l'apprentissage automatique pour comprendre les questions posées par les utilisateurs et fournir des réponses pertinentes et précises. La particularité de ces modèles est qu'ils peuvent améliorer continuellement leur capacité à répondre aux questions des utilisateurs grâce à l'analyse des retours fournis par ces derniers.

Prompt :

Je suis un bot hautement intelligent pour répondre aux questions. Si vous me posez une question ancrée dans la vérité, je vous donnerai la réponse. Si vous me posez une question absurde, trompeuse ou sans réponse claire, je répondrai par « Inconnu ».

Q : Quelle est l'espérance de vie humaine aux États-Unis ?

Réponse :

R : L'espérance de vie humaine aux États-Unis est de 78 ans.

Systèmes de classification textuelle

Ce type d'opérations est utile lorsque, à partir d'une entrée textuelle, on cherche à la catégoriser ou la classifier. Il peut être utilisé pour classifier des mots isolés, des phrases ou des blocs de texte entiers.

Là aussi, ils sont facilement améliorables grâce aux retours de l'utilisateur, car chaque fois qu'un comportement erroné du modèle est signalé, ce dernier est amélioré pour ne pas reproduire la même erreur ou des erreurs similaires.

Prompt :

Extrayez les mots-clés présents dans le texte suivant :

La céramique noire sur noire est une tradition de céramique des XXe et XXIe siècles développée par les artistes céramistes amérindiens Puebloan du nord du Nouveau-Mexique. La céramique traditionnelle cuite par réduction a été produite pendant des siècles par des artistes pueblo. La céramique noire sur noire du siècle dernier est produite avec une surface lisse, avec des motifs appliqués par polissage sélectif ou application d'engobe réfractaire. Un autre style implique la sculpture ou la gravure de motifs et le polissage sélectif des zones en relief. Pendant des générations, différentes familles des pueblos Kha'po Owingeh et P'ohwhóge Owingeh ont fabriqué de la céramique noire sur noire avec des techniques transmises par les céramistes matriarches. Des artistes d'autres pueblos ont également produit de la céramique noire sur noire. Certains artistes contemporains ont créé des œuvres qui honorent la céramique de leurs ancêtres.

Réponse :

céramique, noire sur noire, XXe, XXIe siècle, Puebloan, Nouveau-Mexique, réduction, surface lisse, motifs, polissage sélectif, engobe réfractaire, sculpture, gravure, polissage sélectif, Kha'po Owingeh, P'ohwhóge Owingeh, céramistes matriarches, artistes contemporains, ancêtres.

Prompt :

Classifiez le sentiment dans les tweets suivants :

« Je ne supporte pas les devoirs »

« Ça craint. Je m'ennuie 😠 »

« J'ai hâte d'Halloween !!! »

« Mon chat est adorable ❤️❤️ »

« Je déteste le chocolat »

Résultat :

Évaluation sentimentale des tweets :

Négatif

Négatif

Positif

Positif

Négatif

Chatbot

Il s'agit de l'utilisation de l'intelligence artificielle pour fournir un support via des chatbots. Dans ce cas également, l'entraînement et l'optimisation sont faciles, car il suffit d'utiliser le chatbot et de donner des retours négatifs lorsqu'il commet des erreurs.

Prompt :

Marv est un chatbot qui, à contrecœur, répond aux questions avec des réponses sarcastiques.

You: Combien de livres y a-t-il dans un kilogramme ?

Résultat :

Marv : Encore celle-là ? Il y a 2,2 livres dans un kilogramme. Notez-le bien.

Génération Libre

L'un des domaines d'utilisation théorique de l'Intelligence Artificielle les plus intéressants. Il fait référence à la capacité des IA à générer des contenus à partir d'indications de base, comme des textes, des écrits, des poèmes, des chansons ou même des œuvres d'art.

L'idée à la base de cette application est de doter l'IA d'une créativité propre, capable de produire du matériel original et innovant, sans intervention humaine.

Dans ce cas, l'entraînement s'avère très complexe, car son exécution nécessite de grandes quantités de données et un matériel informatique non négligeable.

Prompt :

Description produit : Une paire de chaussures qui s'adapte à toutes les pointures.

Mots-clés : adaptable, adapté, omni-fit.

Nom du produit :

Résultat :

Omni-Fit Shoes

Traductions

Système d'application très similaire à celui de la génération libre, mais davantage axé sur les traductions proprement dites, entre différentes langues ou même entre différents langages de programmation (il n'est pas absurde d'envisager à l'avenir une stèle de Rosette entièrement autonome).

Dans ce cas également, l'entraînement s'avère très complexe en raison des grandes quantités de données nécessaires pour le réaliser.

Prompt :

Traduisez en 1. Français, 2. Espagnol et 3. Japonais :

Où se trouve le musée le plus proche ?

Résultat :

Où se trouve le musée le plus proche?

¿Dónde está el museo más cercano?

最も近い博物館はどこですか？

Transformations

Il s'agit de systèmes permettant des transformations et des retraitements de contenus textuels en d'autres contenus. Les cas d'usage peuvent être très variés, comme : correcteur grammatical, synthétiseur, réécriture de contenus avec un style d'écriture différent.

Ces systèmes sont les plus complexes à entraîner car le réseau neuronal est très différent après l'entraînement et donc les poids à modifier sont nombreux.

Prompt :

Résumez pour un élève de primaire :

Jupiter est la cinquième planète depuis le Soleil et la plus grande du Système Solaire. C'est une géante gazeuse dont la masse représente un millionième de celle du Soleil, mais deux fois et demie celle de toutes les autres planètes du Système Solaire réunies. Jupiter est l'un des objets les plus lumineux visibles à l'œil nu la nuit, et est connu des peuples de la civilisation depuis des temps anciens. Il porte le nom du dieu romain Jupiter. Lorsqu'il est observé depuis la Terre, Jupiter peut être suffisamment lumineux pour projeter des ombres visibles et est en moyenne le troisième objet naturel le plus lumineux dans le ciel nocturne après la Lune et Vénus.

Résultat :

Jupiter est une grande et lumineuse planète qui orbite autour du Soleil. C'est la cinquième planète en partant du Soleil et on peut la voir à l'œil nu la nuit. Elle porte le nom du dieu romain Jupiter et peut être suffisamment lumineuse pour projeter des ombres visibles. Elle est en moyenne le troisième objet le plus lumineux dans le ciel nocturne après la Lune et Vénus.

Prompt :

Corrigez la grammaire de la phrase suivante :

Jupiter est le cinquième planète du soleil.

Résultat :

Jupiter est la cinquième planète par rapport au Soleil.

Prompt :

Trouvez-moi les informations de contact de l'e-mail suivant :

Chère Kelly,

C'était formidable de vous parler lors du séminaire. J'ai trouvé la présentation de Jane vraiment intéressante.

Merci pour le livre. Voici mon adresse : 2111 Ash Lane, Crestview CA 92002

Cordialement,

Maya

Résultat :

Informations de contact de Maya :

Nom : Maya

Adresse : 2111 Ash Lane, Crestview CA 92002

Traitement Audio

Grâce à la puissance d'algorithmes avancés, l'IA peut analyser, reconnaître et améliorer l'audio comme jamais auparavant.

Filtrer le bruit de fond, distinguer les voix, traduire en temps réel des conversations dans différentes langues : tout cela est possible grâce à l'innovation de l'IA.

L'intelligence artificielle peut également créer de nouvelles formes d'art sonore et musical, générant des sons et des mélodies de manière autonome et innovante. L'intérêt pour l'IA dans le domaine du traitement audio est croissant et ses applications sont déjà visibles dans les systèmes de téléconférence, les services d'assistance virtuelle et la production de contenus audiovisuels de haute qualité.

Du Texte vers l'Audio

L'utilisation de l'intelligence artificielle pour la conversion du texte en audio est de plus en plus répandue. De nombreuses applications permettent de transformer le texte en fichier audio, facilitant ainsi l'écoute de livres, d'articles et de documents. Cette technologie est particulièrement utile pour les personnes ayant des déficiences visuelles ou pour celles qui préfèrent écouter plutôt que lire.

Cette technologie peut être utilisée pour créer des podcasts ou des assistants vocaux intelligents. Grâce à l'intelligence artificielle, la voix générée par l'ordinateur peut devenir de plus en plus naturelle et similaire à la voix humaine, améliorant ainsi l'expérience de l'utilisateur.

Ces systèmes évoluent également vers la génération de contenus audio à partir de zéro. Dans ce domaine, Google fait figure de référence et les résultats sont impressionnants :

Prompt :

The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls.

Résultat :

L'exemple est tiré du papier de recherche officiel de Google : https://google-research.github.io/seanet/musiclm/examples/

De l'Audio vers le Texte

Il s'agit de la possibilité de convertir la parole en texte écrit.

Cette technologie a déjà été utilisée dans de nombreux secteurs, comme la transcription d'interviews, de conférences et de discours politiques. Mais l'utilisation de cette technologie ne se limite pas à la transcription de discours : elle peut également être utilisée dans le domaine médical, par exemple pour la transcription de comptes rendus médicaux ou de textes juridiques.

En outre, la technologie de conversion de l'audio en texte peut être utilisée pour la création de sous-titres automatiques dans les vidéos, améliorant ainsi l'accessibilité pour les personnes malentendantes.

Dans ce domaine, plusieurs intelligences artificielles proposent cette fonctionnalité, dont Whisper d'OpenAI.

Entrée :

Résultat :

Before he had time to answer, a much encumbered veerer burst into the room with the question, I say, Can I leave these here? These were a small black pig and a lusty specimen of black red gamecock.

L'exemple est également tiré de ressources officielles fournies par OpenAI.

Traitement d'Images

L'intelligence artificielle a révolutionné la façon dont les images sont traitées et analysées. Grâce aux techniques de deep learning, les réseaux de neurones peuvent apprendre à reconnaître des objets, des visages et des motifs dans une image, en les classifiant ou en en créant de nouvelles.

Les deux acteurs les plus connus et les plus avancés dans ce domaine sont MidJourney et l'alternative open source Stable Diffusion.

Du Texte vers l'Image

Il s'agit d'un mécanisme assez simple : il consiste simplement à demander à l'intelligence artificielle de générer des images à partir d'un prompt.

Voici quelques exemples tirés des reddit des deux plateformes :

La demande était de créer une photo de l'ex-président des États-Unis comme s'il était sans-abri.

Obama sans-abri

Ici, il s'agissait de montrer à quoi aurait ressemblé un selfie pris par des Amérindiens en 1800.

Amérindiens Selfie

Les résultats sont époustouflants et il est très très difficile que quelqu'un reconnaisse ces photos comme générées. Pour plus d'exemples cliquez ici pour Stable Diffusion et ici pour MidJourney.

De l'Image vers le Texte

Cette technologie peut également être utilisée dans des domaines de reconnaissance d'objets dans les images et de texte dans les images.

Pour la reconnaissance de texte, on parle de technologies OCR, et dans ce cas il s'agit de technologies pratiquement fiables qui donnent donc des résultats corrects dans la grande majorité des cas.

En revanche, pour ce qui est de la reconnaissance d'éléments, c'est quelque chose de plus intéressant car cela permet des traitements plus complexes qui ouvrent la voie aux traitements d'image à image.

Dans ce domaine, c'est encore OpenAI qui propose un modèle dédié à cela avec CLIP, et voici un exemple :

Cavalier King

Le modèle Clip a répondu correctement plus de 99 % des fois en reconnaissant la présence d'un chien et en particulier d'un King Charles Spaniel.

De l'Image vers l'Image

En particulier, un domaine de recherche très actif concerne la transformation d'images afin d'en améliorer la qualité ou d'en modifier le contenu. Ce processus, appelé « d'image à image », implique l'utilisation d'algorithmes d'apprentissage automatique pour transformer une image d'entrée en une image de sortie répondant à certains critères.

Les applications courantes peuvent être :

Réduction du bruit dans les images
Amélioration de la résolution et de la qualité des images
Suppression d'éléments ou d'objets dans la scène
Ajout d'éléments ou d'objets dans la scène
Création d'une nouvelle scène à partir d'une ancienne image

Voici quelques exemples toujours tirés du reddit de Stable Diffusion :

Si Van Gogh existait aujourd'hui

Van Gogh Today

Remplacement du personnage du Cri de Munch par un chat

Cat in Munch

Conclusion

L'intelligence artificielle représente une véritable révolution dans le monde numérique.

Grâce à sa capacité d'apprendre et de s'améliorer constamment, l'IA offre des possibilités d'application infinies, notamment les six modes principaux d'utilisation : texte-vers-texte, audio-vers-texte, texte-vers-audio, texte-vers-image, image-vers-texte et image-vers-image.

Ces outils peuvent transformer profondément notre expérience numérique et améliorer notre vie quotidienne de nombreuses façons différentes.

Avec une connaissance approfondie de ces éléments, nous serons en mesure d'utiliser l'IA pour améliorer notre vie de manière toujours plus efficace et innovante.

(Cliquez ici pour lire notre guide complet sur l'intelligence artificielle pour les entreprises)