Plusieurs sens, une seule machine Intermédiaire

Le multimodal : texte, image, son

Comprendre comment un modèle peut comprendre et mélanger du texte, des images et du son.

🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA et le chien-muffin » — lire l'histoire →

10 min multimodalimageaudio

Je commence Je teste ma compréhension

Pas de jargon Compréhensible vite

Chaque modalité (texte, image, son) est encodée séparément.

On obtient des représentations numériques comparables.

Le modèle les place dans un espace commun et les combine.

1. Je découvre une version simple et imagée

2. Je comprends le vrai mécanisme sans jargon inutile

3. Je m'entraîne avec un mini quiz immédiat

4. Je retiens les points clés à réexpliquer

Texte, image, son : tout devient des chiffres

Quand tu envoies une photo à une IA et que tu lui demandes « c'est quoi cette plante ? », elle découpe l'image en petits carrés et les transforme en chiffres.
Le texte, l'image et le son sont traduits dans la même « langue de chiffres » : c'est ça qui lui permet de mélanger tes questions et ta photo.
Le principe ne change pas par rapport au texte seul : seule la matière d'entrée change, le moteur reste le même.
Une image ou un audio pèsent lourd : ils se traduisent en plein de morceaux à traiter, donc ça coûte plus cher et ça remplit vite la mémoire de l'IA.

Un exemple pour toi

Tu prends en photo un exercice de maths et tu écris « explique-moi l'étape 2 ». L'IA lit l'image ET ton message en même temps, parce que les deux sont devenus des chiffres comparables. Pareil quand tu balances un mémo vocal : elle le transcrit puis le résume.

Attention : une IA multimodale ne « voit » pas comme toi, elle calcule des ressemblances apprises. Sur une photo floue, un graphique mal cadré ou un meme à second degré, elle peut se planter complètement et l'affirmer avec assurance. Avant de recopier sa réponse sur une image (un schéma de cours, un ticket, une capture), vérifie toi-même : elle décrit ce qu'elle croit reconnaître, pas forcément ce qui est vraiment là.

Image mentale : un traducteur universel qui met les mots, les images et les sons dans une seule et même langue, celle des chiffres.

Le déclic en mouvement

Regarde texte, image et son devenir des nombres comparables

Trois entrées différentes → tout en nombres → un espace commun → une réponse qui les combine. Même principe que pour le texte.

Tu me donnes plusieurs entrées : du texte, une image, un son.

Texte « que vois-tu ? »Image (un chat)Son « miaou »

Trois matières différentes… mais le modèle va les traiter de la même façon.

Étape 1 / 4

Sous le capot

Pour les curieux : ce qui se passe à l'intérieur

Tape pour explorer Replier

Traducteur

Chaque chose a son petit traducteur

Les mots, les images et les sons ne se ressemblent pas. Alors le modèle a un petit traducteur pour chacun. Un traducteur pour les mots, un qui découpe l'image en petits carrés comme un puzzle, et un qui coupe le son en petits bouts. Chaque traducteur transforme sa chose en nombres.

Même langue

Tout le monde parle la même langue

Une fois traduits, les mots, les images et les sons parlent tous la même langue : celle des nombres. C'est comme une cour de récré où tous les enfants parlent pareil : du coup le mot « chat » et la photo d'un chat peuvent se faire un câlin parce qu'ils se ressemblent en nombres.

Mélange

Il mélange tout pour répondre

Comme quand tu mélanges des couleurs pour faire une nouvelle couleur, le modèle mélange ta question « qu'est-ce que tu vois ? » avec la photo. En mélangeant les deux, il trouve la réponse et te raconte ce qu'il y a sur l'image.

Lourd

Une image, c'est super lourd à porter

Une image ou un son, ça fait ÉNORME de nombres, beaucoup plus qu'une petite phrase. C'est comme remplir ton cartable : avec plein d'images il devient lourd et trop plein très vite. Alors on ne lui montre que les photos vraiment utiles.

Encodeurs

Un encodeur dédié par type d'entrée

Chaque type d'entrée a son propre traducteur, appelé encodeur. Le texte passe par un tokenizer (qui le découpe en morceaux), l'image par un encodeur visuel qui la découpe en patchs (petits carrés de pixels), et l'audio par un encodeur qui le tranche dans le temps. Chacun sort des nombres : des vecteurs.

Espace partagé

Tout se range dans le même espace

Les vecteurs des différentes modalités sont projetés dans un espace commun, un peu comme placer des points sur une même carte. Dans cet espace, le mot « voiture » et une photo de voiture tombent au même endroit. C'est ça qui permet de relier un texte à une image, comme une recherche d'image par mots-clés.

Fusion

Le modèle raisonne sur plusieurs entrées

Une fois tout comparable, le modèle fusionne les infos. Ta question texte « que vois-tu ? » et l'image se combinent dans le même calcul, exactement comme quand tu envoies un meme avec une légende : le sens vient du texte ET de l'image ensemble, pas de l'un sans l'autre.

Coût

Images et sons = beaucoup de tokens

Une image ou un audio se traduit en énormément de tokens (les unités que le modèle compte). La fenêtre de contexte, c'est sa mémoire de travail limitée : une seule photo peut la remplir comme une vidéo 4K remplit ta galerie. Plus tu envoies de tokens, plus c'est lent et cher, donc on n'envoie que l'utile.

Encodage

Chaque modalité a son encodeur

Le texte passe par un tokenizer, l'image par un encodeur visuel (patchs), l'audio par un encodeur de signal. Chacun produit des représentations numériques.

Espace commun

Tout se compare dans le même espace

Les représentations des différentes modalités sont projetées dans un espace partagé. C'est ce qui permet de relier un mot à une image, ou un son à un texte.

Fusion

Le modèle raisonne sur plusieurs entrées

Une fois tout comparable, le modèle peut fusionner les informations : la question texte « que vois-tu ? » et l'image se combinent pour produire une réponse.

Coût

Images et sons = beaucoup de tokens

Une image ou un audio se traduisent en de nombreux tokens. La fenêtre de contexte se remplit vite et le coût grimpe : on n'envoie que ce qui est utile.

L'image mentale

L'analogie qui aide à retenir

C'est une machine qui change tes mots, tes images et tes sons dans la même langue : la langue des nombres.

C'est comme un traducteur universel : il met tes messages, tes photos et tes audios dans une seule langue, celle des nombres.

C'est un traducteur qui met les mots, les images et les sons dans une même langue : celle des nombres comparables.

À retenir

Le coeur de l'idée

Mots, photos, sons : la machine change tout en nombres, alors elle peut les mélanger.

Le multimodal, c'est le même principe que pour le texte : tout devient des nombres comparables, alors on peut mélanger les entrées.

Le multimodal, c'est le même principe que le texte : tout est transformé en nombres comparables dans un espace commun, pour pouvoir mélanger les entrées.

Comment ça marche

Le mécanisme, découpé étape par étape

La machine change tes mots, tes photos et tes sons en nombres.

Comme tout devient des nombres, elle peut les comparer.

Tu lui montres un dessin ET tu poses une question dessus.

Elle mélange tout et te répond.

La machine transforme chaque entrée séparément : le texte, l'image, le son.

Le texte devient des morceaux (tokens), l'image des petits carrés, le son des tranches.

Tout est converti en nombres rangés dans le même « espace ».

Comme c'est comparable, elle peut raisonner sur tout en même temps.

Chaque modalité (texte, image, son) passe par son propre encodeur.

Texte → tokens, image → patchs, audio → tranches, puis tout devient des vecteurs.

Ces représentations sont projetées dans un espace commun où elles deviennent comparables.

Le modèle fusionne ces entrées pour produire une réponse qui tient compte de toutes.

Exemples très concrets

Où tu retrouves ça dans le monde réel

Tape pour explorer Replier

Tu montres la photo de ton chat et tu demandes : « il est de quelle couleur ? »

Tu lui fais écouter ta chanson préférée et elle écrit les paroles.

Tu lui montres ton coloriage et elle te dit ce qu'elle voit dessus.

Tu prends en photo un exercice de maths et tu demandes la correction.

Tu envoies une story et l'appli génère automatiquement les sous-titres.

Tu lui montres une capture d'écran d'un jeu et tu demandes comment passer le niveau.

Photographier un ticket de caisse ou un graphique et demander un résumé chiffré.

Transcrire un mémo vocal de réunion puis en extraire les actions à mener.

Soumettre une capture d'écran d'erreur et demander un diagnostic.

Points de vigilance

Ce qu'il ne faut pas confondre

Tape pour explorer Replier

Une photo floue, elle peut se tromper sur ce qu'il y a dessus.

Montrer une image, ça fait beaucoup de travail pour la machine.

Elle n'est pas la meilleure partout : parfois elle se trompe.

Une image ou un audio coûtent cher : ça remplit vite la fenêtre de contexte.

Une image floue, sombre ou ambiguë peut être mal interprétée.

Multimodal ne veut pas dire bon partout : ça se mesure format par format.

Une entrée riche (image, audio) coûte cher en tokens et sature vite le contexte.

Le modèle peut mal interpréter une image ambiguë ou de mauvaise qualité.

Multimodal ne signifie pas performant sur chaque modalité : cela se mesure.

Mythes vs réalité

Remplace les fausses idées par les bonnes

On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.

Ce qu'on imagine

On croit que la machine voit avec des yeux comme toi.

Ce qu'il faut garder

En vrai, non. Elle change la photo en nombres, elle n'a pas d'yeux.

Ce qu'on imagine

On croit qu'elle est super forte avec tout : mots, photos, sons.

Ce qu'il faut garder

En vrai, non. Elle peut être bonne avec les mots et se tromper sur une photo.

Ce qu'on imagine

« L'IA voit vraiment ton image comme toi. »

Ce qu'il faut garder

Non. Elle transforme l'image en nombres et calcule des correspondances apprises, elle ne perçoit pas comme un humain.

Ce qu'on imagine

« Si elle gère plusieurs formats, elle est parfaite partout. »

Ce qu'il faut garder

Faux. Elle peut être forte en texte et faible sur certaines images ou sons : chaque format se teste à part.

Ce qu'on imagine

« Joindre une photo, ça ne change rien. »

Ce qu'il faut garder

Faux. Une image se traduit en énormément de tokens : elle remplit la mémoire et fait grimper le coût.

Ce qu'on imagine

« Un modèle multimodal voit comme un humain. »

Ce qu'il faut garder

Non. Il transforme l'image en nombres et calcule des correspondances apprises ; il ne perçoit pas le monde comme toi.

Ce qu'on imagine

« Multimodal = bon partout. »

Ce qu'il faut garder

Faux. Il peut exceller en texte et faiblir sur certaines images ou sons : chaque modalité s'évalue séparément.

Ce qu'on imagine

« Joindre une image ne change rien au coût. »

Ce qu'il faut garder

Faux. Une image se traduit en de nombreux tokens : elle remplit la fenêtre de contexte et augmente le coût.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Tout en nombres

Mots, dessins, sons deviennent des nombres.

Elle compare

Avec des nombres, elle peut tout comparer.

Pareil que pour les mots

Seule la chose que tu montres change.

Une photo, c'est lourd

Une image, ça fait beaucoup, beaucoup de nombres.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Tout devient des nombres

Texte, image, son sont transformés en représentations comparables.

Un espace commun

Tout est rangé au même endroit, donc tout se compare.

Même logique

Le principe ne change pas, juste le type d'entrée.

Une image pèse lourd

Photo et audio = beaucoup de tokens, donc plus coûteux.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Tout devient des nombres

Texte, image, son → représentations numériques comparables.

Un espace commun

La projection partagée permet de relier un mot à une image.

Même principe

Le calcul ne change pas, seul l'encodage en amont diffère.

Riche = coûteux

Images et audios pèsent lourd en tokens, le coût grimpe.

🫏 L'IA du Zéro🧑 Ado

Ma carte mémo

Le multimodal : texte, image, son

À la fin, ce sont ces idées qui doivent rester

Tout devient des nombresTexte, image, son sont transformés en représentations comparables.
Un espace communTout est rangé au même endroit, donc tout se compare.
Même logiqueLe principe ne change pas, juste le type d'entrée.
Une image pèse lourdPhoto et audio = beaucoup de tokens, donc plus coûteux.

iaduzero.fr — Comprendre l'IA, de zéro à expert 🇫🇷

Questions fréquentes