Chaque modalité (texte, image, son) est encodée séparément.
Le multimodal : texte, image, son
Comprendre comment un modèle peut comprendre et mélanger du texte, des images et du son.
🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA et le chien-muffin » — lire l'histoire →
On obtient des représentations numériques comparables.
Le modèle les place dans un espace commun et les combine.
Texte, image, son : tout devient des chiffres
- Quand tu envoies une photo à une IA et que tu lui demandes « c'est quoi cette plante ? », elle découpe l'image en petits carrés et les transforme en chiffres.
- Le texte, l'image et le son sont traduits dans la même « langue de chiffres » : c'est ça qui lui permet de mélanger tes questions et ta photo.
- Le principe ne change pas par rapport au texte seul : seule la matière d'entrée change, le moteur reste le même.
- Une image ou un audio pèsent lourd : ils se traduisent en plein de morceaux à traiter, donc ça coûte plus cher et ça remplit vite la mémoire de l'IA.
Tu prends en photo un exercice de maths et tu écris « explique-moi l'étape 2 ». L'IA lit l'image ET ton message en même temps, parce que les deux sont devenus des chiffres comparables. Pareil quand tu balances un mémo vocal : elle le transcrit puis le résume.
Attention : une IA multimodale ne « voit » pas comme toi, elle calcule des ressemblances apprises. Sur une photo floue, un graphique mal cadré ou un meme à second degré, elle peut se planter complètement et l'affirmer avec assurance. Avant de recopier sa réponse sur une image (un schéma de cours, un ticket, une capture), vérifie toi-même : elle décrit ce qu'elle croit reconnaître, pas forcément ce qui est vraiment là.
Image mentale : un traducteur universel qui met les mots, les images et les sons dans une seule et même langue, celle des chiffres.
Regarde texte, image et son devenir des nombres comparables
Trois entrées différentes → tout en nombres → un espace commun → une réponse qui les combine. Même principe que pour le texte.
Trois matières différentes… mais le modèle va les traiter de la même façon.
Sous le capot Pour les curieux : ce qui se passe à l'intérieur
Tape pour explorer Replier
Chaque chose a son petit traducteur
Les mots, les images et les sons ne se ressemblent pas. Alors le modèle a un petit traducteur pour chacun. Un traducteur pour les mots, un qui découpe l'image en petits carrés comme un puzzle, et un qui coupe le son en petits bouts. Chaque traducteur transforme sa chose en nombres.
Tout le monde parle la même langue
Une fois traduits, les mots, les images et les sons parlent tous la même langue : celle des nombres. C'est comme une cour de récré où tous les enfants parlent pareil : du coup le mot « chat » et la photo d'un chat peuvent se faire un câlin parce qu'ils se ressemblent en nombres.
Il mélange tout pour répondre
Comme quand tu mélanges des couleurs pour faire une nouvelle couleur, le modèle mélange ta question « qu'est-ce que tu vois ? » avec la photo. En mélangeant les deux, il trouve la réponse et te raconte ce qu'il y a sur l'image.
Une image, c'est super lourd à porter
Une image ou un son, ça fait ÉNORME de nombres, beaucoup plus qu'une petite phrase. C'est comme remplir ton cartable : avec plein d'images il devient lourd et trop plein très vite. Alors on ne lui montre que les photos vraiment utiles.
Un encodeur dédié par type d'entrée
Chaque type d'entrée a son propre traducteur, appelé encodeur. Le texte passe par un tokenizer (qui le découpe en morceaux), l'image par un encodeur visuel qui la découpe en patchs (petits carrés de pixels), et l'audio par un encodeur qui le tranche dans le temps. Chacun sort des nombres : des vecteurs.
Tout se range dans le même espace
Les vecteurs des différentes modalités sont projetés dans un espace commun, un peu comme placer des points sur une même carte. Dans cet espace, le mot « voiture » et une photo de voiture tombent au même endroit. C'est ça qui permet de relier un texte à une image, comme une recherche d'image par mots-clés.
Le modèle raisonne sur plusieurs entrées
Une fois tout comparable, le modèle fusionne les infos. Ta question texte « que vois-tu ? » et l'image se combinent dans le même calcul, exactement comme quand tu envoies un meme avec une légende : le sens vient du texte ET de l'image ensemble, pas de l'un sans l'autre.
Images et sons = beaucoup de tokens
Une image ou un audio se traduit en énormément de tokens (les unités que le modèle compte). La fenêtre de contexte, c'est sa mémoire de travail limitée : une seule photo peut la remplir comme une vidéo 4K remplit ta galerie. Plus tu envoies de tokens, plus c'est lent et cher, donc on n'envoie que l'utile.
Chaque modalité a son encodeur
Le texte passe par un tokenizer, l'image par un encodeur visuel (patchs), l'audio par un encodeur de signal. Chacun produit des représentations numériques.
Tout se compare dans le même espace
Les représentations des différentes modalités sont projetées dans un espace partagé. C'est ce qui permet de relier un mot à une image, ou un son à un texte.
Le modèle raisonne sur plusieurs entrées
Une fois tout comparable, le modèle peut fusionner les informations : la question texte « que vois-tu ? » et l'image se combinent pour produire une réponse.
Images et sons = beaucoup de tokens
Une image ou un audio se traduisent en de nombreux tokens. La fenêtre de contexte se remplit vite et le coût grimpe : on n'envoie que ce qui est utile.
L'analogie qui aide à retenir
C'est une machine qui change tes mots, tes images et tes sons dans la même langue : la langue des nombres.
C'est comme un traducteur universel : il met tes messages, tes photos et tes audios dans une seule langue, celle des nombres.
C'est un traducteur qui met les mots, les images et les sons dans une même langue : celle des nombres comparables.
Le coeur de l'idée
Mots, photos, sons : la machine change tout en nombres, alors elle peut les mélanger.
Le multimodal, c'est le même principe que pour le texte : tout devient des nombres comparables, alors on peut mélanger les entrées.
Le multimodal, c'est le même principe que le texte : tout est transformé en nombres comparables dans un espace commun, pour pouvoir mélanger les entrées.
Le mécanisme, découpé étape par étape
La machine change tes mots, tes photos et tes sons en nombres.
Comme tout devient des nombres, elle peut les comparer.
Tu lui montres un dessin ET tu poses une question dessus.
Elle mélange tout et te répond.
La machine transforme chaque entrée séparément : le texte, l'image, le son.
Le texte devient des morceaux (tokens), l'image des petits carrés, le son des tranches.
Tout est converti en nombres rangés dans le même « espace ».
Comme c'est comparable, elle peut raisonner sur tout en même temps.
Chaque modalité (texte, image, son) passe par son propre encodeur.
Texte → tokens, image → patchs, audio → tranches, puis tout devient des vecteurs.
Ces représentations sont projetées dans un espace commun où elles deviennent comparables.
Le modèle fusionne ces entrées pour produire une réponse qui tient compte de toutes.
Exemples très concrets Où tu retrouves ça dans le monde réel
Tape pour explorer Replier
Tu montres la photo de ton chat et tu demandes : « il est de quelle couleur ? »
Tu lui fais écouter ta chanson préférée et elle écrit les paroles.
Tu lui montres ton coloriage et elle te dit ce qu'elle voit dessus.
Tu prends en photo un exercice de maths et tu demandes la correction.
Tu envoies une story et l'appli génère automatiquement les sous-titres.
Tu lui montres une capture d'écran d'un jeu et tu demandes comment passer le niveau.
Photographier un ticket de caisse ou un graphique et demander un résumé chiffré.
Transcrire un mémo vocal de réunion puis en extraire les actions à mener.
Soumettre une capture d'écran d'erreur et demander un diagnostic.
Points de vigilance Ce qu'il ne faut pas confondre
Tape pour explorer Replier
Une photo floue, elle peut se tromper sur ce qu'il y a dessus.
Montrer une image, ça fait beaucoup de travail pour la machine.
Elle n'est pas la meilleure partout : parfois elle se trompe.
Une image ou un audio coûtent cher : ça remplit vite la fenêtre de contexte.
Une image floue, sombre ou ambiguë peut être mal interprétée.
Multimodal ne veut pas dire bon partout : ça se mesure format par format.
Une entrée riche (image, audio) coûte cher en tokens et sature vite le contexte.
Le modèle peut mal interpréter une image ambiguë ou de mauvaise qualité.
Multimodal ne signifie pas performant sur chaque modalité : cela se mesure.
Remplace les fausses idées par les bonnes
On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.
On croit que la machine voit avec des yeux comme toi.
En vrai, non. Elle change la photo en nombres, elle n'a pas d'yeux.
On croit qu'elle est super forte avec tout : mots, photos, sons.
En vrai, non. Elle peut être bonne avec les mots et se tromper sur une photo.
« L'IA voit vraiment ton image comme toi. »
Non. Elle transforme l'image en nombres et calcule des correspondances apprises, elle ne perçoit pas comme un humain.
« Si elle gère plusieurs formats, elle est parfaite partout. »
Faux. Elle peut être forte en texte et faible sur certaines images ou sons : chaque format se teste à part.
« Joindre une photo, ça ne change rien. »
Faux. Une image se traduit en énormément de tokens : elle remplit la mémoire et fait grimper le coût.
« Un modèle multimodal voit comme un humain. »
Non. Il transforme l'image en nombres et calcule des correspondances apprises ; il ne perçoit pas le monde comme toi.
« Multimodal = bon partout. »
Faux. Il peut exceller en texte et faiblir sur certaines images ou sons : chaque modalité s'évalue séparément.
« Joindre une image ne change rien au coût. »
Faux. Une image se traduit en de nombreux tokens : elle remplit la fenêtre de contexte et augmente le coût.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Mots, dessins, sons deviennent des nombres.
Avec des nombres, elle peut tout comparer.
Seule la chose que tu montres change.
Une image, ça fait beaucoup, beaucoup de nombres.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Texte, image, son sont transformés en représentations comparables.
Tout est rangé au même endroit, donc tout se compare.
Le principe ne change pas, juste le type d'entrée.
Photo et audio = beaucoup de tokens, donc plus coûteux.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Texte, image, son → représentations numériques comparables.
La projection partagée permet de relier un mot à une image.
Le calcul ne change pas, seul l'encodage en amont diffère.
Images et audios pèsent lourd en tokens, le coût grimpe.
Les questions qu'on se pose souvent
Des réponses courtes et claires, sans jargon, pour lever les doutes.
C'est quoi un modèle multimodal ?
Un modèle qui peut prendre plusieurs types d'entrées (texte, image, son) en les transformant toutes en nombres comparables.
Comment comprend-il une image ?
Il découpe l'image en petits carrés (patchs), les convertit en nombres, puis les compare à ce qu'il a appris — comme pour le texte.
Le multimodal voit-il vraiment ?
Non. Il calcule des correspondances apprises sur des représentations numériques ; il ne perçoit pas le monde comme un humain.
Pourquoi une image coûte-t-elle cher ?
Parce qu'elle se traduit en de nombreux tokens : elle remplit vite la fenêtre de contexte et augmente le coût.
La suite, pensée comme une montée en compréhension
On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.