De la neige télé à un tableau Débutant

Comment l'IA crée des images

Comprendre comment une IA fabrique une image à partir de pur bruit, guidée par votre texte, en débruitant pas à pas.

🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA peintre du dimanche » — lire l'histoire →

11 min imagediffusiongénération

Je commence Je teste ma compréhension

Pas de jargon Compréhensible vite

On part d'une image de pur bruit aléatoire (la « neige » d'une télé sans signal).

Le texte du prompt est transformé en nombres pour guider le modèle.

Le modèle retire un peu de bruit à chaque étape, des dizaines de fois.

1. Je découvre une version simple et imagée

2. Je comprends le vrai mécanisme sans jargon inutile

3. Je m'entraîne avec un mini quiz immédiat

4. Je retiens les points clés à réexpliquer

Du bruit vers l'image, guidé par le texte

On part d'une image de bruit aléatoire (comme la neige d'une vieille télé).
Le modèle retire un peu de bruit à chaque étape, des dizaines de fois.
Le texte du prompt guide chaque étape vers ce que tu as demandé.

Ce qu'il faut retenir : créer une image, ce n'est pas la dessiner d'un coup, c'est la débruiter.

Sous le capot

Pour les curieux : ce qui se passe à l'intérieur

Tape pour explorer Replier

La neige

On commence par le grésillement de la télé

Tu sais, quand une vieille télé n'a pas d'image et qu'il y a plein de petits points qui grésillent ? La machine commence l'image comme ça : que de la neige, aucun dessin dedans. C'est son point de départ, à chaque fois.

Le nettoyage

Elle nettoie petit à petit, pas d'un coup

Au lieu de dessiner d'un seul trait comme toi avec ton crayon, la machine enlève la neige tout doucement. Un petit peu, puis encore un petit peu, plein de fois. C'est comme essuyer une vitre embuée : plus tu essuies, plus le dessin derrière devient net.

Tes mots

Tes mots lui disent quoi faire apparaître

Pendant qu'elle nettoie la neige, la machine écoute tes mots. Si tu dis « une licorne sur un arc-en-ciel », elle nettoie de façon à faire apparaître une licorne et un arc-en-ciel. Tes mots, c'est un peu sa commande : sans eux, elle ne saurait pas quoi dessiner.

Jamais pareil

Pourquoi le dessin change à chaque fois

La neige du début n'est jamais exactement la même : c'est du hasard, comme quand tu secoues une boule à neige. Alors même si tu redemandes la même chose, le dessin qui apparaît est un peu différent. Et l'âne IA en profite pour dire : « Hi-han, c'est pour ça que je ne me répète jamais ! »

Apprendre à l'envers

On apprend à détruire pour savoir reconstruire

L'idée est maligne : pendant l'entraînement, on prend de vraies images et on y ajoute du bruit par paliers, jusqu'à ce qu'il ne reste que de la neige. Le modèle apprend à deviner le bruit ajouté à chaque palier. Ensuite, on l'utilise à l'envers : on part de neige pure et on retire le bruit qu'il prédit, étape par étape, jusqu'à voir une image apparaître.

Le texte qui guide

Le prompt oriente chaque coup de gomme

Ton prompt est d'abord transformé en nombres par un encodeur de texte (souvent CLIP). Ces nombres sont injectés à chaque étape de nettoyage : c'est ce qu'on appelle le conditionnement. C'est lui qui fait que « château la nuit » ne donne pas « plage au soleil ». On peut même régler la « force » du guidage pour coller plus ou moins au prompt.

Espace latent

On débruite une miniature, pas l'image entière

Nettoyer directement des millions de pixels serait super lent. Alors les modèles compressent l'image en une sorte de miniature en nombres (l'espace latent), bien plus petite. Tout le débruitage se fait sur cette miniature, puis un décodeur l'agrandit en image pleine résolution à la toute fin. C'est l'astuce qui rend la génération rapide sur ton téléphone ou ton navigateur.

Pourquoi ça rate

Mains, texte et comptage : les points faibles

Le modèle ne « comprend » pas une main ni un mot : il reproduit des régularités vues sur des millions d'images. Du coup, il met parfois six doigts, écrit des slogans illisibles ou se trompe en comptant. Réflexe malin : une image générée n'est pas une preuve. Avant de croire qu'une photo est vraie, zoome sur les mains, le texte et les détails bizarres : c'est souvent là que ça se trahit.

Bruit

On apprend d'abord à détruire, pour savoir reconstruire

Pendant l'entraînement, on prend de vraies images et on y ajoute du bruit par paliers, jusqu'à ne plus rien voir. Le modèle apprend à prédire le bruit ajouté à chaque palier. Une fois ce savoir acquis, on l'utilise à l'envers : on part de bruit pur et on retire le bruit prédit, étape après étape, pour faire émerger une image.

Conditionnement

Le texte guide chaque coup de gomme

Le prompt est encodé en vecteurs (via un encodeur de texte comme CLIP ou T5) puis injecté à chaque étape de débruitage par attention croisée. C'est ce conditionnement qui fait que « château la nuit » ne donne pas « plage au soleil ». Une astuce courante (le guidage, ou guidance scale) accentue l'influence du prompt pour coller davantage à la demande.

Espace latent

On débruite une miniature, pas l'image entière

Débruiter directement des millions de pixels serait très lent. Les modèles latents compressent l'image (souvent 8x plus petite par côté, soit ~64 fois moins de données) grâce à un encodeur. Tout le débruitage se fait sur cette miniature de nombres, puis un décodeur (VAE) la rouvre en image pleine résolution à la toute fin.

Hasard

Pourquoi deux images diffèrent : la seed

Le point de départ est un tirage de bruit aléatoire, identifié par une « seed » (un numéro). Changez la seed, et le brouillard de départ change : l'image finale aussi. Fixez la même seed et le même prompt, vous reproduisez exactement la même image. Le hasard n'est donc pas magique, il est juste dans le bruit initial.

L'image mentale

L'analogie qui aide à retenir

C'est comme une vitre toute embuée que tu essuies petit à petit : un dessin apparaît dessous.

C'est comme un sculpteur qui part d'un bloc de brouillard au lieu d'argile : il enlève le brouillard jusqu'à voir la statue que tu as décrite.

C'est un sculpteur qui ne part pas d'argile mais d'un bloc de brouillard : il retire le brouillard jusqu'à révéler la statue décrite par le prompt.

À retenir

Le coeur de l'idée

Pour faire une image, la machine part du grésillement de la télé et le nettoie petit à petit, en écoutant tes mots.

Créer une image, ce n'est pas la dessiner d'un coup : on part de bruit pur et on le nettoie pas à pas, guidé par le texte.

La génération d'images par diffusion part de bruit pur et le débruite pas à pas, conditionnée par le texte, dans un espace latent pour la vitesse.

Comment ça marche

Le mécanisme, découpé étape par étape

L'image commence comme une vieille télé qui grésille : que de la neige.

La machine nettoie cette neige tout doucement, un petit peu à la fois.

Pendant qu'elle nettoie, elle écoute tes mots pour savoir quoi dessiner.

À la fin, le dessin que tu as demandé apparaît dans la neige.

L'image démarre en bruit aléatoire : un écran de neige, sans rien dedans.

Le modèle retire un peu de bruit à chaque étape, des dizaines de fois de suite.

Ton prompt est transformé en nombres et guide chaque étape vers ce que tu veux.

Au bout des étapes, une vraie image émerge du brouillard.

On part d'un tirage de bruit aléatoire pur, sans contenu.

Le réseau prédit puis retire le bruit, étape après étape (20 à 50 passes typiques).

Le prompt est encodé (CLIP / T5) et injecté à chaque étape par attention croisée : c'est le conditionnement.

Tout se fait dans un espace latent compressé, décodé en pixels (VAE) seulement à la fin.

Exemples très concrets

Où tu retrouves ça dans le monde réel

Tape pour explorer Replier

Tu dis « un chat astronaute » et elle fait apparaître un chat dans l'espace.

Tu redemandes la même chose et le dessin n'est pas tout à fait pareil.

Tu demandes un dragon qui tient une pancarte… et les lettres sont toutes bizarres.

Tu tapes « avatar cyberpunk pour mon profil » et tu obtiens l'image en quelques secondes.

Tu relances le même prompt et l'image change : c'est le bruit de départ qui diffère.

Tu demandes un poster avec le titre de ton groupe… et le texte sort écrit n'importe comment.

Générer une planche de concept-art avec Midjourney v6, FLUX ou DALL·E 3 en quelques secondes.

Fixer la même seed et le même prompt pour reproduire à l'identique une image validée.

Demander une maquette avec un slogan précis et constater que le texte intégré reste peu fiable.

Points de vigilance

Ce qu'il ne faut pas confondre

Tape pour explorer Replier

Elle se trompe souvent sur les mains : trop de doigts ou pas assez.

Quand tu demandes des lettres sur une pancarte, elles sortent toutes tordues.

Si tu demandes « 5 chiens » pile, elle peut en mettre 4 ou 6.

Les mains et les doigts restent ratés très souvent : c'est sa faiblesse historique.

Le texte dans l'image (logos, slogans) sort déformé ou inventé.

Compter pile (« exactement 3 personnages ») et bien placer les objets reste peu fiable.

Réflexe malin : une image générée n'est pas une preuve. Cherche les détails ratés avant de croire qu'une photo est vraie.

Mains, doigts et anatomie fine restent souvent incorrects, malgré les progrès 2026.

Le texte intégré (panneaux, logos) est fréquemment déformé ou inventé.

Comptage exact et agencement spatial précis demeurent peu fiables.

La cohérence d'un personnage récurrent d'une image à l'autre est difficile sans techniques dédiées.

Mythes vs réalité

Remplace les fausses idées par les bonnes

On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.

Ce qu'on imagine

On croit que la machine dessine d'un seul coup, comme toi avec un crayon.

Ce qu'il faut garder

En vrai, non. Elle nettoie de la neige petit à petit, plein de fois, jusqu'à voir le dessin.

Ce qu'on imagine

On croit qu'elle découpe des bouts de vraies photos pour les coller.

Ce qu'il faut garder

En vrai, non. Elle invente le dessin en nettoyant la neige, elle ne colle pas de morceaux.

Ce qu'on imagine

« L'IA peint l'image d'un seul coup, comme un vrai artiste. »

Ce qu'il faut garder

Non. Elle part de bruit et le retire en dizaines d'étapes. C'est un nettoyage progressif, pas un coup de pinceau.

Ce qu'on imagine

« Elle colle des bouts de vraies photos trouvées sur le net. »

Ce qu'il faut garder

Faux. Elle génère les pixels en débruitant du hasard, selon ce qu'elle a appris sur des millions d'images.

Ce qu'on imagine

« Si je relance, c'est forcément que j'ai changé un mot. »

Ce qu'il faut garder

Faux. Même prompt, image différente : c'est la seed (le bruit de départ) qui change. Fixe-la, l'image redevient identique.

Ce qu'on imagine

« Le modèle peint l'image en une passe, comme un artiste. »

Ce qu'il faut garder

Non. C'est un débruitage itératif sur des dizaines d'étapes, pas un rendu unique.

Ce qu'on imagine

« Il assemble des morceaux d'images d'entraînement. »

Ce qu'il faut garder

Faux. Il génère des pixels en débruitant du bruit, selon des régularités apprises ; il ne colle pas de fragments.

Ce qu'on imagine

« Les ratés sur les mains sont juste un mauvais réglage. »

Ce qu'il faut garder

Non. Mains, texte intégré et comptage sont des limites structurelles : le modèle ne raisonne pas sur l'anatomie ni l'orthographe.

Ce qu'on imagine

« Deux images différentes impliquent deux prompts différents. »

Ce qu'il faut garder

Faux. Même prompt, images distinctes : c'est la seed du bruit initial. La figer rend la génération déterministe.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

On part de la neige

L'image commence comme une télé qui grésille.

On nettoie doucement

Petit à petit, pas d'un seul coup.

Tes mots commandent

Ils disent quoi faire apparaître.

Jamais pareil

Deux essais ne donnent pas le même dessin.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Départ en bruit

L'image commence en neige aléatoire, pas en feuille blanche.

Débruitage répété

On retire un peu de bruit à chaque étape, des dizaines de fois.

Le texte guide

Le prompt encodé oriente chaque étape (conditionnement).

Le hasard = la seed

Le bruit de départ explique pourquoi deux images diffèrent.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Bruit → image

On part de bruit aléatoire, pas d'une toile vierge.

Débruitage itératif

20 à 50 étapes prédisent et retirent le bruit.

Conditionnement texte

Le prompt encodé oriente chaque étape (cross-attention).

Latent + seed

On débruite une version compressée ; la seed fixe le hasard du départ.

🫏 L'IA du Zéro🧑 Ado

Ma carte mémo

Comment l'IA crée des images

À la fin, ce sont ces idées qui doivent rester

Départ en bruitL'image commence en neige aléatoire, pas en feuille blanche.
Débruitage répétéOn retire un peu de bruit à chaque étape, des dizaines de fois.
Le texte guideLe prompt encodé oriente chaque étape (conditionnement).
Le hasard = la seedLe bruit de départ explique pourquoi deux images diffèrent.

iaduzero.fr — Comprendre l'IA, de zéro à expert 🇫🇷

Questions fréquentes

Les questions qu'on se pose souvent

Des réponses courtes et claires, sans jargon, pour lever les doutes.

Comment une IA crée-t-elle une image, simplement ?

Elle part d'une image de pur bruit (comme la neige d'une télé) et enlève ce bruit étape par étape, en suivant les mots de ton prompt, jusqu'à faire apparaître l'image demandée.

Pourquoi le même prompt donne-t-il deux images différentes ?

Parce que le point de départ est un bruit aléatoire (la « seed »). Change le bruit, change l'image. Avec la même seed et le même prompt, on retombe sur la même image.

Pourquoi l'IA rate-t-elle souvent les mains et le texte ?

Parce qu'elle reproduit des régularités statistiques, elle ne raisonne pas sur l'anatomie ni sur l'orthographe. Doigts, slogans et comptage restent des points faibles, même en 2026.

C'est quoi l'« espace latent » ?

Une version compressée de l'image (une miniature en nombres). Le modèle débruite sur cette miniature pour aller plus vite, puis un décodeur la rouvre en image pleine résolution à la fin.

Est-ce que comprendre une image, c'est pareil que la créer ?

Non. Comprendre une image (décrire une photo, lire un graphique) relève du multimodal. Créer une image, c'est la diffusion : partir de bruit et le débruiter. Deux mécanismes différents.

Continuer le parcours

La suite, pensée comme une montée en compréhension

On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.

Voir la fiche

Le multimodal : texte, image, son

Pour distinguer COMPRENDRE une image (multimodal) de la CRÉER (cette fiche).

Suite 1

Voir la fiche

Pourquoi l'IA se trompe

Pour comprendre pourquoi les mains, le texte et le comptage restent des faiblesses.

Suite 2

Voir la fiche

Écrire ses prompts

Parce que c'est le texte qui guide chaque étape de la génération d'image.

Suite 3