Ce que le modèle garde sous les yeux Intermédiaire

La fenêtre de contexte

Comprendre ce qu'un modèle peut « garder en tête » pendant une conversation, et pourquoi cela a une limite.

🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA et le bureau qui déborde » — lire l'histoire →

10 min contextemémoirelimites

Je commence Je teste ma compréhension

Pas de jargon Compréhensible vite

Ta question, l'historique et les documents entrent dans la fenêtre.

Le modèle ne traite que ce qui tient dans cette limite (en tokens).

Au-delà, on tronque ou on résume — les éléments les plus anciens sortent.

1. Je découvre une version simple et imagée

2. Je comprends le vrai mécanisme sans jargon inutile

3. Je m'entraîne avec un mini quiz immédiat

4. Je retiens les points clés à réexpliquer

Le bureau de l'IA est petit

La fenêtre de contexte, c'est tout ce que l'IA « voit » en même temps : ta question, tout ce que vous vous êtes déjà dit, et les fichiers que tu lui colles.
Cette place se mesure en « tokens » (des morceaux de mots). Quand c'est plein, les plus vieux messages tombent du bureau et l'IA les oublie.
C'est pour ça qu'au bout d'une très longue conv, l'assistant perd le fil et oublie un truc dit tout en haut.
L'IA ne « se souvient » pas vraiment : à chaque réponse, elle relit juste ce qui tient sur le bureau, rien de plus.

Un exemple pour toi

Tu lances un perso de RPG avec un chatbot et tu lui donnes plein de détails sur son histoire. Après 200 messages, il oublie que ton perso déteste les dragons. Pas un bug : le début de la conv est sorti de sa fenêtre. Astuce : redonne-lui un mini-résumé des points importants.

Ne crois pas que l'IA « connaît » ta vie parce que tu lui as parlé hier : par défaut, elle n'a aucune mémoire entre deux discussions, elle ne voit que ce qui est dans la fenêtre du moment. Et si tu colles des infos perso pour « qu'elle s'en souvienne », ces infos partent quand même sur des serveurs : réfléchis à deux fois avant d'y mettre ton vrai nom, ton adresse ou tes secrets.

Imagine un bureau d'écolier : ce qui tient dessus, l'IA le voit ; ce qui tombe par terre n'existe plus pour elle.

Le déclic en mouvement

Regarde ce qui « tombe du bureau » quand la fenêtre est pleine

Le modèle ne voit que ce qui tient dans sa fenêtre. Réduis-la et regarde un message ancien sortir — l'IA en oublie le contenu (même ton nom).

Tout ce que je « vois » pour répondre tient dans ma fenêtre de contexte.

Fenêtre = ta question + l'historique + les documents

Elle se mesure en tokens et elle a une limite. Au-delà, on ne garde pas tout.

Taille de la fenêtre ?Petite : seuls les 3 derniers messages tiennent.

Étape 1 / 4

Sous le capot

Pour les curieux : ce qui se passe à l'intérieur

Tape pour explorer Replier

Petits bouts

Le bureau se compte en petits bouts de mots

L'IA découpe tout ce que tu écris en tout petits morceaux, comme des pièces de puzzle. Son bureau peut tenir un certain nombre de pièces, pas plus. Un très long texte, c'est plein de pièces d'un coup : ça remplit déjà presque tout le bureau !

Ça tombe

Quand le bureau est plein, des feuilles tombent

Si tu poses trop de feuilles sur le bureau, les plus vieilles tombent par terre. L'IA ne les voit plus, alors elle les oublie. C'est pour ça qu'elle a parfois l'air de ne plus se souvenir du début de votre discussion.

Trop, c'est trop

Un bureau trop chargé, c'est pas mieux

Tu pourrais croire que plus il y a de feuilles, mieux c'est. Mais non ! Avec trop de feuilles, l'IA met plus de temps, et la feuille importante se perd au milieu de toutes les autres. Comme chercher ton jouet préféré dans une chambre en bazar.

Tête de poisson

L'IA a une mémoire de poisson rouge

Toute seule, l'IA ne garde rien dans sa tête d'une fois à l'autre : elle oublie tout ! Pour qu'elle se souvienne de toi, on lui prépare un petit carnet et on lui relit au début. Le carnet, c'est l'appli qui le tient, pas l'IA.

Tokens

La fenêtre se mesure en tokens, pas en mots

Avant de lire, le modèle découpe ton texte en tokens (des morceaux de mots, un peu comme des syllabes). La limite de la fenêtre porte sur ce total de tokens. Coller un gros PDF peut à lui seul remplir toute la place dispo.

Troncature

Trop plein ? On coupe ou on résume

Tronquer = couper. Quand la conversation dépasse la limite, le système enlève souvent les messages les plus anciens, ou les remplace par un résumé court. D'où l'impression que l'IA « oublie » ce que vous aviez dit au début du chat.

Coût & dilution

Plus long ne veut pas dire meilleur

Chaque token envoyé se paie et ralentit la réponse. Et l'info clé peut se diluer (se noyer) au milieu d'un texte trop long : c'est le « lost in the middle », perdu au milieu. Comme une consigne importante noyée dans un message de 10 pages.

Mémoire

Aucune mémoire persistante par défaut

« Persistant » = qui reste entre deux sessions. Le modèle ne garde rien tout seul : entre deux messages, il ne « voit » que le contexte qu'on lui renvoie. La vraie mémoire (tes préférences, l'historique) est gérée par l'appli autour, qui te re-sert ces infos au bon moment.

Tokens

La fenêtre se compte en tokens, pas en mots

Tout ce qu'on envoie (prompt, historique, documents) est tokenisé. La limite porte sur ce total : un long document peut à lui seul remplir la fenêtre.

Troncature

Au-delà de la limite, on coupe ou on résume

Quand ça dépasse, on retire souvent les messages les plus anciens, ou on les remplace par un résumé. D'où la sensation que l'assistant « oublie ».

Coût & dilution

Plus long n'est pas toujours mieux

Un grand contexte coûte plus cher (on paie au token) et peut diluer l'information clé au milieu d'un texte trop long.

Mémoire

Pas de mémoire persistante par défaut

Entre deux messages, le modèle ne garde rien tout seul : ce qu'il « retient » est le contexte qu'on lui renvoie. La vraie mémoire est gérée par le produit autour.

L'image mentale

L'analogie qui aide à retenir

C'est comme un petit bureau : ce qui tient dessus, la machine le voit ; ce qui tombe par terre, elle l'oublie.

La fenêtre de contexte, c'est le bureau du modèle : ce qui tient dessus, il le voit ; ce qui tombe, il l'oublie.

La fenêtre de contexte, c'est le bureau du modèle : ce qui tient dessus, il le voit ; ce qui tombe par terre, il l'oublie.

À retenir

Le coeur de l'idée

La machine ne voit que ce qui tient sur son petit bureau. Le reste, elle l'oublie.

La fenêtre de contexte, c'est tout ce que le modèle voit d'un coup : limité, compté en tokens, sans mémoire qui reste.

La fenêtre de contexte, c'est ce que le modèle peut regarder en même temps : limité, mesuré en tokens, et sans mémoire persistante par défaut.

Comment ça marche

Le mécanisme, découpé étape par étape

La machine pose toutes tes phrases sur un petit bureau.

Tout ce qui tient sur le bureau, elle le voit et s'en sert.

Quand il y a trop de feuilles, les plus vieilles tombent par terre.

Ce qui est tombé, elle ne le voit plus : c'est oublié.

Ta question, l'historique du chat et les documents collés entrent tous dans la fenêtre.

Le modèle ne peut traiter que ce qui tient dans cette limite, mesurée en tokens (des morceaux de mots).

Quand ça déborde, les plus anciens messages sortent ou sont résumés.

À chaque réponse, le modèle relit seulement ce qui est dans la fenêtre, rien d'autre.

Ta question, l'historique de la conversation et les documents fournis entrent tous dans la fenêtre de contexte.

Le modèle ne traite que ce qui tient dans cette limite, exprimée en tokens (le prompt système, l'historique, les documents et la réponse en cours comptent).

Au-delà de la limite, on tronque (souvent les éléments les plus anciens) ou on les résume.

À chaque appel, le modèle relit uniquement le contenu de la fenêtre, et rien d'autre.

Exemples très concrets

Où tu retrouves ça dans le monde réel

Tape pour explorer Replier

Tu racontes une très longue histoire : la machine oublie le début.

Tu lui donnes un livre entier d'un coup : il y a trop de feuilles, ça déborde.

Tu lui dis ton dessin préféré tout au début, mais après plein de bavardages, elle l'a oublié.

Après une très longue conversation, l'IA oublie ta première question.

Tu colles un cours de 40 pages d'un coup : ça dépasse, il faut le découper.

Pour ne pas tout perdre, on résume le début du chat afin de tenir dans la fenêtre.

Sur une longue conversation, l'assistant perd le fil des consignes données au début.

Coller un rapport entier dépasse la limite : il faut le découper ou n'injecter que les passages utiles.

On remplace l'historique par un résumé pour rester dans la fenêtre sans tout perdre.

Points de vigilance

Ce qu'il ne faut pas confondre

Tape pour explorer Replier

Si tu parles trop longtemps, elle oublie le début.

Quand il y a trop de feuilles, elle peut se tromper.

Elle ne garde rien toute seule : il faut lui redire.

Un long contexte coûte plus cher et ralentit la réponse.

L'info vraiment utile peut se perdre au milieu d'un texte trop long.

Sans outil dédié, le modèle n'a pas de mémoire d'un message à l'autre.

Plus de contexte coûte plus cher (on paie au token) et ralentit la réponse.

L'information utile peut se perdre au milieu d'un contexte trop long.

Le modèle n'a pas de mémoire entre deux requêtes par défaut : la vraie mémoire est gérée par le produit autour.

Mythes vs réalité

Remplace les fausses idées par les bonnes

On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.

Ce qu'on imagine

On croit que la machine se rappelle de tout ce qu'on lui a dit.

Ce qu'il faut garder

En vrai non : si c'est tombé du bureau, elle ne le voit plus.

Ce qu'on imagine

On croit que plus on lui parle, mieux c'est.

Ce qu'il faut garder

En vrai, si on lui dit trop de choses, elle se mélange les pinceaux.

Ce qu'on imagine

On croit que sa tête se remplit petit à petit comme la nôtre.

Ce qu'il faut garder

En vrai non : il faut tout lui redire à chaque fois.

Ce qu'on imagine

« L'IA se souvient de tout notre chat. »

Ce qu'il faut garder

Pas vraiment : elle ne voit que ce qui tient dans sa fenêtre. Au-delà, les vieux messages sortent et sont oubliés.

Ce qu'on imagine

« Plus je donne de texte, meilleure est la réponse. »

Ce qu'il faut garder

Pas toujours : un contexte trop long coûte plus cher, ralentit, et noie l'info importante.

Ce qu'on imagine

« La mémoire de l'IA grandit avec le temps. »

Ce qu'il faut garder

Non : par défaut elle n'a pas de mémoire persistante, on lui redonne le contexte à chaque appel.

Ce qu'on imagine

« L'IA se souvient de toute notre conversation. »

Ce qu'il faut garder

Pas vraiment : elle ne voit que ce qui tient dans sa fenêtre de contexte ; au-delà, les éléments anciens sortent et sont oubliés.

Ce qu'on imagine

« Plus le contexte est long, meilleure est la réponse. »

Ce qu'il faut garder

Pas toujours : un contexte trop long coûte plus cher, ralentit, et peut diluer l'information utile.

Ce qu'on imagine

« Le modèle a une mémoire qui grandit avec le temps. »

Ce qu'il faut garder

Non : par défaut il n'a pas de mémoire persistante, on lui renvoie le contexte à chaque appel.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Un petit bureau

Elle voit juste ce qui tient dessus.

Ça tombe, c'est oublié

Trop de feuilles, les vieilles tombent.

Trop long, c'est pas mieux

Quand il y a trop, elle se mélange.

Elle ne retient pas toute seule

Il faut tout lui redire à chaque fois.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Une limite en tokens

La fenêtre = ce que le modèle voit en même temps.

Ce qui sort est oublié

Trop long → les vieux messages tombent.

Long ≠ mieux

Plus cher, plus lent, l'info utile se dilue.

Pas de mémoire native

On lui renvoie le contexte à chaque message.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Une limite en tokens

La fenêtre = ce que le modèle traite d'un seul coup.

Ce qui sort est oublié

Au-delà, on tronque les éléments les plus anciens.

Long ≠ mieux

Plus cher, plus lent, info clé diluée au milieu.

Pas de mémoire native

On renvoie le contexte à chaque requête.

🫏 L'IA du Zéro🧑 Ado

Ma carte mémo

La fenêtre de contexte

À la fin, ce sont ces idées qui doivent rester

Une limite en tokensLa fenêtre = ce que le modèle voit en même temps.
Ce qui sort est oubliéTrop long → les vieux messages tombent.
Long ≠ mieuxPlus cher, plus lent, l'info utile se dilue.
Pas de mémoire nativeOn lui renvoie le contexte à chaque message.

iaduzero.fr — Comprendre l'IA, de zéro à expert 🇫🇷

Questions fréquentes

Les questions qu'on se pose souvent

Des réponses courtes et claires, sans jargon, pour lever les doutes.

C'est quoi la fenêtre de contexte ?

La quantité de texte (en tokens) qu'un modèle peut regarder en même temps : ta question, l'historique et les documents fournis.

Pourquoi l'assistant « oublie » parfois ?

Parce que la conversation a dépassé la fenêtre : les messages les plus anciens en sont sortis et il ne les voit plus.

Un grand contexte est-il toujours mieux ?

Non. Il coûte plus cher, ralentit la réponse, et l'info utile peut se perdre dans un texte trop long.

Le modèle a-t-il une mémoire ?

Pas par défaut. Ce qu'il « retient » entre deux messages, c'est le contexte qu'on lui renvoie ; la vraie mémoire est gérée par le produit.

Continuer le parcours

La suite, pensée comme une montée en compréhension

On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.

Voir la fiche

Tokens et grands modèles de langage

Parce que la fenêtre se compte en tokens.

Suite 1

Voir la fiche

RAG expliqué simplement

Pour n'injecter dans la fenêtre que les passages utiles.

Suite 2

Voir la fiche

Latence, coût et cache

Parce qu'un long contexte pèse sur la vitesse et la facture (Niveau 3).

Suite 3