Le texte est découpé en tokens.
Tokens et grands modèles de langage
Comprendre qu'un LLM ne lit pas des phrases comme nous : il manipule des fragments appelés tokens.
🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « Le tracteur à combien de R ? » — lire l'histoire →
Chaque token reçoit une représentation numérique.
Le modèle lit le contexte puis prédit le token suivant.
Le texte découpé en petits bouts
- Quand tu écris un message à une IA, elle ne lit pas tes phrases d'un bloc : elle les coupe en petits morceaux appelés « tokens » (un mot, un bout de mot, un emoji, un signe).
- Chaque token devient une suite de chiffres, parce que la machine calcule avec des nombres, pas avec des lettres.
- Pour répondre, elle regarde tout ce qui est déjà écrit, puis choisit le prochain token le plus logique. Elle recommence morceau après morceau : c'est pour ça que la réponse s'affiche au fur et à mesure.
- Plus ta conversation est longue, plus il y a de tokens à relire à chaque étape, donc plus ça coûte de calcul (et d'argent).
Tu demandes à un chatbot de t'écrire une bio Insta stylée. Il ne « comprend » pas ta personnalité : il enchaîne les tokens qui vont souvent bien ensemble dans ce style. Pareil quand l'autocomplétion de ton clavier devine le mot suivant, mais en beaucoup plus puissant.
Un texte super fluide n'est pas forcément vrai. L'IA est faite pour enchaîner des tokens qui « sonnent » bien, pas pour dire la vérité. Avant de recopier une réponse dans un devoir ou de la partager, vérifie l'info ailleurs : elle peut inventer une date, une citation ou une source avec un aplomb total.
Un détail qui surprend : un emoji ou un mot rare peut être coupé en plusieurs tokens, alors qu'un mot courant tient en un seul.
Regarde une phrase se découper en tokens, puis se générer
Un LLM ne lit pas des mots : il manipule des tokens. Suis le découpage (parfois en bouts de mots), puis la génération token par token.
Lesoleilse?
On va deviner la suite, token après token.
Sous le capot Pour les curieux : ce qui se passe à l'intérieur
Tape pour explorer Replier
Un petit bout, ce n'est pas toujours un mot entier
Imagine que tu casses un mot comme tu casses une tablette de chocolat. Parfois un mot tient en un seul carré. Mais un mot rare, un emoji ou une date, c'est comme un gros morceau : il faut le casser en plusieurs petits bouts. Le modèle, lui, joue tout le temps avec ces petits bouts.
Chaque petit bout devient un code en chiffres
Le modèle ne voit pas le mot « bonjour » comme toi. Pour lui, c'est trop compliqué ! Alors il transforme chaque petit bout en un paquet de chiffres, un peu comme un numéro secret. Avec ces numéros, il peut ranger les bouts et savoir lesquels se ressemblent.
Le modèle regarde toujours ce qui est déjà écrit
Avant de choisir le prochain petit bout, le modèle relit tout ce qui vient avant, comme quand tu te rappelles le début d'une histoire pour bien deviner la suite. Il regarde les mots déjà là et le ton avant de décider le morceau qui va le mieux ensuite.
Deux robots-écrivains peuvent être très différents
Tous les modèles ne se ressemblent pas, comme deux peluches qui ont l'air pareilles mais ne font pas la même chose. L'un découpe les mots autrement, l'autre se souvient de plus de choses, un autre va plus vite. Dire « j'utilise une IA », c'est comme dire « j'ai un jouet » : on ne sait pas encore lequel !
Un token, ce n'est pas forcément un mot complet
Le modèle découpe ton texte en tokens (des fragments). Un mot courant comme « chat » peut tenir dans un seul token, mais un mot rare, un pseudo, un emoji ou une date sont souvent coupés en plusieurs morceaux. C'est ce qui explique le coût (tu paies au nombre de tokens), la limite de longueur d'une conversation, et certains bugs bizarres quand tu écris un truc inhabituel.
Chaque token est transformé en liste de nombres
Le modèle ne manipule pas le mot « bonjour » comme tu le lis. Il lui donne d'abord un identifiant, puis un vecteur, c'est-à-dire une longue liste de nombres (comme des coordonnées GPS, mais en beaucoup plus de dimensions). Grâce à ces nombres, il peut calculer mathématiquement quels fragments sont proches ou éloignés les uns des autres.
Le modèle relit en continu tout l'historique
Pour choisir le prochain token, le modèle ne devine pas au hasard : il prend en compte le contexte, c'est-à-dire tout ce qui précède (ta question, le ton, les consignes, le style, ce qu'il a déjà écrit). C'est un peu comme l'autocomplétion de ton clavier, mais qui tiendrait compte de toute la conversation au lieu des deux derniers mots.
Deux LLM diffèrent par bien plus que leur nom
Comparer deux modèles, ce n'est pas comme comparer deux marques de téléphone juste sur le logo. Le tokenizer, la taille, la qualité des données d'entraînement, la fenêtre de contexte (combien il peut « se souvenir »), les outils dispos, la vitesse et le coût changent énormément. Dire « j'utilise un LLM » ne veut presque rien dire tant que tu ne précises pas lequel et pour quoi faire.
Un token n'est pas toujours un mot entier
Selon le tokenizer, un mot courant peut tenir dans un seul token, tandis qu'un mot rare, un emoji, une date ou un mot technique peuvent être coupés en plusieurs morceaux. C'est important pour comprendre les coûts, les limites de contexte et certains comportements étranges.
Chaque token devient une représentation numérique
Le modèle ne travaille pas avec le mot 'bonjour' comme toi tu le lis. Il le transforme en identifiant puis en vecteur, c'est-à-dire en paquet de nombres qui permet au système de le situer mathématiquement par rapport aux autres fragments.
Le modèle relit en permanence ce qui a déjà été écrit
Un LLM ne choisit pas le prochain token sans regarder autour. Il tient compte de l'historique, du ton, des consignes, du style et des morceaux déjà produits pour calculer ce qui paraît cohérent ensuite.
Deux LLM peuvent différer par bien plus que leur nom
Tokenizer, taille, qualité des données, contexte maximal, outils disponibles, multimodalité, vitesse, alignement et coût changent beaucoup d'un modèle à l'autre. Dire 'j'utilise un LLM' ne dit presque rien sans préciser lequel et pour quel usage.
L'analogie qui aide à retenir
C'est comme construire une phrase avec des petites briques de Lego plus petites que les mots.
C'est comme assembler un texte avec des Lego plus petits que les mots, brique après brique.
C'est un jeu de construction de phrases avec des briques plus petites que les mots.
Le coeur de l'idée
La machine écrit petit bout par petit bout, elle ne pense pas comme toi.
Un LLM prédit le prochain token : il ne « comprend » pas vraiment, il devine la suite la plus probable.
Un LLM produit du texte en prédisant des tokens, pas en pensant comme un rédacteur humain.
Le mécanisme, découpé étape par étape
La machine coupe ta phrase en tout petits bouts.
Un bout peut être un mot, un demi-mot ou un point.
Elle regarde les bouts déjà là et devine le prochain.
Elle ajoute le bout, puis recommence, encore et encore.
Ton message est découpé en petits fragments appelés tokens (mot, bout de mot ou signe).
Chaque fragment devient une suite de chiffres que la machine sait calculer.
Le modèle relit tout ce qui précède, puis choisit le prochain token le plus logique.
Il répète l'opération token par token jusqu'à former la réponse complète.
Ton texte est découpé en tokens : selon les mots, un token vaut un mot entier, un bout de mot ou un signe.
Chaque token est converti en représentation numérique (un vecteur) pour permettre le calcul.
Le modèle lit tout le contexte déjà présent, puis estime le token suivant le plus plausible.
Il répète cette boucle token par token jusqu'à produire la réponse complète.
Exemples très concrets Où tu retrouves ça dans le monde réel
Tape pour explorer Replier
Finir une histoire que tu as commencée avant le coucher.
Écrire une jolie carte d'anniversaire pour ton copain.
Redire ta blague préférée avec d'autres petits mots rigolos.
Compléter une légende Insta que tu as commencée.
Générer un résumé de cours ou un bout de code pour ton projet.
Reformuler ton message dans un autre ton, plus sérieux ou plus drôle.
Rédiger ou compléter un e-mail professionnel à partir de quelques mots.
Générer un compte rendu de réunion ou un extrait de code.
Reformuler un texte dans un autre ton, plus formel ou plus direct.
Points de vigilance Ce qu'il ne faut pas confondre
Tape pour explorer Replier
Couper en petits bouts, c'est bizarre pour nous, pas pour la machine.
Elle peut écrire très joliment et se tromper quand même.
Si la phrase est très longue, elle doit relire plein de bouts.
Le découpage en tokens n'a rien d'intuitif pour un humain.
Le texte peut paraître parfait et contenir une erreur très crédible.
Une longue conversation coûte plus cher car il faut relire tous les tokens.
Le découpage en tokens n'est pas intuitif pour un humain et explique certains comportements étranges.
Le modèle peut produire un texte très fluide tout en restant faux.
Plus le contexte est long, plus le calcul peut coûter cher (en tokens, en latence).
Remplace les fausses idées par les bonnes
On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.
On croit que la machine lit la phrase comme toi.
En vrai elle la coupe en bouts et devine le prochain.
On croit qu'un bout, c'est toujours un mot entier.
En vrai un mot rare ou un petit dessin peut être coupé en plusieurs.
On croit que si c'est bien écrit, c'est vrai.
En vrai une jolie phrase peut raconter une bêtise.
« L'IA lit mes phrases comme moi. »
Non : elle les coupe en tokens et prédit le suivant, sans comprendre le sens comme toi.
« Un token, c'est un mot. »
Pas toujours : un mot rare, un emoji ou une date peuvent être coupés en plusieurs tokens.
« Si ça sonne juste, c'est vrai. »
La fluidité vient de la prédiction, pas de la vérité : vérifie toujours.
« Le modèle lit et comprend les phrases comme nous. »
Non : il découpe le texte en tokens et prédit le suivant ; il ne « comprend » pas le sens comme un humain.
« Un token, c'est un mot. »
Pas toujours : un mot courant tient en un token, mais un mot rare, un emoji ou une date peuvent être coupés en plusieurs.
« Si le texte est fluide, c'est qu'il est vrai. »
Faux : la fluidité vient de la prédiction de tokens, elle ne garantit pas l'exactitude.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
La machine coupe la phrase en mini-morceaux.
Elle devine le prochain bout, puis recommence.
Une belle phrase peut quand même se tromper.
Plus tu écris long, plus elle a de bouts à relire.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Un mot, un bout de mot ou un signe, pas forcément un mot entier.
Il prédit le suivant, l'ajoute, recommence.
Une réponse bien tournée peut être fausse.
Plus le fil est long, plus il y a de tokens à traiter.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Des fragments de texte, pas des mots avec leur sens.
Il prédit le suivant, l'ajoute, puis recommence.
Un texte impeccable peut contenir une erreur très plausible.
Plus l'historique est long, plus il y a de tokens à traiter.
Les questions qu'on se pose souvent
Des réponses courtes et claires, sans jargon, pour lever les doutes.
C'est quoi un token, simplement ?
Un petit morceau de texte que le modèle manipule : un mot, un bout de mot ou un signe. Le modèle calcule sur des tokens, pas sur des phrases entières.
Pourquoi un assistant écrit-il mot après mot ?
Parce qu'il génère token par token : il prédit le prochain morceau, l'ajoute, puis recommence l'opération.
Un token, est-ce toujours un mot ?
Non. Un mot courant peut tenir en un token ; un mot rare, un emoji ou une date peuvent être découpés en plusieurs tokens.
Pourquoi les longues conversations coûtent-elles plus cher ?
Parce que le modèle relit le contexte à chaque étape : plus l'historique est long, plus il y a de tokens à traiter.
La suite, pensée comme une montée en compréhension
On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.