Un grand modèle qui forme un petit Expert

Distillation et modèles légers

Comprendre comment on fabrique des modèles plus petits, rapides et économiques à partir de grands modèles.

🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « Le mini-âne de poche » — lire l'histoire →

10 min distillationmodèles légersefficacité

Je commence Je teste ma compréhension

Pas de jargon Compréhensible vite

Un grand modèle « teacher » sert de référence.

Un petit modèle « student » apprend à l'imiter.

Quantization et pruning allègent encore le modèle.

1. Je découvre une version simple et imagée

2. Je comprends le vrai mécanisme sans jargon inutile

3. Je m'entraîne avec un mini quiz immédiat

4. Je retiens les points clés à réexpliquer

Le grand prof forme le petit champion

Imagine un énorme modèle hyper savant mais lent et qui coûte cher à faire tourner : on s'en sert comme « prof » pour entraîner un petit modèle « élève ».
L'élève apprend à copier les réponses du prof, et même sa façon d'hésiter entre plusieurs réponses : c'est ça, la distillation.
On l'allège encore avec deux astuces : la quantization (arrondir les chiffres internes, genre 16 chiffres après la virgule réduits à 4) et le pruning (couper ce qui sert peu).
Résultat : un modèle léger et rapide qui peut tourner direct dans ton téléphone, presque aussi bon que le gros sur sa tâche.

Un exemple pour toi

Sur ton smartphone, le clavier qui corrige tes fautes, la traduction hors connexion ou les filtres qui détectent ton visage en temps réel : ce sont souvent de petits modèles distillés. Le gros cerveau reste sur les serveurs, le mini bosse dans ta poche sans vider ta batterie ni ta data.

« Petit » ou « mini » ne veut pas dire « bête », mais un modèle compressé peut perdre des détails de façon invisible : il répond vite et avec assurance même quand il se trompe. Sur un sujet qui compte (un devoir, une info santé), ne te fie pas à la vitesse, recoupe avec une vraie source.

Plus petit et plus rapide pour beaucoup moins cher, mais on échange toujours un peu de qualité : le bon réglage se mesure, il ne se devine pas.

Le déclic en mouvement

Regarde un grand modèle former un petit modèle agile

Le « professeur » entraîne un « élève » plus rapide, léger et économique — presque aussi bon sur sa tâche.

Un très grand modèle : savant, mais lourd, lent et coûteux.

🎓 Modèle « professeur » — très grand

Puissant et polyvalent, mais il demande un gros ordinateur.

Étape 1 / 4

Sous le capot

Pour les curieux : ce qui se passe à l'intérieur

Tape pour explorer Replier

Le grand prof

Le petit copie le grand

Imagine un grand maître très fort qui montre à un petit comment répondre. Le petit regarde bien et apprend à faire pareil. Du coup, le petit devient presque aussi malin, mais il reste tout petit et rapide !

Plus léger

Arrondir les nombres pour alléger

Au lieu de retenir des nombres super longs et compliqués, le petit modèle les arrondit, comme quand tu dis « à peu près 3 » au lieu de « 2,9999 ». Ça prend moins de place dans sa tête et il va plus vite, sans presque rien perdre.

On range

Jeter ce qui ne sert pas

C'est comme ranger ta chambre : tu donnes les jouets avec lesquels tu ne joues jamais. Le modèle enlève les morceaux qui ne servent presque à rien, alors il devient plus léger. Mais il faut vérifier qu'il marche toujours bien !

Donner-prendre

On gagne un peu, on perd un peu

Pour aller plus vite et coûter moins cher, le petit modèle perd parfois un tout petit peu de savoir. C'est comme un vélo : plus léger, tu vas plus vite, mais tu portes moins de choses. On regarde si l'échange est intéressant.

Distillation

L'élève imite le prof

Un gros modèle (le « teacher », le prof) entraîne un petit modèle (le « student », l'élève). L'élève ne copie pas juste la bonne réponse : il observe aussi à quel point le prof hésite entre plusieurs réponses (les probabilités). Comme apprendre d'un youtubeur qui explique pourquoi il choisit, pas seulement le résultat. Résultat : l'élève capte une partie du savoir sans être aussi gros.

Quantization

Moins de précision, moins de poids

Les réglages du modèle (les « poids ») sont stockés avec une certaine précision, par exemple 16 bits. La quantization les passe à 8 ou 4 bits : on garde moins de décimales. Ça divise la mémoire utilisée et accélère les calculs, un peu comme passer d'une photo très lourde à une version compressée presque identique à l'œil.

Pruning

Élaguer les paramètres inutiles

« Pruning » veut dire élaguer, comme tailler un arbre. On retire les paramètres (les petits réglages) qui ne servent presque à rien, comme désinstaller les applis que tu n'ouvres jamais pour libérer ton téléphone. Le modèle devient plus léger, mais il faut tester pour vérifier que la qualité tient toujours.

Compromis

Mesurer ce qu'on gagne et ce qu'on perd

Toute compression échange un peu de qualité contre de la vitesse, des économies et la possibilité de tourner sur un téléphone. Comme baisser la qualité d'un jeu vidéo pour qu'il tourne sans ramer : on accepte si la perte reste discrète. On mesure avec des tests pour choisir le bon point d'équilibre selon l'usage.

Distillation

Le student imite le teacher

Le petit modèle apprend des sorties du grand (et de signaux plus riches comme les probabilités). Il capte une partie de son savoir sans avoir sa taille.

Quantization

Moins de précision, moins de poids

Réduire la précision numérique des paramètres (ex. 16→8/4 bits) divise la mémoire et accélère l'inférence, avec une perte de qualité souvent maîtrisable.

Pruning

Retirer ce qui sert peu

On supprime des paramètres ou structures peu utiles. Le modèle devient plus léger ; il faut vérifier que la qualité reste acceptable.

Compromis

Mesurer ce qu'on gagne et ce qu'on perd

Toute compression échange un peu de qualité contre vitesse, coût et faisabilité. On l'évalue pour choisir le bon point d'équilibre selon l'usage.

L'image mentale

L'analogie qui aide à retenir

C'est comme une grande maîtresse qui apprend à un petit élève à faire comme elle.

C'est comme un champion qui forme un jeune joueur agile : presque aussi bon sur le terrain, mais bien moins cher à faire jouer.

La distillation, c'est un maître qui transmet l'essentiel à un apprenti : plus agile, presque aussi compétent, bien moins cher à employer.

À retenir

Le coeur de l'idée

Une grande machine montre à une petite comment faire : la petite devient rapide et tient partout !

Distillation (prof→élève), quantization et pruning fabriquent des modèles plus petits, rapides et économiques, en échange d'un peu de qualité qu'on mesure.

On fabrique des modèles légers par distillation (teacher→student), quantization et pruning : plus rapides et économiques, au prix d'un peu de qualité, à mesurer.

Comment ça marche

Le mécanisme, découpé étape par étape

Une très grande machine sait plein, plein de choses, mais elle est lente.

On lui demande de montrer à une petite machine comment répondre.

La petite machine regarde et apprend à faire pareil.

À la fin, la petite va vite et tient même dans un téléphone !

Un grand modèle très fort joue le rôle de prof : c'est la référence.

Un petit modèle joue l'élève et s'entraîne à copier les réponses du prof.

On allège encore le petit : la quantization arrondit ses nombres (moins précis, plus léger), le pruning enlève les morceaux peu utiles.

On mesure ce qu'on gagne en vitesse et en coût, et ce qu'on perd en qualité.

Un grand modèle « teacher » sert de référence de qualité.

Un petit modèle « student » s'entraîne à imiter ses réponses, et même des signaux plus riches comme ses probabilités de sortie.

On allège encore avec la quantization (réduire la précision des poids, ex. 16→8/4 bits) et le pruning (retirer les paramètres peu utiles).

On évalue le compromis qualité / vitesse / coût pour choisir le bon point d'équilibre selon l'usage.

Exemples très concrets

Où tu retrouves ça dans le monde réel

Tape pour explorer Replier

Une petite machine rapide qui rentre dans le téléphone de papa.

Un petit robot qui aide à colorier aussi bien qu'un grand.

Une petite machine qui répond vite à tes questions de récré.

La version « mini » d'un chatbot qui répond plus vite quand le gros est saturé.

Un modèle compressé qui tourne direct sur ton smartphone, sans serveur géant.

Un petit modèle spécialisé qui assure aussi bien que le gros sur une seule tâche (genre corriger l'orthographe).

La variante « mini » d'un assistant, déployée pour répondre vite et à moindre coût aux requêtes simples.

Un modèle quantizé qui tourne en local sur un téléphone, sans appel à un serveur distant.

Un petit modèle spécialisé (classification, extraction) qui rivalise avec un grand sur sa tâche précise.

Points de vigilance

Ce qu'il ne faut pas confondre

Tape pour explorer Replier

La petite machine n'est presque jamais meilleure que la grande.

Si on l'allège trop, elle fait plus de petites bêtises.

Un modèle distillé est rarement meilleur que son prof en général.

Si on compresse trop, la qualité baisse, parfois de façon discrète et difficile à repérer.

Les gains changent selon la tâche : il faut tester cas par cas.

Un modèle distillé est rarement meilleur que son professeur en polyvalence générale.

Trop compresser dégrade la qualité de façon parfois subtile et difficile à détecter.

Les gains dépendent fortement de la tâche : à mesurer cas par cas par des évaluations.

Mythes vs réalité

Remplace les fausses idées par les bonnes

On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.

Ce qu'on imagine

On croit qu'une petite machine fait toujours n'importe quoi.

Ce qu'il faut garder

Mais en vrai, pour son petit travail, elle peut être très douée et très rapide !

Ce qu'on imagine

On croit que la petite devient plus forte que la grande.

Ce qu'il faut garder

Mais en vrai, la grande reste la plus forte. La petite est juste plus rapide et plus légère.

Ce qu'on imagine

« Un petit modèle est forcément nul. »

Ce qu'il faut garder

Faux. Bien entraîné et ciblé sur une tâche, il peut rivaliser avec le gros, en étant beaucoup plus rapide.

Ce qu'on imagine

« L'élève finit meilleur que le prof. »

Ce qu'il faut garder

Rarement, et pas partout. Il vise un super rapport qualité/coût, pas à dépasser le grand modèle sur tout.

Ce qu'on imagine

« Compresser un modèle, ça ne coûte rien en qualité. »

Ce qu'il faut garder

Il y a presque toujours une petite perte. Souvent faible, mais réelle : c'est pour ça qu'on la mesure.

Ce qu'on imagine

« Un petit modèle est forcément mauvais. »

Ce qu'il faut garder

Non. Bien distillé et ciblé, il peut rivaliser sur sa tâche, en étant bien plus rapide et économique.

Ce qu'on imagine

« La distillation rend l'élève meilleur que le professeur. »

Ce qu'il faut garder

En polyvalence générale, rarement. Mais sur une tâche ciblée — surtout la distillation de raisonnement (ex. DeepSeek-R1 vers de petits modèles) — un élève peut dépasser des modèles bien plus gros.

Ce qu'on imagine

« Quantizer un modèle ne change rien à la qualité. »

Ce qu'il faut garder

Il y a presque toujours un léger coût en qualité. Faible souvent, mais réel : on le mesure.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

La grande montre

La grande machine apprend à la petite.

La petite copie

La petite regarde et fait pareil.

Toute légère

La petite va vite et rentre dans le téléphone.

Un petit peu moins forte

La petite est presque aussi bonne, mais pas tout à fait.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Prof → élève

Le grand modèle entraîne le petit à l'imiter.

Quantization

Nombres moins précis = modèle plus léger et plus rapide.

Pruning

On enlève les morceaux qui servent peu.

Le compromis

On échange de la qualité contre de la vitesse et du coût, et on le mesure.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Teacher → student

Le grand modèle forme le petit en lui transférant son savoir.

Quantization

Moins de précision numérique sur les poids = moins de mémoire, inférence plus rapide.

Pruning

On retire les paramètres ou structures peu contributifs.

Compromis mesuré

De la qualité échangée contre vitesse et coût, validé par des évaluations.

🫏 L'IA du Zéro🧑 Ado

Ma carte mémo

Distillation et modèles légers

À la fin, ce sont ces idées qui doivent rester

Prof → élèveLe grand modèle entraîne le petit à l'imiter.
QuantizationNombres moins précis = modèle plus léger et plus rapide.
PruningOn enlève les morceaux qui servent peu.
Le compromisOn échange de la qualité contre de la vitesse et du coût, et on le mesure.

iaduzero.fr — Comprendre l'IA, de zéro à expert 🇫🇷

Questions fréquentes