Un grand modèle « teacher » sert de référence.
Distillation et modèles légers
Comprendre comment on fabrique des modèles plus petits, rapides et économiques à partir de grands modèles.
🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « Le mini-âne de poche » — lire l'histoire →
Un petit modèle « student » apprend à l'imiter.
Quantization et pruning allègent encore le modèle.
Le grand prof forme le petit champion
- Imagine un énorme modèle hyper savant mais lent et qui coûte cher à faire tourner : on s'en sert comme « prof » pour entraîner un petit modèle « élève ».
- L'élève apprend à copier les réponses du prof, et même sa façon d'hésiter entre plusieurs réponses : c'est ça, la distillation.
- On l'allège encore avec deux astuces : la quantization (arrondir les chiffres internes, genre 16 chiffres après la virgule réduits à 4) et le pruning (couper ce qui sert peu).
- Résultat : un modèle léger et rapide qui peut tourner direct dans ton téléphone, presque aussi bon que le gros sur sa tâche.
Sur ton smartphone, le clavier qui corrige tes fautes, la traduction hors connexion ou les filtres qui détectent ton visage en temps réel : ce sont souvent de petits modèles distillés. Le gros cerveau reste sur les serveurs, le mini bosse dans ta poche sans vider ta batterie ni ta data.
« Petit » ou « mini » ne veut pas dire « bête », mais un modèle compressé peut perdre des détails de façon invisible : il répond vite et avec assurance même quand il se trompe. Sur un sujet qui compte (un devoir, une info santé), ne te fie pas à la vitesse, recoupe avec une vraie source.
Plus petit et plus rapide pour beaucoup moins cher, mais on échange toujours un peu de qualité : le bon réglage se mesure, il ne se devine pas.
Regarde un grand modèle former un petit modèle agile
Le « professeur » entraîne un « élève » plus rapide, léger et économique — presque aussi bon sur sa tâche.
Puissant et polyvalent, mais il demande un gros ordinateur.
Sous le capot Pour les curieux : ce qui se passe à l'intérieur
Tape pour explorer Replier
Le petit copie le grand
Imagine un grand maître très fort qui montre à un petit comment répondre. Le petit regarde bien et apprend à faire pareil. Du coup, le petit devient presque aussi malin, mais il reste tout petit et rapide !
Arrondir les nombres pour alléger
Au lieu de retenir des nombres super longs et compliqués, le petit modèle les arrondit, comme quand tu dis « à peu près 3 » au lieu de « 2,9999 ». Ça prend moins de place dans sa tête et il va plus vite, sans presque rien perdre.
Jeter ce qui ne sert pas
C'est comme ranger ta chambre : tu donnes les jouets avec lesquels tu ne joues jamais. Le modèle enlève les morceaux qui ne servent presque à rien, alors il devient plus léger. Mais il faut vérifier qu'il marche toujours bien !
On gagne un peu, on perd un peu
Pour aller plus vite et coûter moins cher, le petit modèle perd parfois un tout petit peu de savoir. C'est comme un vélo : plus léger, tu vas plus vite, mais tu portes moins de choses. On regarde si l'échange est intéressant.
L'élève imite le prof
Un gros modèle (le « teacher », le prof) entraîne un petit modèle (le « student », l'élève). L'élève ne copie pas juste la bonne réponse : il observe aussi à quel point le prof hésite entre plusieurs réponses (les probabilités). Comme apprendre d'un youtubeur qui explique pourquoi il choisit, pas seulement le résultat. Résultat : l'élève capte une partie du savoir sans être aussi gros.
Moins de précision, moins de poids
Les réglages du modèle (les « poids ») sont stockés avec une certaine précision, par exemple 16 bits. La quantization les passe à 8 ou 4 bits : on garde moins de décimales. Ça divise la mémoire utilisée et accélère les calculs, un peu comme passer d'une photo très lourde à une version compressée presque identique à l'œil.
Élaguer les paramètres inutiles
« Pruning » veut dire élaguer, comme tailler un arbre. On retire les paramètres (les petits réglages) qui ne servent presque à rien, comme désinstaller les applis que tu n'ouvres jamais pour libérer ton téléphone. Le modèle devient plus léger, mais il faut tester pour vérifier que la qualité tient toujours.
Mesurer ce qu'on gagne et ce qu'on perd
Toute compression échange un peu de qualité contre de la vitesse, des économies et la possibilité de tourner sur un téléphone. Comme baisser la qualité d'un jeu vidéo pour qu'il tourne sans ramer : on accepte si la perte reste discrète. On mesure avec des tests pour choisir le bon point d'équilibre selon l'usage.
Le student imite le teacher
Le petit modèle apprend des sorties du grand (et de signaux plus riches comme les probabilités). Il capte une partie de son savoir sans avoir sa taille.
Moins de précision, moins de poids
Réduire la précision numérique des paramètres (ex. 16→8/4 bits) divise la mémoire et accélère l'inférence, avec une perte de qualité souvent maîtrisable.
Retirer ce qui sert peu
On supprime des paramètres ou structures peu utiles. Le modèle devient plus léger ; il faut vérifier que la qualité reste acceptable.
Mesurer ce qu'on gagne et ce qu'on perd
Toute compression échange un peu de qualité contre vitesse, coût et faisabilité. On l'évalue pour choisir le bon point d'équilibre selon l'usage.
L'analogie qui aide à retenir
C'est comme une grande maîtresse qui apprend à un petit élève à faire comme elle.
C'est comme un champion qui forme un jeune joueur agile : presque aussi bon sur le terrain, mais bien moins cher à faire jouer.
La distillation, c'est un maître qui transmet l'essentiel à un apprenti : plus agile, presque aussi compétent, bien moins cher à employer.
Le coeur de l'idée
Une grande machine montre à une petite comment faire : la petite devient rapide et tient partout !
Distillation (prof→élève), quantization et pruning fabriquent des modèles plus petits, rapides et économiques, en échange d'un peu de qualité qu'on mesure.
On fabrique des modèles légers par distillation (teacher→student), quantization et pruning : plus rapides et économiques, au prix d'un peu de qualité, à mesurer.
Le mécanisme, découpé étape par étape
Une très grande machine sait plein, plein de choses, mais elle est lente.
On lui demande de montrer à une petite machine comment répondre.
La petite machine regarde et apprend à faire pareil.
À la fin, la petite va vite et tient même dans un téléphone !
Un grand modèle très fort joue le rôle de prof : c'est la référence.
Un petit modèle joue l'élève et s'entraîne à copier les réponses du prof.
On allège encore le petit : la quantization arrondit ses nombres (moins précis, plus léger), le pruning enlève les morceaux peu utiles.
On mesure ce qu'on gagne en vitesse et en coût, et ce qu'on perd en qualité.
Un grand modèle « teacher » sert de référence de qualité.
Un petit modèle « student » s'entraîne à imiter ses réponses, et même des signaux plus riches comme ses probabilités de sortie.
On allège encore avec la quantization (réduire la précision des poids, ex. 16→8/4 bits) et le pruning (retirer les paramètres peu utiles).
On évalue le compromis qualité / vitesse / coût pour choisir le bon point d'équilibre selon l'usage.
Exemples très concrets Où tu retrouves ça dans le monde réel
Tape pour explorer Replier
Une petite machine rapide qui rentre dans le téléphone de papa.
Un petit robot qui aide à colorier aussi bien qu'un grand.
Une petite machine qui répond vite à tes questions de récré.
La version « mini » d'un chatbot qui répond plus vite quand le gros est saturé.
Un modèle compressé qui tourne direct sur ton smartphone, sans serveur géant.
Un petit modèle spécialisé qui assure aussi bien que le gros sur une seule tâche (genre corriger l'orthographe).
La variante « mini » d'un assistant, déployée pour répondre vite et à moindre coût aux requêtes simples.
Un modèle quantizé qui tourne en local sur un téléphone, sans appel à un serveur distant.
Un petit modèle spécialisé (classification, extraction) qui rivalise avec un grand sur sa tâche précise.
Points de vigilance Ce qu'il ne faut pas confondre
Tape pour explorer Replier
La petite machine n'est presque jamais meilleure que la grande.
Si on l'allège trop, elle fait plus de petites bêtises.
Un modèle distillé est rarement meilleur que son prof en général.
Si on compresse trop, la qualité baisse, parfois de façon discrète et difficile à repérer.
Les gains changent selon la tâche : il faut tester cas par cas.
Un modèle distillé est rarement meilleur que son professeur en polyvalence générale.
Trop compresser dégrade la qualité de façon parfois subtile et difficile à détecter.
Les gains dépendent fortement de la tâche : à mesurer cas par cas par des évaluations.
Remplace les fausses idées par les bonnes
On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.
On croit qu'une petite machine fait toujours n'importe quoi.
Mais en vrai, pour son petit travail, elle peut être très douée et très rapide !
On croit que la petite devient plus forte que la grande.
Mais en vrai, la grande reste la plus forte. La petite est juste plus rapide et plus légère.
« Un petit modèle est forcément nul. »
Faux. Bien entraîné et ciblé sur une tâche, il peut rivaliser avec le gros, en étant beaucoup plus rapide.
« L'élève finit meilleur que le prof. »
Rarement, et pas partout. Il vise un super rapport qualité/coût, pas à dépasser le grand modèle sur tout.
« Compresser un modèle, ça ne coûte rien en qualité. »
Il y a presque toujours une petite perte. Souvent faible, mais réelle : c'est pour ça qu'on la mesure.
« Un petit modèle est forcément mauvais. »
Non. Bien distillé et ciblé, il peut rivaliser sur sa tâche, en étant bien plus rapide et économique.
« La distillation rend l'élève meilleur que le professeur. »
En polyvalence générale, rarement. Mais sur une tâche ciblée — surtout la distillation de raisonnement (ex. DeepSeek-R1 vers de petits modèles) — un élève peut dépasser des modèles bien plus gros.
« Quantizer un modèle ne change rien à la qualité. »
Il y a presque toujours un léger coût en qualité. Faible souvent, mais réel : on le mesure.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
La grande machine apprend à la petite.
La petite regarde et fait pareil.
La petite va vite et rentre dans le téléphone.
La petite est presque aussi bonne, mais pas tout à fait.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Le grand modèle entraîne le petit à l'imiter.
Nombres moins précis = modèle plus léger et plus rapide.
On enlève les morceaux qui servent peu.
On échange de la qualité contre de la vitesse et du coût, et on le mesure.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Le grand modèle forme le petit en lui transférant son savoir.
Moins de précision numérique sur les poids = moins de mémoire, inférence plus rapide.
On retire les paramètres ou structures peu contributifs.
De la qualité échangée contre vitesse et coût, validé par des évaluations.
Les questions qu'on se pose souvent
Des réponses courtes et claires, sans jargon, pour lever les doutes.
Pourquoi fabriquer des modèles plus petits ?
Pour aller plus vite, coûter moins cher, et parfois tourner sur des appareils modestes (téléphone, embarqué).
Quelle différence entre distillation et quantization ?
La distillation entraîne un petit modèle à imiter un grand. La quantization réduit la précision numérique des poids d'un modèle existant.
Un modèle léger peut-il égaler un grand ?
Sur une tâche précise et bien ciblée, il peut s'en approcher. En polyvalence générale, le grand modèle garde l'avantage.
Comment savoir si la compression est acceptable ?
En mesurant la qualité par des évaluations, pour vérifier que la perte reste faible au regard des gains.
La suite, pensée comme une montée en compréhension
On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.