Entrée → récupération (RAG) → modèle/outils → garde-fous → sortie.
Architecture d'un système IA en production
Voir comment toutes les notions s'assemblent dans un vrai produit IA fiable, sûr et économique.
🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « L'usine à réponses de IA » — lire l'histoire →
Cache et routage de modèles pour le coût et la latence.
Observabilité : journaux, coûts, latences, qualité.
Le modèle n'est qu'une pièce du puzzle
- Quand tu poses une question à une IA, ce n'est pas juste « le modèle » qui répond : c'est toute une chaîne d'étapes, comme les niveaux d'un jeu vidéo qu'il faut traverser dans l'ordre.
- L'IA reçoit ta demande, va d'abord chercher les bonnes infos dans une base (on appelle ça le RAG), puis le modèle fabrique la réponse, et des « garde-fous » la vérifient avant de te l'envoyer.
- Autour, il y a une plateforme qui surveille tout : un cache qui garde les réponses déjà faites pour aller plus vite, un aiguillage qui choisit un petit ou un gros modèle selon la difficulté, et des compteurs de qualité, de coût et de temps.
- La grosse leçon : un bon produit IA, c'est un bon assemblage, pas juste « le plus gros modèle ». Comme une équipe e-sport : le meilleur joueur seul ne gagne pas si l'équipe est mal coordonnée.
C'est exactement comme l'appli de ton smartphone qui te suggère une réponse : derrière le bouton, il y a une usine invisible qui cherche, fabrique, vérifie et mesure, en quelques dixièmes de seconde. Le chatbot du support d'un jeu, par exemple, lit la doc du jeu (RAG), répond, et journalise tout pour voir ce qui rate.
Comprendre qu'il y a tout un système derrière une réponse t'aide à rester lucide : une IA peut très bien sembler fluide et sûre d'elle tout en se trompant, parce qu'un maillon de la chaîne (la recherche d'infos, par exemple) était mauvais. Garde l'esprit critique et vérifie une info importante à une autre source, surtout avant un devoir ou un exposé.
Image à garder : une chaîne de production où chaque poste a un rôle, et un tableau de bord qui surveille l'ensemble.
Assemble toutes les briques d'un système IA
Suis la chaîne entrée → RAG → modèle + garde-fous → plateforme (cache, observabilité, evals). La valeur vient de l'assemblage.
Comprendre la demande : le point d'entrée du pipeline.
Sous le capot Pour les curieux : ce qui se passe à l'intérieur
Tape pour explorer Replier
De ta question à la réponse
C'est comme une chaîne de copains qui se passent un ballon. Le premier écoute ta question, le deuxième va chercher les bonnes infos dans ses cahiers, le troisième fabrique la réponse, et le dernier vérifie que tout est bien avant de te la donner. Chaque copain a son travail.
L'étagère et le chef d'orchestre
Autour de la chaîne, il y a des aides. Une étagère range les réponses déjà faites, comme ça on n'a pas à recommencer. Un chef choisit la bonne machine selon le travail. Et on garde des photos d'avant pour pouvoir revenir en arrière si on s'est trompé.
Bien regarder ce qui se passe
On surveille tout avec une grande loupe et un cahier. On note ce qui marche, ce qui rate, combien de temps ça prend. Sans regarder, c'est comme jouer les yeux fermés : on ne voit pas quand quelque chose casse.
On ne peut pas tout avoir d'un coup
C'est comme choisir une glace : si tu la veux très grosse, elle coûte plus cher et fond plus vite. On doit choisir entre vite, pas cher, bien fait et bien protégé. On teste tout le temps pour trouver le bon mélange.
De la requête à la réponse
Comme une story qui passe par plusieurs filtres avant d'être postée. Le système comprend ta demande, va chercher le contexte utile (le RAG, c'est-à-dire récupérer des infos dans une base avant de répondre), appelle le modèle et ses outils, puis applique des garde-fous (des règles de sécurité) avant de renvoyer. Chaque étape est un point de contrôle.
Cache, routage, versioning
Autour du pipeline, des outils malins. Le cache garde en mémoire les réponses déjà calculées, comme le cache de ton navigateur qui charge plus vite les sites déjà visités. Le routage envoie chaque demande vers le bon modèle. Le versioning, c'est garder chaque version des réglages pour pouvoir revenir en arrière, comme l'historique d'un Google Doc.
Voir ce qui se passe vraiment
L'observabilité, c'est le tableau de bord du système : logs (journaux de ce qui s'est passé), métriques de qualité, coûts et temps de réponse. C'est comme les stats de ton jeu ou de ta chaîne : sans ces chiffres, tu ne sais pas quand quelque chose se dégrade ni pourquoi.
Qualité, vitesse, coût, sécurité
Tout est un compromis, comme régler la qualité d'une vidéo : plus c'est net, plus ça pèse lourd et plus ça rame. On équilibre entre qualité, rapidité, coût et sécurité selon l'usage. Et on mesure en continu avec des évaluations (des tests automatiques) au lieu de se fier à une simple impression.
De la requête à la réponse
Comprendre la demande, récupérer le contexte (RAG), appeler le modèle et les outils, appliquer les garde-fous, renvoyer. Chaque étape est un point de contrôle.
Cache, routage, versioning
Autour du pipeline : un cache réduit coût et latence, un routeur choisit le modèle adapté, et le versioning des prompts/modèles permet de revenir en arrière sans casse.
Voir ce qui se passe vraiment
Journaux, traces, métriques de qualité, coûts et latences : sans observabilité, on pilote à l'aveugle et on ne détecte pas les régressions.
Qualité, latence, coût, sécurité
Tout est compromis. On mesure en continu (évaluations) pour équilibrer ces axes selon l'usage, plutôt que de se fier à une impression.
L'analogie qui aide à retenir
C'est comme une grande usine : chaque poste fait son travail, et un chef vérifie tout à la fin.
C'est comme une chaîne de fast-food : ta commande passe de poste en poste, et un contrôleur vérifie avant de te servir.
Un système IA, c'est une usine : la commande entre, plusieurs postes la traitent, un contrôle qualité valide, et un tableau de bord surveille tout.
Le coeur de l'idée
La machine toute seule ne suffit pas : c'est toute l'usine, bien rangée, qui fait du bon travail.
Une bonne IA, ce n'est pas juste un gros cerveau : c'est toute une chaîne bien organisée et surveillée.
Un produit IA est un système, pas un modèle : entrée, RAG, modèle, garde-fous, cache, routage, observabilité et évaluations, assemblés et mesurés en boucle.
Le mécanisme, découpé étape par étape
Ta question arrive, comme une commande au restaurant.
Un poste va chercher les bonnes infos pour bien répondre.
La machine fabrique la réponse.
Un contrôleur vérifie que tout est bon avant de te l'envoyer.
La demande arrive, puis on va chercher les bonnes infos dans une base (le RAG).
Le modèle écrit la réponse, parfois en utilisant des outils pour aller plus loin.
Des garde-fous vérifient la réponse avant qu'elle parte vers toi.
Autour, un cache garde les réponses fréquentes et un routeur choisit le modèle le moins cher qui suffit.
Tu reçois la requête, puis tu récupères le contexte utile dans une base de connaissances (RAG).
Tu appelles le modèle, qui peut aussi déclencher des outils ou agir comme un agent.
Tu fais passer la sortie dans des garde-fous (citations, validation, filtrage) avant de la renvoyer.
Autour, un cache réduit coût et latence, un routeur dirige chaque cas vers le bon modèle, et tu observes logs, coûts et qualité en continu.
Exemples très concrets Où tu retrouves ça dans le monde réel
Tape pour explorer Replier
Comme une usine de bonbons : chaque poste fait une petite tâche.
Comme la maîtresse qui relit ton dessin avant de l'afficher.
Comme une étagère où tu ranges tes coloriages déjà finis pour les retrouver vite.
Un chatbot d'aide aux devoirs qui cherche dans ton cours avant de répondre.
Un assistant de jeu vidéo qui envoie les questions faciles à un petit modèle et les dures à un gros.
Un service client d'appli qui ressort instantanément une réponse déjà donnée à 1000 personnes.
Un assistant support : RAG sur la documentation, garde-fous et journalisation de chaque échange.
Un routeur qui envoie les cas simples à un petit modèle et les cas difficiles à un grand.
Un cache qui ressert en un instant les réponses aux questions les plus fréquentes.
Points de vigilance Ce qu'il ne faut pas confondre
Tape pour explorer Replier
Une bonne machine dans une usine mal rangée fait du mauvais travail.
Plus on ajoute de postes, plus c'est dur à ranger.
Si on ne regarde plus, ça se gâte sans qu'on le voie.
Un excellent modèle dans un mauvais système = mauvais produit.
Plus tu ajoutes de briques, plus c'est compliqué à entretenir.
Sans mesure régulière, le système se dégrade en silence.
Un excellent modèle dans un mauvais système donne un mauvais produit.
La complexité a un coût : chaque brique ajoute de la maintenance.
Sans mesure continue, le système se dégrade silencieusement.
Remplace les fausses idées par les bonnes
On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.
On croit qu'une machine toute seule suffit.
En vrai, il faut toute l'usine bien rangée pour bien faire.
On croit que quand c'est fini, c'est fini.
En vrai, il faut surveiller tout le temps, sinon ça marche moins bien.
« Le plus gros modèle gagne forcément. »
Faux : un super modèle dans une chaîne mal montée donne un mauvais résultat.
« Une fois lancé, c'est fini. »
Non : sans surveillance, la qualité baisse petit à petit sans qu'on le voie.
« Plus on ajoute de morceaux, mieux c'est. »
Chaque morceau coûte du temps à entretenir ; on n'ajoute que ce qui sert vraiment.
« Il suffit du meilleur modèle pour avoir le meilleur produit. »
Non : un excellent modèle dans un système bancal donne un mauvais produit. L'assemblage fait la différence.
« Une fois en production, c'est fini. »
Au contraire : sans observabilité ni évaluations continues, la qualité se dégrade en silence.
« Plus de briques, toujours mieux. »
Chaque composant ajoute complexité et maintenance. On n'ajoute que ce qui apporte une valeur mesurée.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Plein de petits postes, pas juste un.
On lit, on cherche, on fabrique, on vérifie.
On range ce qu'on a déjà fait pour aller vite.
On note ce qui marche et ce qui rate.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Le modèle est une brique parmi plein d'autres.
Demande → recherche d'infos → modèle → vérification → réponse.
Cache pour aller vite, routeur pour payer moins.
On mesure tout le temps pour repérer les bugs.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Le modèle n'est qu'une brique.
Entrée → RAG → modèle → garde-fous → sortie.
Cache, routage, observabilité, versioning.
Des évaluations continues pour piloter.
Les questions qu'on se pose souvent
Des réponses courtes et claires, sans jargon, pour lever les doutes.
Pourquoi dit-on « système » plutôt que « modèle » ?
Parce qu'en production, le modèle est entouré de récupération, garde-fous, cache, routage, observabilité et évaluations. C'est l'ensemble qui crée la valeur.
Qu'apporte l'observabilité ?
Elle rend visibles la qualité, les coûts, les latences et les erreurs. Sans elle, on ne détecte pas les régressions et on pilote à l'aveugle.
C'est quoi le routage de modèles ?
Diriger chaque requête vers le modèle le plus adapté : un petit modèle pour les cas simples, un grand pour les cas difficiles, afin d'optimiser coût et qualité.
Par où commencer pour concevoir un tel système ?
Par le cas d'usage et les arbitrages (qualité, latence, coût, sécurité), puis on assemble les briques nécessaires et on mesure en continu.
La suite, pensée comme une montée en compréhension
On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.