Un nom de famille n'est pas une fiche technique
Dire 'Claude', 'GPT' ou 'Qwen' ne suffit pas. Il faut toujours regarder la version exacte, son rôle, sa date et son statut.
Cette page rassemble les grandes familles mondiales qu'un debutant, un ado, un parent ou un professionnel doit au moins savoir reconnaitre.
Le bon réflexe n'est pas 'quel est le meilleur ?' mais 'de quelle famille parle-t-on, pour quel rôle, avec quelles modalités, quelles limites et quelles docs officielles ?'
Dire 'Claude', 'GPT' ou 'Qwen' ne suffit pas. Il faut toujours regarder la version exacte, son rôle, sa date et son statut.
Un modèle peut être excellent en code, moyen en image, très rapide mais moins profond, ou parfait pour un coût donné.
La France, l'Europe et surtout la Chine pèsent lourd avec des familles comme Mistral, Qwen, GLM, DeepSeek, Kimi, MiniMax ou Hunyuan.
On compare des sprinteurs entre eux, des cerveaux premium entre eux et des modèles visuels entre eux, pas des objets totalement différents.
C'est la grande table des modèles qu'on appelle pour les tâches difficiles, le raisonnement, les briefs complexes ou les produits haut de gamme.
Ce sont les modèles qu'on aime pour le volume, la latence basse, les assistants rapides, les premiers jets et les usages industriels à grande échelle.
Ici, on cherche des familles solides en développement, agentic workflows, outils, refactorisation et exécution contrôlée de tâches techniques.
Cette voie rappelle qu'un modèle texte n'est pas la même chose qu'un générateur d'image, de vidéo ou de voix en temps réel.
Ce panorama reste volontairement pédagogique. Il ne prétend pas être un benchmark absolu, mais un vrai repère de lecture pour reconnaître les acteurs majeurs et leurs rôles.
Le couteau suisse premium pour texte, code, image et voix.
Equivalent pedagogique : la grande famille generaliste de reference pour produits et assistants
Idéal pour : produits polyvalents, agents, code, voix temps reel, image
Modalités : texte, code, image, voix, outils, temps reel
Point de vigilance : Toujours distinguer la famille GPT, la variante exacte et les deprecations en cours.
Une famille tres lisible pour comprendre premium, equilibre et vitesse.
Equivalent pedagogique : un professeur rigoureux tres fort en travail de fond et assistants de bureau
Idéal pour : rédaction soignée, raisonnement, code, longue lecture, assistants encadrés
Modalités : texte, vision, outils selon surface
Point de vigilance : Anthropic retire souvent des versions intermediaires : il faut verifier le slug exact.
Une grande famille multimodale pour texte, image, live et video.
Equivalent pedagogique : la gamme qui montre le mieux que l'IA moderne n'est plus seulement du texte
Idéal pour : multimodalité, usages a fort volume, live, image, video, recherche produit
Modalités : texte, image, video, live, embeddings selon modele
Point de vigilance : Il faut distinguer stable, preview, experimental, latest et la surface API exacte.
La famille francaise a suivre pour parler IA sans oublier l'Europe.
Equivalent pedagogique : la grande alternative europeenne pour entreprise, code et souverainete
Idéal pour : entreprise, souveraineté, code, documents, voix, usages B2B
Modalités : texte, raisonnement, code, documents, voix selon modele
Point de vigilance : Le mot 'europeen' ne remplace pas une vraie comparaison par usage, cout et integration.
Le grand repere pour comprendre ce qu'est un modele open-weight.
Equivalent pedagogique : la famille qu'on regarde quand on veut plus d'autonomie technique
Idéal pour : expérimentation, hébergement, fine-tuning, culture open-weight
Modalités : texte et multimodalite selon modele
Point de vigilance : Open-weight ne veut pas dire simple a heberger, ni automatiquement moins cher.
Une plateforme qui melange conversation, code, image et voix.
Equivalent pedagogique : un ecosysteme produit tres transversal, plus qu'un simple chatbot
Idéal pour : veille marché, expérimentation produit, code, image, voix
Modalités : texte, image, voix, code, media selon API
Point de vigilance : Il faut distinguer la communication marketing, les API reelles et les versions disponibles.
Une des grandes familles chinoises a enseigner absolument.
Equivalent pedagogique : un immense ecosysteme qui couvre premium, rapide, omni, image et creatif
Idéal pour : texte, agents, omnimodal, image, studio visuel, grande volumetrie
Modalités : texte, image, omni, voix, creatif selon modele
Point de vigilance : Il faut separer la gamme Qwen texte de la gamme Wan creative et verifier l'environnement d'acces.
Une famille complete pour texte, flash, image et video.
Equivalent pedagogique : le grand systeme chinois qui relie LLM, image et video sous une meme maison
Idéal pour : texte, code, rapidité, image, video, agents
Modalités : texte, image, video, embeddings selon modele
Point de vigilance : GLM, CogVideo et CogView ne jouent pas le meme role : il faut comparer par modalite.
Le bon cas d'ecole pour comprendre qualite, vitesse et migrations.
Equivalent pedagogique : une famille qui montre tres bien comment le marche remplace ses propres versions
Idéal pour : raisonnement, code, usages techniques, veille produit
Modalités : texte et raisonnement
Point de vigilance : Les docs officielles signalent aussi des migrations et retraits : il faut lire le cycle de vie.
Une famille chinoise tres interessante pour le code et les outils.
Equivalent pedagogique : le voisin a surveiller quand on compare les ateliers de developpement et assistants experts
Idéal pour : code, agents, outils, assistants de production, vision selon surface
Modalités : texte, code, vision selon modele
Point de vigilance : Kimi existe en plusieurs generations : il faut regarder la version, pas seulement la marque.
Une famille qui rappelle qu'un acteur peut couvrir presque tout le spectre creatif.
Equivalent pedagogique : un studio IA complet qui relie texte, voix, musique, image et video
Idéal pour : multimédia, agents, narration, voix, musique, image, vidéo
Modalités : texte, image, video, speech, music
Point de vigilance : Il faut comparer chaque modalite separement, car un bon modele texte n'est pas forcement le meilleur en audio.
Le rappel que les clouds chinois construisent des ecosystems complets, pas un seul modele isolé.
Equivalent pedagogique : de grandes usines IA reliees au cloud, a la creation media et a l'entreprise
Idéal pour : écosystèmes cloud, multimodalité, image, vidéo, traduction, 3D
Modalités : texte, image, video, 3D, traduction, embeddings
Point de vigilance : Ici plus qu'ailleurs, il faut separer la plateforme cloud, la famille texte et les outils creatifs.