Base modèles

L'atlas detaille des grandes familles de modeles

Cette page rassemble les grandes familles mondiales qu'un debutant, un ado, un parent ou un professionnel doit au moins savoir reconnaitre.

Le bon réflexe n'est pas 'quel est le meilleur ?' mais 'de quelle famille parle-t-on, pour quel rôle, avec quelles modalités, quelles limites et quelles docs officielles ?'

Atlas mondial
Texte, code, image, video
Version exacte
Comparaison simple

Retour aux ressources Suivre les actus

Sans jargon Visuel d'abord

Comprendre Comparer Appliquer

Repere

Un nom de famille n'est pas une fiche technique

Dire 'Claude', 'GPT' ou 'Qwen' ne suffit pas. Il faut toujours regarder la version exacte, son rôle, sa date et son statut.

Repere

Le meilleur modèle du monde n'existe pas

Un modèle peut être excellent en code, moyen en image, très rapide mais moins profond, ou parfait pour un coût donné.

Repere

Le marché n'est pas seulement américain

La France, l'Europe et surtout la Chine pèsent lourd avec des familles comme Mistral, Qwen, GLM, DeepSeek, Kimi, MiniMax ou Hunyuan.

Repere

Une comparaison utile regarde le rôle, pas le buzz

On compare des sprinteurs entre eux, des cerveaux premium entre eux et des modèles visuels entre eux, pas des objets totalement différents.

Les cerveaux premium

Quand on veut le plus de profondeur possible

C'est la grande table des modèles qu'on appelle pour les tâches difficiles, le raisonnement, les briefs complexes ou les produits haut de gamme.

OpenAI GPT-5.5
Anthropic Claude Fable 5 et Opus 4.8
Google Gemini 3.1 Pro
Mistral Medium 3.5
Qwen-Max
GLM-5.2
DeepSeek-V4-Pro
Grok 4.3
Kimi K2.6
MiniMax-M3

Les sprinteurs economiques

Quand on veut aller vite, souvent et sans trop depenser

Ce sont les modèles qu'on aime pour le volume, la latence basse, les assistants rapides, les premiers jets et les usages industriels à grande échelle.

GPT-5 mini et variantes rapides
Claude Haiku 4.5
Gemini 3.1 Flash-Lite
Qwen-Flash
GLM-4.7-FlashX
DeepSeek-V4-Flash
MiniMax-M2.7-HighSpeed
Doubao lite

Les chefs d'atelier du code

Quand le produit doit lire, ecrire, corriger et orchestrer du code

Ici, on cherche des familles solides en développement, agentic workflows, outils, refactorisation et exécution contrôlée de tâches techniques.

GPT-5.5
Claude Opus 4.8 et Sonnet 4.6
Gemini 3.1 Pro
Mistral Devstral 2 et Medium 3.5
Qwen-Max et la gamme Qwen Coder
GLM-5.2
Kimi K2.7 Code
Grok Build 0.1
DeepSeek-V4-Pro

Les studios visuels

Quand on parle image, video, voix ou live

Cette voie rappelle qu'un modèle texte n'est pas la même chose qu'un générateur d'image, de vidéo ou de voix en temps réel.

GPT Image 2 et GPT-Realtime-2
Gemini 3 Pro Image, Flash Image et Veo 3.1
Qwen-Image 2.0, Qwen-Omni et Wan 2.7
CogView-3-Flash et CogVideoX-3
Grok Imagine et Voice API
Seedream 5.0 et Seedance 2.0
MiniMax image, video, speech et music
Tencent Hunyuan image, multimodal et 3D

Fournisseur par fournisseur

Les familles qu'il faut connaitre pour vraiment lire le marche

Ce panorama reste volontairement pédagogique. Il ne prétend pas être un benchmark absolu, mais un vrai repère de lecture pour reconnaître les acteurs majeurs et leurs rôles.

OpenAI

Etats-Unis

GPT-5.5, GPT-5.4, GPT-5 mini, GPT Image 2, GPT-Realtime-2

Le couteau suisse premium pour texte, code, image et voix.

Equivalent pedagogique : la grande famille generaliste de reference pour produits et assistants

Idéal pour : produits polyvalents, agents, code, voix temps reel, image

Modalités : texte, code, image, voix, outils, temps reel

Point de vigilance : Toujours distinguer la famille GPT, la variante exacte et les deprecations en cours.

GPT-5.5 pour les tâches complexes
GPT Image 2 pour l'image
GPT-Realtime-2 pour la voix et les interactions live

Voir la source officielle

Anthropic

Etats-Unis

Claude Fable 5, Opus 4.8, Sonnet 4.6, Haiku 4.5

Une famille tres lisible pour comprendre premium, equilibre et vitesse.

Equivalent pedagogique : un professeur rigoureux tres fort en travail de fond et assistants de bureau

Idéal pour : rédaction soignée, raisonnement, code, longue lecture, assistants encadrés

Modalités : texte, vision, outils selon surface

Point de vigilance : Anthropic retire souvent des versions intermediaires : il faut verifier le slug exact.

Fable 5 pour le haut de gamme
Sonnet 4.6 pour l'equilibre
Haiku 4.5 pour la rapidite

Voir la source officielle

Google

Etats-Unis

Gemini 3.1 Pro, 2.5 Flash, 3.1 Flash-Lite, Image et Veo 3.1

Une grande famille multimodale pour texte, image, live et video.

Equivalent pedagogique : la gamme qui montre le mieux que l'IA moderne n'est plus seulement du texte

Idéal pour : multimodalité, usages a fort volume, live, image, video, recherche produit

Modalités : texte, image, video, live, embeddings selon modele

Point de vigilance : Il faut distinguer stable, preview, experimental, latest et la surface API exacte.

Gemini 3.1 Pro pour la profondeur
2.5 Flash et 3.1 Flash-Lite pour le debit
Veo 3.1 pour la video

Voir la source officielle

Mistral

France / Europe

Large 3, Medium 3.5, Small 4, Devstral 2, Voxtral

La famille francaise a suivre pour parler IA sans oublier l'Europe.

Equivalent pedagogique : la grande alternative europeenne pour entreprise, code et souverainete

Idéal pour : entreprise, souveraineté, code, documents, voix, usages B2B

Modalités : texte, raisonnement, code, documents, voix selon modele

Point de vigilance : Le mot 'europeen' ne remplace pas une vraie comparaison par usage, cout et integration.

Medium 3.5 pour le coeur de gamme
Devstral 2 pour le dev
Voxtral pour la voix

Voir la source officielle

Llama 4 Scout, Maverick et Behemoth preview

Le grand repere pour comprendre ce qu'est un modele open-weight.

Equivalent pedagogique : la famille qu'on regarde quand on veut plus d'autonomie technique

Idéal pour : expérimentation, hébergement, fine-tuning, culture open-weight

Modalités : texte et multimodalite selon modele

Point de vigilance : Open-weight ne veut pas dire simple a heberger, ni automatiquement moins cher.

Scout pour l'efficacite
Maverick pour la puissance
Behemoth comme horizon de gamme

Voir la source officielle

xAI

Etats-Unis

Grok 4.3, Grok Build 0.1, Imagine et Voice API

Une plateforme qui melange conversation, code, image et voix.

Equivalent pedagogique : un ecosysteme produit tres transversal, plus qu'un simple chatbot

Idéal pour : veille marché, expérimentation produit, code, image, voix

Modalités : texte, image, voix, code, media selon API

Point de vigilance : Il faut distinguer la communication marketing, les API reelles et les versions disponibles.

Grok 4.3 pour la gamme principale
Grok Build pour le developpement
Imagine et Voice pour les usages medias

Voir la source officielle

Alibaba / Qwen

Chine

Qwen3.7-Max, Qwen3.7-Plus, Qwen-Flash, Qwen-Image 2.0, Qwen-Omni, Wan 2.7

Une des grandes familles chinoises a enseigner absolument.

Equivalent pedagogique : un immense ecosysteme qui couvre premium, rapide, omni, image et creatif

Idéal pour : texte, agents, omnimodal, image, studio visuel, grande volumetrie

Modalités : texte, image, omni, voix, creatif selon modele

Point de vigilance : Il faut separer la gamme Qwen texte de la gamme Wan creative et verifier l'environnement d'acces.

Qwen3.7-Max pour le premium
Qwen-Flash pour la vitesse
Wan 2.7 et Qwen-Image 2.0 pour le visuel

Voir la source officielle

Zhipu / GLM

Chine

GLM-5.2, GLM-5.1, GLM-5, GLM-4.7-FlashX, CogVideoX-3, CogView-3-Flash

Une famille complete pour texte, flash, image et video.

Equivalent pedagogique : le grand systeme chinois qui relie LLM, image et video sous une meme maison

Idéal pour : texte, code, rapidité, image, video, agents

Modalités : texte, image, video, embeddings selon modele

Point de vigilance : GLM, CogVideo et CogView ne jouent pas le meme role : il faut comparer par modalite.

GLM-5.2 pour le haut de gamme
GLM-4.7-FlashX pour le debit
CogVideoX-3 et CogView pour le visuel

Voir la source officielle

DeepSeek

Chine

DeepSeek-V4-Pro, DeepSeek-V4-Flash, deepseek-reasoner et deepseek-chat

Le bon cas d'ecole pour comprendre qualite, vitesse et migrations.

Equivalent pedagogique : une famille qui montre tres bien comment le marche remplace ses propres versions

Idéal pour : raisonnement, code, usages techniques, veille produit

Modalités : texte et raisonnement

Point de vigilance : Les docs officielles signalent aussi des migrations et retraits : il faut lire le cycle de vie.

V4-Pro pour la profondeur
V4-Flash pour la vitesse
reasoner et chat comme repères historiques a suivre

Voir la source officielle

Moonshot / Kimi

Chine

Kimi K2.7 Code, Kimi K2.6, Kimi K2.5, Moonshot v1

Une famille chinoise tres interessante pour le code et les outils.

Equivalent pedagogique : le voisin a surveiller quand on compare les ateliers de developpement et assistants experts

Idéal pour : code, agents, outils, assistants de production, vision selon surface

Modalités : texte, code, vision selon modele

Point de vigilance : Kimi existe en plusieurs generations : il faut regarder la version, pas seulement la marque.

K2.7 Code pour le dev
K2.6 pour la gamme principale
Moonshot v1 pour les usages plus legers

Voir la source officielle

MiniMax

Chine

MiniMax-M3, M2.7, M2.5, M2.1 + image, video, speech, music

Une famille qui rappelle qu'un acteur peut couvrir presque tout le spectre creatif.

Equivalent pedagogique : un studio IA complet qui relie texte, voix, musique, image et video

Idéal pour : multimédia, agents, narration, voix, musique, image, vidéo

Modalités : texte, image, video, speech, music

Point de vigilance : Il faut comparer chaque modalite separement, car un bon modele texte n'est pas forcement le meilleur en audio.

M3 pour le premium
M2.7 et M2.5 pour les gammes intermediaires
une couverture multimedia rare

Voir la source officielle

Tencent Hunyuan / Volcengine

Chine

Hunyuan texte, multimodal, image, translation, embeddings, 3D + Doubao, Seedream 5.0, Seedance 2.0

Le rappel que les clouds chinois construisent des ecosystems complets, pas un seul modele isolé.

Equivalent pedagogique : de grandes usines IA reliees au cloud, a la creation media et a l'entreprise

Idéal pour : écosystèmes cloud, multimodalité, image, vidéo, traduction, 3D

Modalités : texte, image, video, 3D, traduction, embeddings

Point de vigilance : Ici plus qu'ailleurs, il faut separer la plateforme cloud, la famille texte et les outils creatifs.

Hunyuan pour l'ecosysteme Tencent
Seedream pour l'image
Seedance pour la video

Voir la source officielle

Axes de comparaison

Quand on compare deux modèles, on regarde au minimum :

famille de modele vs version exacte
qualite de raisonnement
qualite de code
multimodalite
image / video / voix
latence
cout
contexte long
outils et agents
hebergement et open-weight
langues et localisation
controle, garde-fous et deprecations