Un encodeur (codec neuronal) découpe le son en jetons audio discrets.
Comment l'IA crée de la musique
Comprendre comment une IA fabrique une chanson entière à partir d'une simple description, sans baguette magique.
🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA DJ du quartier » — lire l'histoire →
Une description texte et des paroles servent de conditionnement.
Le modèle prédit la suite des jetons audio, jeton après jeton.
Le son devient des jetons, comme le texte
- Un encodeur découpe le son en « jetons audio » (des codes numériques).
- Le modèle devine la suite de jetons à partir de ta description (style, ambiance, paroles).
- Un décodeur reconstruit l'onde sonore à partir de ces jetons.
Ce qu'il faut retenir : générer de la musique, c'est prédire la suite de jetons sonores.
Sous le capot Pour les curieux : ce qui se passe à l'intérieur
Tape pour explorer Replier
Le son coupé en petites perles
Une chanson, c'est trop gros pour la machine d'un coup. Alors elle la coupe en tout petits bouts, comme des perles sonores sur un fil. Chaque perle, c'est un mini-morceau de son. La machine adore les perles parce que c'est plus facile de jouer avec des petits bouts qu'avec une grosse chanson entière.
Deviner la perle suivante
La machine a écouté énormément de musiques. Du coup, elle est devenue super forte à un jeu : « quelle perle vient après celle-là ? ». C'est comme une comptine que tu connais par cœur : dès que j'en dis le début, tu devines la suite tout seul. L'IA fait pareil avec les perles de son.
Tu lui dis ce que tu veux
Avant qu'elle enfile les perles, tu lui donnes la consigne : « une chanson joyeuse de pirates ». C'est toi le chef d'orchestre ! Elle va alors choisir des perles joyeuses de pirates, et pas des perles toutes tristes. Si tu changes la consigne, elle change les perles.
Recoller les perles pour entendre
Une fois toutes les perles enfilées dans le bon ordre, une autre machine les recolle pour fabriquer le vrai son que tes oreilles entendent. L'âne IA, lui, met son casque de DJ et crie « IA! IA! house ! » en croyant qu'il a tout fait tout seul. En vrai, c'est juste plein de perles bien rangées.
Le son transformé en jetons
Pour manipuler du son, un réseau appelé codec neuronal (comme EnCodec de Meta ou SoundStream de Google) compresse l'onde en une suite de codes numériques : les jetons audio. C'est exactement l'idée des tokens pour le texte, mais appliquée au son. Une fois le son devenu une liste de symboles, un modèle de langage peut le traiter comme une phrase.
Ta consigne pilote la génération
Ta description (« trap mélancolique, voix auto-tune ») et tes paroles sont encodées et données au modèle comme guide. C'est ce qu'on appelle le conditionnement : le modèle ne génère pas des jetons au hasard, il génère ceux qui collent à ta consigne, un peu comme un prompt oriente une image générée.
L'autre méthode : nettoyer du bruit
Tout n'est pas fait avec des jetons. Une deuxième famille, la diffusion audio, part d'un bruit aléatoire (du grésillement) et le nettoie petit à petit jusqu'à obtenir un son net, guidée par ta description. Stable Audio et Riffusion marchent comme ça. Deux recettes différentes, le même objectif : du son à partir d'une consigne.
Le vrai débat : à qui appartient le son ?
Ces modèles ont appris sur d'immenses catalogues de musique réelle. En 2024, l'industrie du disque (RIAA) a attaqué Suno et Udio en justice pour ça. Autre point chaud : cloner la voix d'un artiste sans son accord. Avant de publier un morceau IA, le réflexe malin est de te demander sur quoi le modèle s'est entraîné, et qui pourrait avoir des droits dessus.
Le son devient des codes discrets
Un codec neuronal (EnCodec, SoundStream) apprend à compresser l'onde en une suite de codes entiers, les jetons audio. C'est l'équivalent des tokens du texte : une fois le son devenu une séquence de symboles, un modèle de langage peut le manipuler.
Le texte et les paroles pilotent la génération
La description de style, d'ambiance et les paroles sont encodées et injectées comme conditionnement. Le modèle ne génère pas n'importe quels jetons : il génère ceux qui collent le mieux à ta consigne, comme un prompt guide une image.
L'autre voie : débruiter au lieu de prédire
Plutôt que prédire des jetons un par un, la diffusion part d'un bruit et le nettoie progressivement vers un spectrogramme ou une onde, guidée par le texte (Stable Audio, Riffusion). Deux familles techniques pour un même but : du son à partir d'une consigne.
Séparer pour pouvoir éditer
Pour rendre le morceau modifiable, certains systèmes produisent ou re-séparent des pistes : voix, batterie, basse, autres. C'est ce qui permet de remixer ou de remplacer un instrument sans tout régénérer.
L'analogie qui aide à retenir
C'est comme un collier de perles : l'IA enfile des perles de son une par une pour faire une chanson.
C'est comme le clavier prédictif de ton tel, mais au lieu de deviner le mot suivant, il devine le bout de son suivant.
C'est un collier de perles sonores : l'IA enfile des jetons audio dans l'ordre, puis on relit le collier pour entendre le morceau.
Le coeur de l'idée
L'IA ne joue pas d'un instrument : elle devine les morceaux de son qui vont ensemble, à partir de ce qu'elle a entendu.
Générer de la musique, c'est découper le son en jetons puis prédire la suite : le même principe que le texte, version audio.
La génération musicale applique au son la recette du texte : tokeniser via un codec neuronal, puis prédire la suite — ou débruiter en diffusion — sous conditionnement.
Le mécanisme, découpé étape par étape
L'IA coupe le son en tout petits morceaux, comme des perles sonores.
Elle a écouté des milliers de musiques pour deviner quelle perle vient après.
Tu lui dis ce que tu veux et elle enfile les perles dans le bon ordre.
Une autre machine rassemble les perles pour faire la vraie chanson.
Un encodeur découpe le son en « jetons audio », des codes numériques.
Tu donnes une description (style, ambiance) et parfois des paroles.
Le modèle prédit la suite des jetons, comme un texto qui devine le mot suivant.
Un décodeur reconstruit l'onde sonore pour que tu puisses l'écouter.
Un codec neuronal (EnCodec, SoundStream) compresse l'onde en jetons audio discrets.
Une description textuelle et des paroles alignées servent de conditionnement.
Un transformeur prédit la séquence de jetons, comme un LLM sur du texte.
Un décodeur reconstruit le signal ; la diffusion audio offre une voie alternative (débruitage).
Exemples très concrets Où tu retrouves ça dans le monde réel
Tape pour explorer Replier
Tu demandes « une chanson rigolote sur les dinosaures » et elle te la chante.
Tu dis « une musique douce pour dormir » et elle fabrique un morceau calme.
L'âne IA s'y croit : « IA! IA! house ! » et il met un casque de DJ trop grand pour lui.
Tu tapes « drill sombre, refrain accrocheur » sur Suno et tu obtiens un son en 30 secondes.
Tu écris tes propres paroles et l'IA les chante dans le style que tu choisis.
Tu demandes les pistes séparées (stems) pour mettre ta voix par-dessus dans un montage.
Suno ou Udio génèrent une piste complète avec voix chantée en quelques secondes.
MusicGen (Meta) produit de l'instrumental conditionné par texte ou mélodie.
Stable Audio et Riffusion illustrent l'approche par diffusion sur spectrogramme.
Points de vigilance Ce qu'il ne faut pas confondre
Tape pour explorer Replier
Sur une longue chanson, elle peut s'emmêler et faire n'importe quoi.
Elle ne ressent pas la musique, elle ne fait que deviner.
Elle utilise des chansons d'autres gens pour apprendre, et ça pose problème.
Sur un morceau long, la structure (couplet, refrain) peut partir en vrille.
L'originalité est limitée : ça recycle des patterns déjà entendus.
Le réflexe critique : demande-toi sur quelles musiques le modèle a été entraîné, et qui en touche les droits.
Cohérence longue durée fragile : dérive de structure et fins maladroites sur les morceaux étendus.
Originalité bornée par la distribution d'entraînement : recombinaison plutôt que création.
Zone grise juridique majeure : entraînement sur musique protégée et imitation de voix (RIAA vs Suno/Udio, 2024).
Remplace les fausses idées par les bonnes
On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.
On croit que l'IA invente la musique dans sa tête comme un vrai musicien.
En vrai, non. Elle devine les morceaux de son qui vont ensemble, comme un jeu de devinettes.
On croit qu'elle fabrique tout toute seule à partir de rien.
En vrai, elle a d'abord écouté plein de musiques faites par des humains.
« La musique IA, c'est gratuit et sans danger pour les droits. »
Non. Les modèles ont appris sur des chansons existantes : Suno et Udio sont poursuivis en justice depuis 2024.
« Imiter la voix de mon artiste préféré avec l'IA, c'est OK. »
Risqué. Reproduire la voix de quelqu'un sans accord soulève de vraies questions de droits.
« Si ça sonne bien, c'est que l'IA a du goût. »
Faux. Elle recombine ce qu'elle a entendu et ne ressent rien : le « goût », c'est ta sélection à toi.
« L'IA compose avec une intention artistique. »
Non. Elle maximise la vraisemblance de la suite de jetons d'après son entraînement ; aucune intention ni ressenti.
« Pas de copie littérale, donc pas d'enjeu de droits. »
Faux. L'entraînement sur catalogues existants est au cœur des procès RIAA vs Suno et Udio (2024).
« Cloner une voix d'artiste est un détail technique. »
C'est un point juridique sensible : droits voisins, droit à la voix, déjà contestés en justice.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
L'IA coupe la musique en tout petits bouts.
Quelle perle vient après quelle perle.
Tu décris la chanson que tu veux.
À la fin, on relit toutes les perles pour entendre le son.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Un codec neuronal transforme l'audio en codes discrets.
Le modèle devine le jeton suivant, comme un clavier prédictif.
Style, ambiance et paroles orientent la génération.
Un décodeur retransforme les jetons en vrai son.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
EnCodec/SoundStream transforment l'onde en jetons discrets.
Un transformeur génère la suite des jetons audio.
Texte et paroles orientent la séquence produite.
Débruiter un spectrogramme/une onde au lieu de prédire des jetons.
Les questions qu'on se pose souvent
Des réponses courtes et claires, sans jargon, pour lever les doutes.
C'est quoi un « jeton audio » ?
Un petit code numérique produit par un codec neuronal qui compresse le son. C'est l'équivalent, pour l'audio, des tokens utilisés pour le texte.
Suno crée-t-il vraiment une chanson de zéro ?
Il génère une suite de jetons sonores à partir de ta consigne, puis reconstruit l'onde. Il ne copie pas un morceau précis, mais il a appris sur de la musique existante.
Et la diffusion audio, c'est différent ?
Oui. Au lieu de prédire des jetons, la diffusion part d'un bruit et le débruite vers un son, guidée par le texte (Stable Audio, Riffusion). Même but, autre méthode.
Peut-on séparer la voix et les instruments ?
Souvent oui : on parle de stems (pistes séparées). Cela permet de remixer ou de remplacer un instrument sans tout régénérer.
La suite, pensée comme une montée en compréhension
On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.