Du texte aux notes, en jetons Intermédiaire

Comment l'IA crée de la musique

Comprendre comment une IA fabrique une chanson entière à partir d'une simple description, sans baguette magique.

🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA DJ du quartier » — lire l'histoire →

11 min musiqueaudiogénération

Je commence Je teste ma compréhension

Pas de jargon Compréhensible vite

Un encodeur (codec neuronal) découpe le son en jetons audio discrets.

Une description texte et des paroles servent de conditionnement.

Le modèle prédit la suite des jetons audio, jeton après jeton.

1. Je découvre une version simple et imagée

2. Je comprends le vrai mécanisme sans jargon inutile

3. Je m'entraîne avec un mini quiz immédiat

4. Je retiens les points clés à réexpliquer

Le son devient des jetons, comme le texte

Un encodeur découpe le son en « jetons audio » (des codes numériques).
Le modèle devine la suite de jetons à partir de ta description (style, ambiance, paroles).
Un décodeur reconstruit l'onde sonore à partir de ces jetons.

Ce qu'il faut retenir : générer de la musique, c'est prédire la suite de jetons sonores.

Sous le capot

Pour les curieux : ce qui se passe à l'intérieur

Tape pour explorer Replier

Les perles

Le son coupé en petites perles

Une chanson, c'est trop gros pour la machine d'un coup. Alors elle la coupe en tout petits bouts, comme des perles sonores sur un fil. Chaque perle, c'est un mini-morceau de son. La machine adore les perles parce que c'est plus facile de jouer avec des petits bouts qu'avec une grosse chanson entière.

La devinette

Deviner la perle suivante

La machine a écouté énormément de musiques. Du coup, elle est devenue super forte à un jeu : « quelle perle vient après celle-là ? ». C'est comme une comptine que tu connais par cœur : dès que j'en dis le début, tu devines la suite tout seul. L'IA fait pareil avec les perles de son.

Le chef d'orchestre

Tu lui dis ce que tu veux

Avant qu'elle enfile les perles, tu lui donnes la consigne : « une chanson joyeuse de pirates ». C'est toi le chef d'orchestre ! Elle va alors choisir des perles joyeuses de pirates, et pas des perles toutes tristes. Si tu changes la consigne, elle change les perles.

On recolle

Recoller les perles pour entendre

Une fois toutes les perles enfilées dans le bon ordre, une autre machine les recolle pour fabriquer le vrai son que tes oreilles entendent. L'âne IA, lui, met son casque de DJ et crie « IA! IA! house ! » en croyant qu'il a tout fait tout seul. En vrai, c'est juste plein de perles bien rangées.

Codec neuronal

Le son transformé en jetons

Pour manipuler du son, un réseau appelé codec neuronal (comme EnCodec de Meta ou SoundStream de Google) compresse l'onde en une suite de codes numériques : les jetons audio. C'est exactement l'idée des tokens pour le texte, mais appliquée au son. Une fois le son devenu une liste de symboles, un modèle de langage peut le traiter comme une phrase.

Conditionnement

Ta consigne pilote la génération

Ta description (« trap mélancolique, voix auto-tune ») et tes paroles sont encodées et données au modèle comme guide. C'est ce qu'on appelle le conditionnement : le modèle ne génère pas des jetons au hasard, il génère ceux qui collent à ta consigne, un peu comme un prompt oriente une image générée.

Diffusion

L'autre méthode : nettoyer du bruit

Tout n'est pas fait avec des jetons. Une deuxième famille, la diffusion audio, part d'un bruit aléatoire (du grésillement) et le nettoie petit à petit jusqu'à obtenir un son net, guidée par ta description. Stable Audio et Riffusion marchent comme ça. Deux recettes différentes, le même objectif : du son à partir d'une consigne.

Droits et voix

Le vrai débat : à qui appartient le son ?

Ces modèles ont appris sur d'immenses catalogues de musique réelle. En 2024, l'industrie du disque (RIAA) a attaqué Suno et Udio en justice pour ça. Autre point chaud : cloner la voix d'un artiste sans son accord. Avant de publier un morceau IA, le réflexe malin est de te demander sur quoi le modèle s'est entraîné, et qui pourrait avoir des droits dessus.

Jetons audio

Le son devient des codes discrets

Un codec neuronal (EnCodec, SoundStream) apprend à compresser l'onde en une suite de codes entiers, les jetons audio. C'est l'équivalent des tokens du texte : une fois le son devenu une séquence de symboles, un modèle de langage peut le manipuler.

Conditionnement

Le texte et les paroles pilotent la génération

La description de style, d'ambiance et les paroles sont encodées et injectées comme conditionnement. Le modèle ne génère pas n'importe quels jetons : il génère ceux qui collent le mieux à ta consigne, comme un prompt guide une image.

Diffusion audio

L'autre voie : débruiter au lieu de prédire

Plutôt que prédire des jetons un par un, la diffusion part d'un bruit et le nettoie progressivement vers un spectrogramme ou une onde, guidée par le texte (Stable Audio, Riffusion). Deux familles techniques pour un même but : du son à partir d'une consigne.

Stems

Séparer pour pouvoir éditer

Pour rendre le morceau modifiable, certains systèmes produisent ou re-séparent des pistes : voix, batterie, basse, autres. C'est ce qui permet de remixer ou de remplacer un instrument sans tout régénérer.

L'image mentale

L'analogie qui aide à retenir

C'est comme un collier de perles : l'IA enfile des perles de son une par une pour faire une chanson.

C'est comme le clavier prédictif de ton tel, mais au lieu de deviner le mot suivant, il devine le bout de son suivant.

C'est un collier de perles sonores : l'IA enfile des jetons audio dans l'ordre, puis on relit le collier pour entendre le morceau.

À retenir

Le coeur de l'idée

L'IA ne joue pas d'un instrument : elle devine les morceaux de son qui vont ensemble, à partir de ce qu'elle a entendu.

Générer de la musique, c'est découper le son en jetons puis prédire la suite : le même principe que le texte, version audio.

La génération musicale applique au son la recette du texte : tokeniser via un codec neuronal, puis prédire la suite — ou débruiter en diffusion — sous conditionnement.

Comment ça marche

Le mécanisme, découpé étape par étape

L'IA coupe le son en tout petits morceaux, comme des perles sonores.

Elle a écouté des milliers de musiques pour deviner quelle perle vient après.

Tu lui dis ce que tu veux et elle enfile les perles dans le bon ordre.

Une autre machine rassemble les perles pour faire la vraie chanson.

Un encodeur découpe le son en « jetons audio », des codes numériques.

Tu donnes une description (style, ambiance) et parfois des paroles.

Le modèle prédit la suite des jetons, comme un texto qui devine le mot suivant.

Un décodeur reconstruit l'onde sonore pour que tu puisses l'écouter.

Un codec neuronal (EnCodec, SoundStream) compresse l'onde en jetons audio discrets.

Une description textuelle et des paroles alignées servent de conditionnement.

Un transformeur prédit la séquence de jetons, comme un LLM sur du texte.

Un décodeur reconstruit le signal ; la diffusion audio offre une voie alternative (débruitage).

Exemples très concrets

Où tu retrouves ça dans le monde réel

Tape pour explorer Replier

Tu demandes « une chanson rigolote sur les dinosaures » et elle te la chante.

Tu dis « une musique douce pour dormir » et elle fabrique un morceau calme.

L'âne IA s'y croit : « IA! IA! house ! » et il met un casque de DJ trop grand pour lui.

Tu tapes « drill sombre, refrain accrocheur » sur Suno et tu obtiens un son en 30 secondes.

Tu écris tes propres paroles et l'IA les chante dans le style que tu choisis.

Tu demandes les pistes séparées (stems) pour mettre ta voix par-dessus dans un montage.

Suno ou Udio génèrent une piste complète avec voix chantée en quelques secondes.

MusicGen (Meta) produit de l'instrumental conditionné par texte ou mélodie.

Stable Audio et Riffusion illustrent l'approche par diffusion sur spectrogramme.

Points de vigilance

Ce qu'il ne faut pas confondre

Tape pour explorer Replier

Sur une longue chanson, elle peut s'emmêler et faire n'importe quoi.

Elle ne ressent pas la musique, elle ne fait que deviner.

Elle utilise des chansons d'autres gens pour apprendre, et ça pose problème.

Sur un morceau long, la structure (couplet, refrain) peut partir en vrille.

L'originalité est limitée : ça recycle des patterns déjà entendus.

Le réflexe critique : demande-toi sur quelles musiques le modèle a été entraîné, et qui en touche les droits.

Cohérence longue durée fragile : dérive de structure et fins maladroites sur les morceaux étendus.

Originalité bornée par la distribution d'entraînement : recombinaison plutôt que création.

Zone grise juridique majeure : entraînement sur musique protégée et imitation de voix (RIAA vs Suno/Udio, 2024).

Mythes vs réalité

Remplace les fausses idées par les bonnes

On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.

Ce qu'on imagine

On croit que l'IA invente la musique dans sa tête comme un vrai musicien.

Ce qu'il faut garder

En vrai, non. Elle devine les morceaux de son qui vont ensemble, comme un jeu de devinettes.

Ce qu'on imagine

On croit qu'elle fabrique tout toute seule à partir de rien.

Ce qu'il faut garder

En vrai, elle a d'abord écouté plein de musiques faites par des humains.

Ce qu'on imagine

« La musique IA, c'est gratuit et sans danger pour les droits. »

Ce qu'il faut garder

Non. Les modèles ont appris sur des chansons existantes : Suno et Udio sont poursuivis en justice depuis 2024.

Ce qu'on imagine

« Imiter la voix de mon artiste préféré avec l'IA, c'est OK. »

Ce qu'il faut garder

Risqué. Reproduire la voix de quelqu'un sans accord soulève de vraies questions de droits.

Ce qu'on imagine

« Si ça sonne bien, c'est que l'IA a du goût. »

Ce qu'il faut garder

Faux. Elle recombine ce qu'elle a entendu et ne ressent rien : le « goût », c'est ta sélection à toi.

Ce qu'on imagine

« L'IA compose avec une intention artistique. »

Ce qu'il faut garder

Non. Elle maximise la vraisemblance de la suite de jetons d'après son entraînement ; aucune intention ni ressenti.

Ce qu'on imagine

« Pas de copie littérale, donc pas d'enjeu de droits. »

Ce qu'il faut garder

Faux. L'entraînement sur catalogues existants est au cœur des procès RIAA vs Suno et Udio (2024).

Ce qu'on imagine

« Cloner une voix d'artiste est un détail technique. »

Ce qu'il faut garder

C'est un point juridique sensible : droits voisins, droit à la voix, déjà contestés en justice.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Le son en perles

L'IA coupe la musique en tout petits bouts.

Elle devine la suite

Quelle perle vient après quelle perle.

Tu lui dis quoi faire

Tu décris la chanson que tu veux.

On rassemble

À la fin, on relit toutes les perles pour entendre le son.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Le son en jetons

Un codec neuronal transforme l'audio en codes discrets.

Prédire la suite

Le modèle devine le jeton suivant, comme un clavier prédictif.

La consigne guide

Style, ambiance et paroles orientent la génération.

On reconstruit l'onde

Un décodeur retransforme les jetons en vrai son.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Codec neuronal

EnCodec/SoundStream transforment l'onde en jetons discrets.

Prédiction séquentielle

Un transformeur génère la suite des jetons audio.

Conditionnement

Texte et paroles orientent la séquence produite.

Diffusion alternative

Débruiter un spectrogramme/une onde au lieu de prédire des jetons.

🫏 L'IA du Zéro🧑 Ado

Ma carte mémo

Comment l'IA crée de la musique

À la fin, ce sont ces idées qui doivent rester

Le son en jetonsUn codec neuronal transforme l'audio en codes discrets.
Prédire la suiteLe modèle devine le jeton suivant, comme un clavier prédictif.
La consigne guideStyle, ambiance et paroles orientent la génération.
On reconstruit l'ondeUn décodeur retransforme les jetons en vrai son.

iaduzero.fr — Comprendre l'IA, de zéro à expert 🇫🇷

Questions fréquentes

Les questions qu'on se pose souvent

Des réponses courtes et claires, sans jargon, pour lever les doutes.

C'est quoi un « jeton audio » ?

Un petit code numérique produit par un codec neuronal qui compresse le son. C'est l'équivalent, pour l'audio, des tokens utilisés pour le texte.

Suno crée-t-il vraiment une chanson de zéro ?

Il génère une suite de jetons sonores à partir de ta consigne, puis reconstruit l'onde. Il ne copie pas un morceau précis, mais il a appris sur de la musique existante.

Et la diffusion audio, c'est différent ?

Oui. Au lieu de prédire des jetons, la diffusion part d'un bruit et le débruite vers un son, guidée par le texte (Stable Audio, Riffusion). Même but, autre méthode.