Trois machines très différentes, pas une seule Intermédiaire

La voix : comprendre, parler, cloner

Séparer clairement les trois briques de la voix par IA — comprendre (transcrire), parler (synthèse), cloner — et savoir pourquoi le clonage change la donne (arnaques, consentement).

🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA imite les voix » — lire l'histoire →

11 min voixaudiosynthèse vocaleclonage

Je commence Je teste ma compréhension

Pas de jargon Compréhensible vite

L'onde sonore est découpée en petites tranches de temps et transformée en spectrogramme (image des fréquences).

Comprendre : un modèle lit ce spectrogramme et décode les mots, token après token.

Parler : on prédit un spectrogramme à partir du texte, puis un vocodeur le transforme en onde sonore réelle.

1. Je découvre une version simple et imagée

2. Je comprends le vrai mécanisme sans jargon inutile

3. Je m'entraîne avec un mini quiz immédiat

4. Je retiens les points clés à réexpliquer

Le son devient une image, puis des mots (ou l'inverse)

Le son est découpé en tranches de temps et transformé en image de fréquences (spectrogramme).
Pour comprendre : un modèle lit cette image et prédit les mots.
Pour parler : on fait le chemin inverse, et un « vocodeur » fabrique l'onde sonore.

Ce qu'il faut retenir : trois fonctions distinctes, qu'on confond souvent sous le mot « voix ».

Sous le capot

Pour les curieux : ce qui se passe à l'intérieur

Tape pour explorer Replier

Le dessin de vagues

La voix devient une image

Quand tu parles, ça fait des vagues dans l'air, comme quand tu jettes un caillou dans l'eau. La machine ne peut pas entendre comme toi : alors elle change ces vagues en une image, un peu comme un dessin de montagnes. Plus tu parles fort ou aigu, plus le dessin change. C'est sur ce dessin qu'elle travaille.

Elle écrit tes mots

Comment elle devine ce que tu dis

Une fois que ta voix est devenue une image, la machine regarde l'image petit bout par petit bout et devine quel mot ça fait. Comme toi quand tu reconnais une chanson juste avec le début. Mais s'il y a trop de bruit autour, ou si tu parles tout doucement, elle peut se tromper et écrire un mot rigolo à la place.

Elle parle toute seule

Faire du son à partir d'un texte

Pour parler, la machine fait le contraire : elle prend un texte écrit et fabrique le dessin de vagues, puis elle transforme le dessin en vrai son. C'est comme ça qu'un livre peut se lire tout seul à voix haute. Avant, ces voix faisaient « robot » ; maintenant elles sonnent presque comme une vraie personne.

Le perroquet malin

Imiter une voix, et pourquoi il faut faire attention

Avec un petit bout de la voix de quelqu'un, la machine peut faire semblant d'être cette personne. Notre âne IA a essayé d'imiter ton papa… mais il faisait surtout « hi-han ! ». Les vraies machines, elles, y arrivent. Du coup, si une voix au téléphone te demande quelque chose de bizarre, il faut toujours vérifier avec un grand.

Le spectrogramme

Pourquoi on transforme le son en image

Une onde sonore brute, c'est compliqué à analyser directement. Alors on la découpe en mini-tranches de temps (genre 20 millisecondes) et on calcule, pour chaque tranche, quelles fréquences sont présentes. Ça donne une image : le temps en horizontal, les graves en bas, les aigus en haut. Ce spectrogramme, c'est le vrai terrain de jeu des modèles de voix.

Whisper

Transcrire, c'est prédire les mots probables

Un modèle comme Whisper lit le spectrogramme et sort le texte le plus probable, un morceau à la fois, exactement comme un modèle de texte prédit le mot suivant. Il gère plusieurs langues et pas mal de bruit. Mais attention : sur un silence ou un bruit ambigu, il peut carrément inventer une phrase. Une transcription n'est donc jamais une vérité garantie.

Le vocodeur

La pièce qui refabrique le son

En synthèse, le modèle prédit d'abord un spectrogramme à partir du texte. Mais un spectrogramme, ça ne s'écoute pas : c'est juste une image. C'est le vocodeur (comme HiFi-GAN) qui reconstruit l'onde sonore réelle à partir de cette image. Sans lui, tu aurais le dessin du son mais aucun son. C'est lui, en grande partie, qui rend les voix naturelles aujourd'hui.

Clonage et consentement

Une voix ne prouve plus qui parle

Pour cloner, un encodeur capture le « timbre » d'une voix (sa couleur unique) en quelques secondes, et la synthèse l'applique à n'importe quel texte. Des outils comme ElevenLabs le font très bien. Le souci : un extrait trouvé sur tes réseaux peut suffire. D'où le réflexe à garder : si « un proche » t'appelle pour réclamer de l'argent en urgence, raccroche et rappelle son vrai numéro. Une voix n'est plus une preuve.

Spectrogramme

Le son devient une image

L'onde brute est découpée en trames de ~20-25 ms qui se chevauchent, puis chaque trame est décomposée en fréquences. On obtient un spectrogramme : une image où le temps est en abscisse et les fréquences en ordonnée. C'est sur cette image, pas sur l'onde brute, que travaillent la plupart des modèles.

Comprendre

Whisper et la transcription

Un modèle comme Whisper encode le spectrogramme puis décode une séquence de tokens texte, comme un LLM prédit le mot suivant. Il gère le bruit et plusieurs langues, mais peut « halluciner » du texte sur un silence ou un bruit ambigu — une limite réelle, pas un détail.

Parler

Le vocodeur fabrique l'onde

En synthèse, un modèle acoustique prédit un mel-spectrogramme à partir du texte, puis un vocodeur neuronal (HiFi-GAN, WaveNet) reconstruit l'onde sonore réelle, souvent à 22-24 kHz. Sans vocodeur, on aurait une image du son mais rien à écouter. La prosodie (rythme, intonation) fait toute la différence entre une voix robotique et une voix naturelle.

Cloner

Quelques secondes suffisent

Un encodeur de locuteur extrait une empreinte du timbre à partir d'un court échantillon, qui conditionne ensuite la synthèse. Des outils comme ElevenLabs clonent une voix avec très peu d'audio. C'est ce qui rend les « arnaques au faux appel » possibles : la voix d'un proche, reproduite, sert à réclamer de l'argent en urgence.

L'image mentale

L'analogie qui aide à retenir

Comprendre, c'est écouter et écrire. Parler, c'est lire à voix haute. Imiter, c'est faire semblant d'avoir la voix de quelqu'un d'autre.

Comprendre, c'est lire une partition. Parler, c'est jouer la partition. Cloner, c'est régler l'instrument pour qu'il sonne comme la voix de quelqu'un.

Comprendre lit la partition, parler la joue, cloner règle l'instrument pour qu'il sonne comme une voix précise.

À retenir

Le coeur de l'idée

La machine sait écouter ta voix, parler à voix haute, et même imiter une voix. Trois choses différentes !

« La voix par IA », c'est trois trucs différents : comprendre, parler, et cloner. Et une voix ne prouve plus qui est au bout du fil.

Séparer les trois briques : STT (son → texte), TTS (texte → son via vocodeur), clonage (timbre capturé en quelques secondes). La prosodie fait le naturel ; le clonage fait le risque.

Comment ça marche

Le mécanisme, découpé étape par étape

Ta voix, c'est une vague de son qui sort de ta bouche.

La machine change cette vague en une image, comme un dessin de vagues.

Pour écrire tes mots, elle lit le dessin et devine ce que tu as dit.

Pour parler, elle fait l'inverse : elle fabrique la vague de son à partir d'un texte.

Le micro capte ta voix sous forme d'onde, que la machine découpe en tranches de temps.

Chaque tranche devient une image de fréquences : le spectrogramme.

Pour transcrire, un modèle (genre Whisper) lit ce spectrogramme et prédit les mots.

Pour parler, on fait l'inverse : du texte vers un spectrogramme, puis un « vocodeur » fabrique le vrai son.

L'onde est échantillonnée (souvent 16 kHz), fenêtrée en trames de ~20-25 ms, puis convertie en spectrogramme (mel).

Reconnaissance (STT) : un modèle encodeur-décodeur comme Whisper encode le spectrogramme et décode des tokens texte.

Synthèse (TTS) : un modèle acoustique prédit un mel-spectrogramme, puis un vocodeur neuronal (HiFi-GAN) reconstruit l'onde à ~22-24 kHz.

Clonage : un encodeur de locuteur extrait une empreinte de timbre en quelques secondes, qui conditionne la synthèse.

Exemples très concrets

Où tu retrouves ça dans le monde réel

Tape pour explorer Replier

Tu parles à la tablette et elle écrit tout seul ce que tu dis.

Un livre qui se lit à voix haute tout seul, sans personne pour le lire.

Avec un petit bout de ta voix, la machine peut faire semblant d'être toi.

Les sous-titres auto qui s'écrivent pendant que tu parles dans une story.

Une appli qui lit tes messages à voix haute avec une voix hyper naturelle.

Une arnaque où une voix « clonée » d'un proche réclame de l'argent en urgence au téléphone.

Transcription multilingue d'une réunion avec Whisper, puis extraction des décisions.

Lecture d'un article avec une voix naturelle via un TTS (ElevenLabs, OpenAI TTS).

Fraude « au président » ou « au proche » utilisant une voix clonée à partir d'un extrait public.

Points de vigilance

Ce qu'il ne faut pas confondre

Tape pour explorer Replier

S'il y a beaucoup de bruit, elle se trompe sur tes mots.

Elle peut imiter une voix, alors une voix au téléphone ne prouve rien.

Parfois elle écrit des mots que tu n'as même pas dits.

La transcription rate sur le bruit, les accents marqués et quand plusieurs personnes parlent ensemble.

La synthèse peut se tromper d'intonation : une question lue comme une affirmation, par exemple.

Le clonage pose un vrai souci de consentement : imiter une voix sans l'accord de la personne, c'est trompeur.

STT : précision dégradée par le bruit, les accents, le jargon, les voix superposées ; hallucinations possibles sur silence.

TTS : la prosodie (intonation, accentuation, noms propres) reste un point faible perceptible.

Clonage : enjeu de consentement et risque d'usurpation ; reproduire une voix sans accord peut être illégal.

Sécurité : ne jamais valider un paiement ou un secret sur la seule reconnaissance vocale au téléphone.

Mythes vs réalité

Remplace les fausses idées par les bonnes

On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.

Ce qu'on imagine

On croit que la machine a des oreilles comme toi.

Ce qu'il faut garder

En vrai, non. Elle change le son en image et travaille sur l'image.

Ce qu'on imagine

On croit que si on entend une voix, c'est forcément la bonne personne.

Ce qu'il faut garder

En vrai, non. La machine peut imiter la voix de quelqu'un. Il faut toujours vérifier.

Ce qu'on imagine

« Comprendre et parler, c'est la même techno. »

Ce qu'il faut garder

Non. L'une va du son vers le texte, l'autre du texte vers le son : deux chemins inverses.

Ce qu'on imagine

« Si j'entends sa voix, c'est forcément lui. »

Ce qu'il faut garder

Faux. Une voix peut être clonée avec quelques secondes d'audio. Vérifie par un autre moyen.

Ce qu'on imagine

« Les sous-titres auto sont toujours justes. »

Ce qu'il faut garder

Non. Le bruit, les accents et le jargon les font dérailler, et ça peut même inventer du texte.

Ce qu'on imagine

« Reconnaissance et synthèse, c'est le même modèle. »

Ce qu'il faut garder

Non. Ce sont deux pipelines opposés, avec des architectures distinctes, plus une troisième brique pour le clonage.

Ce qu'on imagine

« Une voix authentifie son émetteur. »

Ce qu'il faut garder

Faux. Le clonage à partir de quelques secondes d'audio rend les faux appels crédibles : il faut un second facteur.

Ce qu'on imagine

« Whisper transcrit sans jamais se tromper. »

Ce qu'il faut garder

Non. Il peut halluciner du texte sur un silence ou un bruit, et chute sur accents, jargon et chevauchements.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

La vague de son

Ta voix devient un dessin de vagues.

Elle écoute

Elle écrit les mots que tu dis.

Elle parle

Elle lit un texte à voix haute.

Elle imite

Elle peut faire semblant d'être quelqu'un.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Le spectrogramme

Le son devient une image de fréquences.

Comprendre

Le modèle lit l'image et prédit les mots.

Le vocodeur

Il refabrique l'onde sonore à partir de l'image.

Cloner = risque

Quelques secondes suffisent pour imiter une voix.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Spectrogramme

Le son est traité comme une image temps-fréquence (mel).

STT vs TTS

Deux pipelines inverses : son→texte et texte→son.

Vocodeur

Reconstruit l'onde brute à partir du spectrogramme prédit.

Clonage

Empreinte de timbre en secondes : une voix ne prouve plus l'identité.

🫏 L'IA du Zéro🧑 Ado

Ma carte mémo

La voix : comprendre, parler, cloner

À la fin, ce sont ces idées qui doivent rester

Le spectrogrammeLe son devient une image de fréquences.
ComprendreLe modèle lit l'image et prédit les mots.
Le vocodeurIl refabrique l'onde sonore à partir de l'image.
Cloner = risqueQuelques secondes suffisent pour imiter une voix.

iaduzero.fr — Comprendre l'IA, de zéro à expert 🇫🇷

Questions fréquentes

Les questions qu'on se pose souvent

Des réponses courtes et claires, sans jargon, pour lever les doutes.

C'est quoi un spectrogramme ?

Une image du son : le temps en horizontal, les fréquences en vertical. La plupart des modèles de voix travaillent sur cette image plutôt que sur l'onde brute.

Quelle différence entre comprendre et parler ?

Comprendre (speech-to-text) va du son vers les mots. Parler (text-to-speech) va des mots vers le son. Ce sont deux chemins inverses, avec des modèles différents.

Combien d'audio faut-il pour cloner une voix ?

Très peu : quelques secondes suffisent avec les outils récents pour capturer le timbre d'une personne. C'est ce qui rend le clonage à la fois utile et risqué.

Comment se protéger d'une arnaque au faux appel ?

Ne jamais valider un paiement ou un secret sur la seule voix. Rappeler la personne sur son numéro connu, poser une question que seul elle saurait, ou convenir d'un mot de passe familial.

Continuer le parcours

La suite, pensée comme une montée en compréhension

On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.

Voir la fiche

Le multimodal : texte, image, son

Pour replacer la voix dans le cadre plus large des entrées son/image/texte.

Suite 1

Voir la fiche

Sécurité des systèmes IA

Parce que le clonage de voix est un risque d'usurpation et d'arnaque (Niveau 3).

Suite 2

Voir la fiche

Vérifier une réponse de l'IA

Pour garder le réflexe de douter et de vérifier, voix comprise.

Suite 3