L'onde sonore est découpée en petites tranches de temps et transformée en spectrogramme (image des fréquences).
La voix : comprendre, parler, cloner
Séparer clairement les trois briques de la voix par IA — comprendre (transcrire), parler (synthèse), cloner — et savoir pourquoi le clonage change la donne (arnaques, consentement).
🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA imite les voix » — lire l'histoire →
Comprendre : un modèle lit ce spectrogramme et décode les mots, token après token.
Parler : on prédit un spectrogramme à partir du texte, puis un vocodeur le transforme en onde sonore réelle.
Le son devient une image, puis des mots (ou l'inverse)
- Le son est découpé en tranches de temps et transformé en image de fréquences (spectrogramme).
- Pour comprendre : un modèle lit cette image et prédit les mots.
- Pour parler : on fait le chemin inverse, et un « vocodeur » fabrique l'onde sonore.
Ce qu'il faut retenir : trois fonctions distinctes, qu'on confond souvent sous le mot « voix ».
Sous le capot Pour les curieux : ce qui se passe à l'intérieur
Tape pour explorer Replier
La voix devient une image
Quand tu parles, ça fait des vagues dans l'air, comme quand tu jettes un caillou dans l'eau. La machine ne peut pas entendre comme toi : alors elle change ces vagues en une image, un peu comme un dessin de montagnes. Plus tu parles fort ou aigu, plus le dessin change. C'est sur ce dessin qu'elle travaille.
Comment elle devine ce que tu dis
Une fois que ta voix est devenue une image, la machine regarde l'image petit bout par petit bout et devine quel mot ça fait. Comme toi quand tu reconnais une chanson juste avec le début. Mais s'il y a trop de bruit autour, ou si tu parles tout doucement, elle peut se tromper et écrire un mot rigolo à la place.
Faire du son à partir d'un texte
Pour parler, la machine fait le contraire : elle prend un texte écrit et fabrique le dessin de vagues, puis elle transforme le dessin en vrai son. C'est comme ça qu'un livre peut se lire tout seul à voix haute. Avant, ces voix faisaient « robot » ; maintenant elles sonnent presque comme une vraie personne.
Imiter une voix, et pourquoi il faut faire attention
Avec un petit bout de la voix de quelqu'un, la machine peut faire semblant d'être cette personne. Notre âne IA a essayé d'imiter ton papa… mais il faisait surtout « hi-han ! ». Les vraies machines, elles, y arrivent. Du coup, si une voix au téléphone te demande quelque chose de bizarre, il faut toujours vérifier avec un grand.
Pourquoi on transforme le son en image
Une onde sonore brute, c'est compliqué à analyser directement. Alors on la découpe en mini-tranches de temps (genre 20 millisecondes) et on calcule, pour chaque tranche, quelles fréquences sont présentes. Ça donne une image : le temps en horizontal, les graves en bas, les aigus en haut. Ce spectrogramme, c'est le vrai terrain de jeu des modèles de voix.
Transcrire, c'est prédire les mots probables
Un modèle comme Whisper lit le spectrogramme et sort le texte le plus probable, un morceau à la fois, exactement comme un modèle de texte prédit le mot suivant. Il gère plusieurs langues et pas mal de bruit. Mais attention : sur un silence ou un bruit ambigu, il peut carrément inventer une phrase. Une transcription n'est donc jamais une vérité garantie.
La pièce qui refabrique le son
En synthèse, le modèle prédit d'abord un spectrogramme à partir du texte. Mais un spectrogramme, ça ne s'écoute pas : c'est juste une image. C'est le vocodeur (comme HiFi-GAN) qui reconstruit l'onde sonore réelle à partir de cette image. Sans lui, tu aurais le dessin du son mais aucun son. C'est lui, en grande partie, qui rend les voix naturelles aujourd'hui.
Une voix ne prouve plus qui parle
Pour cloner, un encodeur capture le « timbre » d'une voix (sa couleur unique) en quelques secondes, et la synthèse l'applique à n'importe quel texte. Des outils comme ElevenLabs le font très bien. Le souci : un extrait trouvé sur tes réseaux peut suffire. D'où le réflexe à garder : si « un proche » t'appelle pour réclamer de l'argent en urgence, raccroche et rappelle son vrai numéro. Une voix n'est plus une preuve.
Le son devient une image
L'onde brute est découpée en trames de ~20-25 ms qui se chevauchent, puis chaque trame est décomposée en fréquences. On obtient un spectrogramme : une image où le temps est en abscisse et les fréquences en ordonnée. C'est sur cette image, pas sur l'onde brute, que travaillent la plupart des modèles.
Whisper et la transcription
Un modèle comme Whisper encode le spectrogramme puis décode une séquence de tokens texte, comme un LLM prédit le mot suivant. Il gère le bruit et plusieurs langues, mais peut « halluciner » du texte sur un silence ou un bruit ambigu — une limite réelle, pas un détail.
Le vocodeur fabrique l'onde
En synthèse, un modèle acoustique prédit un mel-spectrogramme à partir du texte, puis un vocodeur neuronal (HiFi-GAN, WaveNet) reconstruit l'onde sonore réelle, souvent à 22-24 kHz. Sans vocodeur, on aurait une image du son mais rien à écouter. La prosodie (rythme, intonation) fait toute la différence entre une voix robotique et une voix naturelle.
Quelques secondes suffisent
Un encodeur de locuteur extrait une empreinte du timbre à partir d'un court échantillon, qui conditionne ensuite la synthèse. Des outils comme ElevenLabs clonent une voix avec très peu d'audio. C'est ce qui rend les « arnaques au faux appel » possibles : la voix d'un proche, reproduite, sert à réclamer de l'argent en urgence.
L'analogie qui aide à retenir
Comprendre, c'est écouter et écrire. Parler, c'est lire à voix haute. Imiter, c'est faire semblant d'avoir la voix de quelqu'un d'autre.
Comprendre, c'est lire une partition. Parler, c'est jouer la partition. Cloner, c'est régler l'instrument pour qu'il sonne comme la voix de quelqu'un.
Comprendre lit la partition, parler la joue, cloner règle l'instrument pour qu'il sonne comme une voix précise.
Le coeur de l'idée
La machine sait écouter ta voix, parler à voix haute, et même imiter une voix. Trois choses différentes !
« La voix par IA », c'est trois trucs différents : comprendre, parler, et cloner. Et une voix ne prouve plus qui est au bout du fil.
Séparer les trois briques : STT (son → texte), TTS (texte → son via vocodeur), clonage (timbre capturé en quelques secondes). La prosodie fait le naturel ; le clonage fait le risque.
Le mécanisme, découpé étape par étape
Ta voix, c'est une vague de son qui sort de ta bouche.
La machine change cette vague en une image, comme un dessin de vagues.
Pour écrire tes mots, elle lit le dessin et devine ce que tu as dit.
Pour parler, elle fait l'inverse : elle fabrique la vague de son à partir d'un texte.
Le micro capte ta voix sous forme d'onde, que la machine découpe en tranches de temps.
Chaque tranche devient une image de fréquences : le spectrogramme.
Pour transcrire, un modèle (genre Whisper) lit ce spectrogramme et prédit les mots.
Pour parler, on fait l'inverse : du texte vers un spectrogramme, puis un « vocodeur » fabrique le vrai son.
L'onde est échantillonnée (souvent 16 kHz), fenêtrée en trames de ~20-25 ms, puis convertie en spectrogramme (mel).
Reconnaissance (STT) : un modèle encodeur-décodeur comme Whisper encode le spectrogramme et décode des tokens texte.
Synthèse (TTS) : un modèle acoustique prédit un mel-spectrogramme, puis un vocodeur neuronal (HiFi-GAN) reconstruit l'onde à ~22-24 kHz.
Clonage : un encodeur de locuteur extrait une empreinte de timbre en quelques secondes, qui conditionne la synthèse.
Exemples très concrets Où tu retrouves ça dans le monde réel
Tape pour explorer Replier
Tu parles à la tablette et elle écrit tout seul ce que tu dis.
Un livre qui se lit à voix haute tout seul, sans personne pour le lire.
Avec un petit bout de ta voix, la machine peut faire semblant d'être toi.
Les sous-titres auto qui s'écrivent pendant que tu parles dans une story.
Une appli qui lit tes messages à voix haute avec une voix hyper naturelle.
Une arnaque où une voix « clonée » d'un proche réclame de l'argent en urgence au téléphone.
Transcription multilingue d'une réunion avec Whisper, puis extraction des décisions.
Lecture d'un article avec une voix naturelle via un TTS (ElevenLabs, OpenAI TTS).
Fraude « au président » ou « au proche » utilisant une voix clonée à partir d'un extrait public.
Points de vigilance Ce qu'il ne faut pas confondre
Tape pour explorer Replier
S'il y a beaucoup de bruit, elle se trompe sur tes mots.
Elle peut imiter une voix, alors une voix au téléphone ne prouve rien.
Parfois elle écrit des mots que tu n'as même pas dits.
La transcription rate sur le bruit, les accents marqués et quand plusieurs personnes parlent ensemble.
La synthèse peut se tromper d'intonation : une question lue comme une affirmation, par exemple.
Le clonage pose un vrai souci de consentement : imiter une voix sans l'accord de la personne, c'est trompeur.
STT : précision dégradée par le bruit, les accents, le jargon, les voix superposées ; hallucinations possibles sur silence.
TTS : la prosodie (intonation, accentuation, noms propres) reste un point faible perceptible.
Clonage : enjeu de consentement et risque d'usurpation ; reproduire une voix sans accord peut être illégal.
Sécurité : ne jamais valider un paiement ou un secret sur la seule reconnaissance vocale au téléphone.
Remplace les fausses idées par les bonnes
On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.
On croit que la machine a des oreilles comme toi.
En vrai, non. Elle change le son en image et travaille sur l'image.
On croit que si on entend une voix, c'est forcément la bonne personne.
En vrai, non. La machine peut imiter la voix de quelqu'un. Il faut toujours vérifier.
« Comprendre et parler, c'est la même techno. »
Non. L'une va du son vers le texte, l'autre du texte vers le son : deux chemins inverses.
« Si j'entends sa voix, c'est forcément lui. »
Faux. Une voix peut être clonée avec quelques secondes d'audio. Vérifie par un autre moyen.
« Les sous-titres auto sont toujours justes. »
Non. Le bruit, les accents et le jargon les font dérailler, et ça peut même inventer du texte.
« Reconnaissance et synthèse, c'est le même modèle. »
Non. Ce sont deux pipelines opposés, avec des architectures distinctes, plus une troisième brique pour le clonage.
« Une voix authentifie son émetteur. »
Faux. Le clonage à partir de quelques secondes d'audio rend les faux appels crédibles : il faut un second facteur.
« Whisper transcrit sans jamais se tromper. »
Non. Il peut halluciner du texte sur un silence ou un bruit, et chute sur accents, jargon et chevauchements.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Ta voix devient un dessin de vagues.
Elle écrit les mots que tu dis.
Elle lit un texte à voix haute.
Elle peut faire semblant d'être quelqu'un.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Le son devient une image de fréquences.
Le modèle lit l'image et prédit les mots.
Il refabrique l'onde sonore à partir de l'image.
Quelques secondes suffisent pour imiter une voix.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Le son est traité comme une image temps-fréquence (mel).
Deux pipelines inverses : son→texte et texte→son.
Reconstruit l'onde brute à partir du spectrogramme prédit.
Empreinte de timbre en secondes : une voix ne prouve plus l'identité.
Les questions qu'on se pose souvent
Des réponses courtes et claires, sans jargon, pour lever les doutes.
C'est quoi un spectrogramme ?
Une image du son : le temps en horizontal, les fréquences en vertical. La plupart des modèles de voix travaillent sur cette image plutôt que sur l'onde brute.
Quelle différence entre comprendre et parler ?
Comprendre (speech-to-text) va du son vers les mots. Parler (text-to-speech) va des mots vers le son. Ce sont deux chemins inverses, avec des modèles différents.
Combien d'audio faut-il pour cloner une voix ?
Très peu : quelques secondes suffisent avec les outils récents pour capturer le timbre d'une personne. C'est ce qui rend le clonage à la fois utile et risqué.
Comment se protéger d'une arnaque au faux appel ?
Ne jamais valider un paiement ou un secret sur la seule voix. Rappeler la personne sur son numéro connu, poser une question que seul elle saurait, ou convenir d'un mot de passe familial.
La suite, pensée comme une montée en compréhension
On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.