Clonage vocal en post-production : où c’est utile, où c’est tricheur

Il y a trois mois, doubler une interview de 20 minutes avec deux speakers par clonage vocal IA de qualité premium sans solution cloud, c’était presque impossible. Et même en solution cloud, le résultat pouvait être très incertain. Aujourd’hui la technologie avance très vite et la question n’est plus « est-ce que ça marche ? », mais « où c’est utile, où c’est tricheur ».

Le cas Tikehau Capital : deux speakers, audience internationale

Tikehau Capital nous commande une interview de 20 minutes entre deux dirigeants. Public cible : leurs investisseurs, dont une partie significative hors France. Solution évidente sur le papier : sous-titres. Sauf que regarder 20 minutes d’interview sans entendre la voix réelle des dirigeants, c’est demander à un anglophone un effort cognitif important.

Le brief n’a jamais été de faire croire que les dirigeants parlent anglais parfaitement. Au contraire : la version doublée IA est annoncée clairement, au générique et dans la description. L’objectif est simple. Permettre à l’audience étrangère de consommer le film comme un podcast, au casque, en voiture, en marchant. Plus facile encore qu’avec des sous-titres.

Pourquoi on n’utilise plus ElevenLabs en premier choix

Il y a encore trois mois, ElevenLabs était à peu près la seule solution capable de produire un clone vocal francophone propre en qualité professionnelle. La qualité audio sortie de leur API était au-dessus du marché. Mais elle venait avec un mur de sécurité.

Pour cloner une voix sur ElevenLabs en mode professionnel, il fallait :

  • Faire venir la personne physiquement dans un studio
  • L’enregistrer en direct dans un environnement contrôlé
  • Capturer entre 30 minutes et 2 heures de voix propre sans coupure
  • Passer la validation biométrique côté plateforme

Impossible d’envoyer un enregistrement à distance. Impossible de cloner à partir d’un fichier existant. Logique côté sécurité, fastidieux côté workflow client.

Aujourd’hui, on peut bypass cette sécurité

Des modèles open source fine-tunables localement permettent désormais de cloner une voix à partir d’un enregistrement existant : interview précédente, intervention publique, rushes d’un tournage. Le mur ElevenLabs est contournable.

On comprend que ça puisse faire peur. C’est légitime. Mais en pratique, ça facilite énormément le travail. Un dirigeant basé à l’étranger n’a plus à bloquer une demi-journée pour venir enregistrer 30 minutes de voix dans nos locaux. Cette barrière logistique faisait perdre des projets entiers. Cette technique s’industrialise, et avec elle la possibilité de toucher une audience plus large, plus facilement.

Quelle durée d’enregistrement source pour quel résultat

La contrainte qui reste : la qualité du clone dépend directement du matériel source. Concrètement :

Durée enregistrement source Qualité clone Usage recommandé
10 minutes Acceptable mais pas premium. Des passages restent moins bons, certaines intonations sonnent moins naturelles, il y a un travail de retouche important pour rattraper le rendu Communication interne, démos courtes, contenus à enjeu limité
30 minutes et plus Premium, clone exploitable en production cinéma Interviews longues, films corporate, séries brand content

Pour obtenir un clone vraiment solide, il faut viser 30 minutes de bon enregistrement par speaker. À 10 minutes, le rendu reste utilisable mais on sent que ce n’est pas la voix dans toute sa finesse. Pour du premium, c’est insuffisant.

L’accent français : un bug devenu signature

Avantage moins attendu de ces outils : on peut générer énormément de langues différentes tout en gardant l’accent français. Pour l’authenticité, c’est précieux. Un dirigeant français qui s’adresse à un investisseur anglo-saxon avec un anglais parfaitement neutre sonne faux. Avec un accent français léger, il sonne authentique. C’est lui qui parle, vraiment.

Les modèles modernes savent moduler ce paramètre. Sur Tikehau, c’est ce dosage qui a fait dire au commanditaire « ça leur ressemble vraiment ».

Bien paramétrées, les solutions locales rivalisent avec le cloud

Le réflexe est de penser que le cloud propose toujours mieux. Sur la voix, c’est devenu faux. Les solutions cloud restent bonnes, parfois même meilleures, mais elles sont plus limitantes : sécurité contraignante, dépendance à un tiers, voix qui sort de l’infrastructure.

Bien paramétrés, les modèles locaux produisent une qualité équivalente, voire supérieure. Le compromis : il faut savoir régler. Température, seed, longueur de contexte, gestion des silences. Mal réglé, un modèle local produit du bouillie. Bien réglé, il rend une voix à 95 % du naturel sur 90 % des phrases.

Côté client, il faut comprendre une chose : plus on vise une qualité premium, plus il faut passer du temps dessus. Ça implique de refaire et refaire les enregistrements IA jusqu’à atteindre la qualité très bonne. Avec les solutions locales bien paramétrées, on y arrive. C’est un travail d’orfèvre, phrase par phrase.

Et honnêtement, je n’imagine pas ce que ça sera dans une semaine. Le rythme actuel est hebdomadaire.

Combien de temps ça prend vraiment

Pour Tikehau, deux speakers, version doublée anglais complète : une semaine de travail. Pas tant pour générer l’audio. Quelques heures par voix suffisent une fois le clone réglé. Mais pour boucler la qualité premium, le compte est plus long.

Sur 20 minutes de discours, cela représente entre 200 et 300 phrases à valider une par une. Parfois cinq tentatives sur la même phrase avant la bonne intonation.

On peut réduire ce temps si on dispose dès le départ d’un gros enregistrement de chaque voix, soit 30 minutes par speaker minimum, pour créer un clone solide. La phase qui consomme le projet, c’est la chasse aux 2 % d’imperfections. Pas la génération elle-même.

Doubleurs vs clonage vocal : pas la même technique

Le débat éthique existe. Il mérite d’être posé honnêtement.

Les avantages du clonage sont réels : ça va vite, ça permet de toucher une audience plus rapidement, ça coûte moins cher. Mais ce n’est pas exactement le même travail qu’un doubleur.

Un doubleur professionnel n’imite pas vraiment la voix de la personne qu’il double. Il propose une interprétation. C’est un métier d’acteur, pas de copie. Le clonage vocal IA fait l’inverse : on a vraiment la voix de la personne, ses inflexions, sa respiration. Deux techniques différentes qui répondent à deux besoins différents :

  • Doublage humain : fiction, animation, contenu où l’incarnation prime sur l’identification (films, séries, jeux vidéo)
  • Clonage vocal IA : corporate, interviews, prises de parole où c’est la personne elle-même qu’il faut entendre, dans une langue qu’elle ne maîtrise pas

Ce qu’on fait, ce qu’on refuse

Notre règle interne sur le clonage vocal :

Oui : permettre à une marque, un dirigeant, un expert de toucher une audience non-francophone sans perdre l’identité vocale. Avec mention explicite « doublage IA » au générique.

Non : faire dire à quelqu’un ce qu’il n’a jamais dit. Cloner une voix sans consentement écrit. Camoufler la mention IA dans une notice légale illisible.

La frontière n’est pas dans la technique. Elle est dans la transparence vis-à-vis de l’audience finale.

Et dans trois mois ?

Honnêtement, on ne sait pas. Le rythme des modèles vocaux est devenu hebdomadaire. Ce qui demandait une semaine pour Tikehau il y a un mois en prendra trois jours bientôt. Les contraintes actuelles, 30 minutes d’enregistrement source, paramétrage fin, validation manuelle phrase par phrase, sont en train de fondre.

Ce qui ne change pas, c’est la question du sens. Pourquoi cloner cette voix ? Pour qui ? Sous quelle mention ? C’est cette grille qui décide si l’outil est utile ou tricheur. Pas la technologie elle-même.

Questions fréquentes

Quelle durée d’enregistrement vocal faut-il pour un clone de qualité professionnelle ?

Avec 10 minutes d’enregistrement propre on obtient un clone utilisable, mais clairement pas premium. Quelques passages sonnent moins naturels et il faut compenser en post. Pour de la qualité professionnelle solide, il faut viser 30 minutes par voix minimum. Plus la source est longue et propre, moins le temps de post-production est important.

Faut-il toujours indiquer qu’une voix a été clonée par IA ?

Oui. Chez SIGNS, c’est une condition non négociable. La mention apparaît au générique du film et dans la description de diffusion. L’objectif n’est jamais de faire croire que la personne parle la langue cible. C’est de rendre un contenu accessible à une audience qui ne pourrait pas le consommer autrement, sans tromperie.

Solutions locales ou solutions cloud : laquelle choisir ?

Bien paramétrées, les solutions locales rivalisent désormais avec le cloud, voire le dépassent, et garantissent que la voix ne quitte jamais notre infrastructure. Les solutions cloud restent bonnes, parfois même meilleures, mais plus limitantes côté sécurité et workflow. Le compromis local : il faut savoir régler température, contexte et gestion des silences.

Le clonage vocal remplace-t-il les doubleurs humains ?

Non, ce sont deux métiers différents. Un doubleur n’imite pas vraiment la voix de la personne qu’il double : il propose une interprétation. Avec le clonage vocal on a vraiment la voix exacte. Le clonage sert le corporate, l’interview, la prise de parole d’un dirigeant qui ne parle pas la langue cible. Le doublage humain reste irremplaçable sur la fiction, l’animation et tout contenu où l’incarnation prime sur l’identification.

Combien de temps prend une vidéo de 20 minutes doublée par clonage vocal ?

Pour le projet Tikehau Capital, deux speakers, version anglaise complète : environ une semaine de travail. La génération brute prend quelques heures par voix, le reste est consacré au contrôle qualité phrase par phrase, typiquement 200 à 300 validations sur 20 minutes de discours. Avec 30 minutes d’enregistrement source par speaker disponibles dès le départ, ce temps peut être réduit.

M
Maxime Vaux
Réalisateur & Directeur de Production, Signs
PARTAGER
S I G N S.

Vous avez un projet audiovisuel en tête ?
Discutons-en ensemble.

NOUS CONTACTER
PRÉCÉDENT Ce que chaque ligne de votre… SUIVANT Comment intégrer 30 % d'IA dans…