Technique sophistiquée de synthèse vocale, le clonage de voix repose, comme beaucoup d’autres formes d’intelligence artificielle actuelles, sur les réseaux neuronaux et l’apprentissage profond (deep learning). Le principe en est simple : un réseau neuronal a été entraîné à faire correspondre des enregistrements vocaux étiquetés avec les textes qu’ils prononcent, entre eux. De là, on peut donner une série d’enregistrements vocaux, puis un texte et l’IA reconstitue l’enregistrement vocal. Il est donc dorénavant possible de cloner une voix à partir d’enregistrements même très brefs, 30 secondes voire moins, même si la qualité s’améliore en fonction de la durée. Pour les personnes atteintes de diverses formes de handicaps, notamment visuels, malvoyants, déficients visuels, aveugles, mais aussi auditifs (surdités, incapacités à distinguer certaines fréquences) et phonatoires (incapacité à émettre des sons, à cause de troubles neurologiques ou de problèmes du système phonatoire), les IA de synthèse vocale et de clonage vocal ouvrent une série de nouvelles opportunités. Ainsi, on peut :
- vocaliser le web : les malvoyants et aveugles ont déjà des lecteurs d’écran, mais ces systèmes présentent des inconvénients : monotonie de la voix, impersonnalité. Avec un web parlant, chaque site, chaque auteur a sa voix, sa personnalité, avec les émotions associées à chaque texte, phrase et mot, à son genre (information, narration, etc.) et à son style ;
- cloner la voix d’une personne incapable de parler, à partir d’enregistrements anciens, pour la rendre capable de parler par synthèse vocale ;
- créer des voix adaptées aux fréquences audibles par les personnes qui n’entendent plus qu’une partie du spectre sonore.
Applications concrètes du clonage vocal dans l’accessibilité audiovisuelle
Les sous-titres et narrations audio personnalisées pour les malvoyants consistent à utiliser des voix clonées pour fournir des vocalisations en fonction de différentes préférences et besoins sensoriels ou cognitifs. Pour les personnes malentendantes ou atteintes de divers formes de troubles de l’audition et de la compréhension du langage, la synthèse vocale permet de réaliser des doublages instantanés dans des fréquences et à des rythmes adaptés. Ces voix spéciales peuvent être disponibles en option dans des logiciels qui se chargent d’interpréter les sous-titres des vidéos. De même, ces voix personnalisées, adaptées à chaque type de handicap, peuvent être intégrées aux assistants vocaux et ainsi permettre une navigation intuitive dans les contenus écrits et audiovisuels.
Les perspectives d’avenir du clonage vocal pour une accessibilité accrue
À l’avenir, il est probable que les grands réseaux et plateformes audiovisuels, comme Youtube, Netflix, Amazon Prime, HBO, etc., proposeront une gamme de voix synthétiques ou clonées pour capter le marché des spectateurs atteints de déficits sensoriels ou cognitifs. Les technologies se développent à la fois dans le sens de l’amélioration de l’intelligibilité et de la diversité des voix clonées, et de leur « naturalité » tant que faire se peut. Dans cette voie, les régulateurs, les créateurs de contenus et les entreprises de l’IA sont amenés à collaborer pour favoriser l’adoption des technologies vocales dans une perspective inclusive. Car rien ne justifie de laisser de côté un pourcentage substantiel des consommateurs de la culture, dans des sociétés vieillissantes où, inexorablement, les déficits sensoriels et neurologiques ne peuvent qu’augmenter.