Utiliser le clonage vocal pour améliorer l’accessibilité des contenus audiovisuels

Technique sophistiquée de synthèse vocale, le clonage de voix repose, comme beaucoup d’autres formes d’intelligence artificielle actuelles, sur les réseaux neuronaux et l’apprentissage profond (deep learning). Le principe en est simple : un réseau neuronal a été entraîné à faire correspondre des enregistrements vocaux étiquetés avec les textes qu’ils prononcent, entre eux. De là, on peut donner une série d’enregistrements vocaux, puis un texte et l’IA reconstitue l’enregistrement vocal. Il est donc dorénavant possible de cloner une voix à partir d’enregistrements même très brefs, 30 secondes voire moins, même si la qualité s’améliore en fonction de la durée. Pour les personnes atteintes de diverses formes de handicaps, notamment visuels, malvoyants, déficients visuels, aveugles, mais aussi auditifs (surdités, incapacités à distinguer certaines fréquences) et phonatoires (incapacité à émettre des sons, à cause de troubles neurologiques ou de problèmes du système phonatoire), les IA de synthèse vocale et de clonage vocal ouvrent une série de nouvelles opportunités. Ainsi, on peut :

vocaliser le web : les malvoyants et aveugles ont déjà des lecteurs d’écran, mais ces systèmes présentent des inconvénients : monotonie de la voix, impersonnalité. Avec un web parlant, chaque site, chaque auteur a sa voix, sa personnalité, avec les émotions associées à chaque texte, phrase et mot, à son genre (information, narration, etc.) et à son style ;
cloner la voix d’une personne incapable de parler, à partir d’enregistrements anciens, pour la rendre capable de parler par synthèse vocale ;
créer des voix adaptées aux fréquences audibles par les personnes qui n’entendent plus qu’une partie du spectre sonore.

Applications concrètes du clonage vocal dans l’accessibilité audiovisuelle

Les sous-titres et narrations audio personnalisées pour les malvoyants consistent à utiliser des voix clonées pour fournir des vocalisations en fonction de différentes préférences et besoins sensoriels ou cognitifs. Pour les personnes malentendantes ou atteintes de divers formes de troubles de l’audition et de la compréhension du langage, la synthèse vocale permet de réaliser des doublages instantanés dans des fréquences et à des rythmes adaptés. Ces voix spéciales peuvent être disponibles en option dans des logiciels qui se chargent d’interpréter les sous-titres des vidéos. De même, ces voix personnalisées, adaptées à chaque type de handicap, peuvent être intégrées aux assistants vocaux et ainsi permettre une navigation intuitive dans les contenus écrits et audiovisuels.

Les perspectives d’avenir du clonage vocal pour une accessibilité accrue

À l’avenir, il est probable que les grands réseaux et plateformes audiovisuels, comme Youtube, Netflix, Amazon Prime, HBO, etc., proposeront une gamme de voix synthétiques ou clonées pour capter le marché des spectateurs atteints de déficits sensoriels ou cognitifs. Les technologies se développent à la fois dans le sens de l’amélioration de l’intelligibilité et de la diversité des voix clonées, et de leur « naturalité » tant que faire se peut. Dans cette voie, les régulateurs, les créateurs de contenus et les entreprises de l’IA sont amenés à collaborer pour favoriser l’adoption des technologies vocales dans une perspective inclusive. Car rien ne justifie de laisser de côté un pourcentage substantiel des consommateurs de la culture, dans des sociétés vieillissantes où, inexorablement, les déficits sensoriels et neurologiques ne peuvent qu’augmenter.

Lucien Favre

Passionné par l'innovation technologique, Lucien Favre est un expert en hi-tech qui se spécialise dans des domaines variés tels que la domotique, les crypto-monnaies, et les nouvelles technologies mobiles. À travers son blog, il partage ses connaissances sur l’évolution du web, des tendances numériques, et des meilleures pratiques pour intégrer la technologie dans notre quotidien. Lucien explore également l'impact des technologies sur les affaires et les opportunités offertes par les plateformes comme YouTube, afin d’accompagner ses lecteurs dans le monde numérique de demain.

Partager sur

Utiliser le clonage vocal pour améliorer l’accessibilité des contenus audiovisuels

Sommaire

Applications concrètes du clonage vocal dans l’accessibilité audiovisuelle

Les perspectives d’avenir du clonage vocal pour une accessibilité accrue

Related Posts

Capsules Vuse : des saveurs irrésistibles et une nicotine ajustable pour chaque vapoteur

CRM : les 5 types de systèmes pour optimiser votre entreprise

Production de films publicitaires : 4 outils innovants pour des rendus exceptionnels

Une montre connectée enfant qui assure sécurité et autonomie

Bloquer un site sur Android : vos solutions pratiques pour plus de sérénité