IA & Radio : l’aube des voix de synthèse francophones

lundi 08 janvier 2024 - 01:53

IA & Radio : l’aube des voix de synthèse francophones

Les applications d’intelligence artificielle générative destinées aux radios connaissent une expansion rapide. Certaines sont totalement fonctionnelles, d’autres sont encore perfectibles. Pour autant, explorer dès maintenant ces technologies est une bonne chose. Une fois opérationnelles, elles pourront être intégrées efficacement dans les process des stations.

Depuis ses premières expérimentations dans les années 1930, la synthèse vocale a considérablement évolué, passant de systèmes rudimentaires à des voix quasi-indiscernables de celles humaines. Un progrès marqué par le projet Bell Labs de 1961. L’expérience la plus célèbre de cette période est le chant du titre « Daisy Bell » par un ordinateur IBM 704. Pour la première fois, il est utilisé pour synthétiser une chanson avec des paroles et une mélodie :

En 2024, les pionniers de l’intelligence artificielle générative appliquée au média radio se heurtent à un problème majeur : la qualité inférieure des voix de synthèse francophones par rapport aux voix anglo-saxonnes. Dès qu’il s’agit de faire appel aux voix françaises, le manque de naturel et de nombreuses difficultés de prononciation apparaissent. Hors expérimentations, difficile pour une radio professionnelle de compter sur cette technologie pour créer des contenus en français. Sauf à faire une croix sur la totalité des émotions pourtant essentielles à l’engagement des auditeurs.

Comparées aux voix anglaises, les voix francophones sont à un stade antérieur de développement. En janvier 2024, les principaux fournisseurs de solutions techniques le confirment : pour générer un contenu potentiellement diffusable en français, le temps de production réel rend souvent les voix de synthèse peu intéressantes pour un opérateur à la recherche de rentabilité (et de qualité).

À Paris, depuis novembre 2023, la radio Dance One fait appel à l’intelligence artificielle générative pour produire des interventions d’animateurs de synthèse. En utilisant le système Futuri Audio AI, la volonté d’Antoine Baduel, PDG de la station, est de « se positionner à l’avant-garde sur ces nouvelles technologies ». Objectif atteint. Cependant, la qualité actuelle des voix francophones limite actuellement la communication de la station aux interventions dans la langue de Shakespeare.

Ressources et Investissement

Historiquement, les technologies de synthèse vocale ont profité de plus d’investissements et de développements dans le monde anglophone, en particulier aux États-Unis. Aujourd’hui, cela se traduit par une plus grande quantité de données et de ressources dédiées à l’amélioration de ses voix.

Comparatif évolution IA vs Intelligence Humaine

Comparatif de l’évolution de IA vs Intelligence Humaine.
Source : Contextual AI

En France, Karel Bourgeois est le président de Voice Lab, l’association française de l’industrie VoiceTech. Pour lui, « rattraper le retard, et améliorer les voix françaises, nécessite de grandes quantités de données. En France, les datasets sont peu nombreux et souvent sans licence pour usage commercial, d’où la difficulté à entraîner les intelligences artificielles ». Pour dépasser ces embuches, Voice Lab fait partie des organisations qui cherchent à réunir des milliers d’heures de voix enregistrées, pour nourrir et améliorer des modèles d’intelligences artificielles vocales francophones.

Complexité linguistique

Difficulté supplémentaire : le français, comme d’autres langues romanes, possède une structure phonétique et grammaticale plus complexe à modéliser dans les systèmes de synthèse vocale que l’anglais. Par exemple, le français compte plus de voyelles nasales et une prosodie, une musicalité, plus variée.

Améliorations rapides en vue

Un regard attentif note que les différences de qualité tendent à diminuer : au moment où l’intérêt porté aux langues autres que l’anglais augmente, les technologies de synthèse vocale s’améliorent à grande vitesse. Elles profitent notamment des avancées en apprentissage profond et en traitement du langage naturel.

Qualité des contenus diffusés

Afin de ne pas perdre de temps, tout en permettant aux voix synthétiques de poursuivre leur entraînement, les radios francophones peuvent explorer d’autres applications de l’IA générative. Gageons qu’elles ne commettront pas l’erreur d’économiser quelques voix en les remplaçant trop tôt par leurs substituts encore immatures. Une situation qui rappelle l’importance de maintenir l’équilibre entre exploration, innovation technologique et préservation de la qualité des contenus d’un média plus challengé que jamais.

FF CONSEILS travaille avec les médias pour les aider à développer leurs contenus, audiences et revenus. Contactez-nous dès aujourd’hui !

À lire également
François Fyon - FF CONSEILS

François Fyon,
fondateur, FF CONSEILS

Notre veille des écosystèmes audio est permanente. Nous en partageons une partie ici, prêts à échanger avec vous sur les enjeux qu’elle soulève.

Suivre FF CONSEILS

Nos services

Nos archives

Travaillons ensemble !

Nous accompagnons les stations de radio nationales, régionales, locales, ainsi que les producteurs de contenus pour développer leurs audiences et leurs revenus.

Travaillons ensemble - FF CONSEILS

Retrouvez notre veille dans votre boite mail !