La voix des marques

Alexa, Google Home, HomePod, Waze…. Comment sont générées ces voix qui nous aident au quotidien ?

“Eloignez-vous de la bordure du quais”. “Je n’ai pas bien compris votre demande”. “Le café le plus proche est à 500 mètres”.  

Ces annonces vous semblent familières ? C’est normal. Les voix utilisées par les marques sont de plus en plus nombreuses et pourtant bien reconnaissables.

Pour la SNCF, pas de voix artificielle.

La même voix accueille et informe les voyageurs depuis 35 ans. Au total, plus de 4 000 heures de messages ont été enregistrées.  Les segments de phrases sont stockés, puis assemblés et restitués informatiquement.

Les assistants personnels en revanche, comme Siri ou Google Assistant, utilisent un procédé différent : la Synthèse vocale.

SIRI

Pour Apple, il s’agit avant tout de trouver une voix qui sera perçue comme étant compatible avec la personnalité Siri.

La première étape consiste donc à trouver des doubleurs. Environ 10 à 20h d’enregistrements sont nécessaires pour analyser, puis synthétiser leur voix. Ces enregistrements sont coupés en blocs puis assemblés pour générer de nouvelles expressions.

Mais le travail le plus délicat reste de faire en sorte que la voix soit perçue le plus naturellement possible et soit aussi humaine que possible. Pour cela, Apple utilise un certain nombre de techniques d'intelligence artificielle, notamment le Deep Learning. La firme américaine a récemment publié ses travaux sur le sujet.

Voici comment nous pouvons résumer leur travaux : 

p(yt|xt; λ) = ΣK k=1αkN (yt; µk, Σk)

Simple non ?

GOOGLE

De son côté, Google vient de dévoiler la nouvelle voix qui remplacera celle de son « assistant personnel » et de Google Traduction. Cette nouvelle technologie, baptisée Tacotron 2, imite la voix humaine à la perfection.

Pour la première fois, l’intelligence artificielle prend donc en charge la ponctuation, les accents, les majuscules ou même le contexte de la phrase pour nuancer sa prononciation.

Google a donc publié des extraits de sa nouvelle voix.

Dans les extraits ci-dessous, une voix est humaine (enregistrée), l’autre artificielle. Mais saurez-vous faire le différence ?!

Extrait 1 : 

Extrait 2 : 

Une voix « trop humaine » ?

Ces nouvelles voix posent une question éthique.

Jusqu’où peut-on aller dans l’imitation de l’humain ? Et surtout, pourquoi ?

Resultats : 

Vidéo 1 : La première voix est humaine, l'autre artificielle 
Vidéo 2 : La première voix est humaine, l'autre artificielle.