Navigation gauche | Contenu | Navigation droite

Réaliser et mettre en oeuvre des services vocaux en dialogue naturel

Le dialogue naturel

Le dialogue naturel est la capacité pour un service automatique de permettre à son utilisateur des interactions proches de celles qu'il aurait avec un humain.

Les services vocaux interactifs sont en général limités par les systèmes à touches actuels, notamment par le nombre de combinaisons possibles conduisant à des arborescences de services parfois complexes, mais aussi par les systèmes utilisant la reconnaissance de parole en mots de commande, du fait de la nécessité pour l'utilisateur de connaître les mots autorisés.  Outre la complexité apparente d'un menu composé de nombreux choix ou d'une longue liste de mots de commande, ce type d'interface impose à l'utilisateur de faire lui-même l'effort d'identifier dans l'organisation du service la branche qui correspond à sa demande.

Des interactions en langue naturelle apportent plus de souplesse et de liberté à l'utilisateur pour exprimer ses requêtes, et permettent également le développement de services vocaux incluant des fonctions complexes ("self-care" par exemple). Ainsi, l'effort d'identification de la branche de service à même de traiter la demande utilisateur est reporté sur la technologie, laissant l'utilisateur simplement exprimer sa demande.

Bien sûr, au sein d'un service, les phases de dialogue ou branches sont de complexités variables et toutes ne requièrent pas le langage naturel. Ainsi, des réponses de type oui/non ne nécessitent pas forcément de prendre en compte des phrases complètes. Pour la saisie de suite de chiffres, l'utilisation des touches DTMF du clavier téléphonique sera plus naturelle et permettra en outre de conserver la confidentialité, dans le cas de code PIN par exemple.
Mettre en œuvre un dialogue naturel econsiste donc à mettre en œuvre les bons niveaux technologiques permettant de maintenir tout au long d'une interaction utilisateur-service la simplicité et l'efficacité.

Le logiciel de France Télécom

Fort d'une expérience de plusieurs années, France Telecom a développé une solution complète pour la conception et la réalisation de services vocaux, incluant la capacité de traiter les interactions en langage naturel. Cette solution intègre un environnement graphique de conception et développement de services ainsi qu'un environnement d'exécution.
Cette solution outille un processus complet de réalisation, et inclut :

Pour la phase de spécification et conception :

    •          un atelier graphique de spécification et de conception détaillée

    •          un atelier graphique de définition et de mise au point de l'interprétation des requêtes des utilisateurs

Pour la phase de développement :

    •          un générateur de code

    •          un outil pour faciliter le codage des parties non générées

    •          la possibilité d'utiliser tout environnement de développement Java

Pour la phase de déploiement et la mise au point de l'application :

    •          un runtime –appelé moteur de phases- exécutant le service ainsi développé

    •          un analyseur sémantique

    •          une base de données des dialogues incluant des outils pour la transcription et l'annotation sémantique des corpus, et la production des données statistiques d'usage.
Les fonctions d'analyse de l'usage constaté lors d'un pilote ou du déploiement facilitent la mise au point du service avec les outils utilisés en phase de conception et développement.

La solution proposée par France Telecom permet de réaliser des services autorisant des interactions par les touches du clavier (DTMF), en reconnaissance de parole en mots de commande ("aide", "commander", etc.), en dialogue naturel ("je veux accéder à mon compte", etc.) ou un mixe des ces différentes possibilités.

Caractéristiques de la solution

La solution est basée sur la recommandation VoiceXML du VoiceXML Forum et du W3C. Le moteur de phases produit donc des pages VoiceXML interprétées par une plate-forme vocale en relation avec l'utilisateur.

Le code exécuté au niveau du serveur d'application est du code Java et comprend à la fois le moteur de phases, l'analyseur sémantique et l'applicatif.

L'architecture de plate-forme requise pour l'exécution des services développés est l'architecture préconisée par le VoiceXML Forum, dite en 3 tiers :

 

La base de données des dialogue peut être hébergée sur l'un des ces serveurs ou sur un serveur tiers. La collecte des traces et des logs se fait automatiquement sur les différents serveurs vocaux et serveurs d'application concernés.

Nous contacter

 

Pour toute question sur ce logiciel, écrivez-nous. N'oubliez pas, dans le message que vous enverrez à France Télécom, de préciser à quel logiciel se rapporte votre demande.

 

© France Télécom - Orange 2012