Les concepteurs de robots tentent petit à petit de les immerger dans notre quotidien. Capables depuis longtemps de réaliser des tâches automatiques, ils sont désormais en mesure d’obéir à des ordres spécifiques. Mais si certains objets connectés sont capables de formuler des phrases ou de répondre à des requêtes, cela se limite souvent à des situations bien spécifiques. Duplex de Google essaie de rendre cette voix plus humaine pour que ses interlocuteurs se sentent plus à l’aise que face à une voix robotisée. Mais comment apprend-on aux robots à parler ?

Duplex, la vedette

Lors de la conférence annuelle des développeurs de l’entreprise en mai dernier, les dirigeants de Google ont révélé de nouvelles fonctionnalités pour ses produits et services. Une nouvelle technologie expérimentale a volé la vedette : Google Duplex. Celle-ci utilise la technologie de reconnaissance vocale automatique de Google, pour interagir avec l’utilisateur, et permet à un robot alimenté par l’intelligence artificielle de réaliser des appels téléphoniques en votre nom.

Le plus incroyable reste le fait que, grâce à WaveNet, un programme génératif basé sur l’intelligence artificielle, Duplex ressemble plus que jamais à une voix humaine, avec des intonations ou des « heu » et des « ah », comme le montre la vidéo ci-dessous, si bien qu’il est difficile de deviner qu’il s’agit en fait d’une machine. Lors d’un appel type, l’IA se présente pour indiquer qu’elle est l’Assistant Google et qu’elle souhaiterait faire une réservation. Elle ajoute ensuite que cet appel sera enregistré. En cas de problème, des opérateurs humains prendront le relais pour terminer la conversation. Selon Google, quatre appels sur cinq peuvent être effectués sans repli humain.

Cet été, Google va faire des tests sur « un ensemble d’utilisateurs testeurs de confiance »Les tests seront divisés en trois phases, pour l’instant uniquement dans trois domaines – auxquels Duplex est formé pour le moment – : d’abord les dates des vacances, ensuite les réservations de restaurant et enfin les rendez-vous chez le coiffeurs. Après s’être concentré sur ces quelques scénarios spécifiques, Google compte bien les étendre davantage. Pour l’instant, Duplex ne fonctionne qu’en anglais, mais Google assure qu’il sera bientôt capable de comprendre d’autres langues.

Mais que se passera-t-il si Duplex a affaire à une autre IA ?

Crédits : Google/YouTube

Les robots se parlent entre eux

De nombreux chercheurs en intelligence artificielle travaillent actuellement sur le langage inter-robots. Ils veulent permettre à plusieurs robots de communiquer afin d’accomplir des tâches en coopération. Ce n’est pas encore une réussite totale, comme l’explique un post de blog d’OpenAI. Les chercheurs du laboratoire d’IA ont donné à des agents 2D des objectifs à accomplir en coopération, requérant de la communication. Les agents 2D (similaires à des robots) essayaient alors différents sons et sélectionnaient ceux leurs permettant de se comprendre, donc de réaliser leur tâche. Ces sons étaient cependant incompréhensibles pour les initiateurs de l’expérience.

Ce même constat a été réalisé par le laboratoire d’IA de Facebook, selon un article de The Independent. Après avoir tenté de faire discuter deux IA en anglais, les responsables de l’expérience l’ont interrompu en constant qu’elles commençaient à inventer leur propre langage.

Chatbots

Qu’en est-il du langage robot-humain ? Avant de plancher sur la question du langage oral, les chercheurs se sont d’abord penché sur celle de l’écrit. L’aboutissement actuel de leur recherche est aujourd’hui symbolisé par les populaires chatbots. Selon l’agence the social client, plus de 33 000 chatbots ont vu le jour sur Messenger entre avril 2016 et janvier 2017, principalement afin de répondre à des questions écrites d’individus. Arte explique que ces services identifient d’abord les différents éléments de la question afin d’en déterminer le sens, puis puisent dans une base de données la réponse adéquate. Concrètement, ils sont capables de se substituer de manière quasi-parfaite à un être humain pour traiter des requêtes simples.

Pour traiter des requêtes plus complexes, les chatbots peuvent s’appuyer sur le deep-learning, une technologie visant à permettre aux machines d’apprendre via des « réseaux de neurones artificiels », comme l’explique Le Monde. Cette innovation a par exemple permis à un programme d’écrire un chapitre inédit d’Harry Potter. Un réseau neuronal est également au cœur de Google Duplex et est entraîné au préalable « avec une base de données de conversations téléphoniques préalablement rendues anonymes », explique Futura Sciences.

Reproduire la voix humaine ?

Cependant communiquer par écrit et parler sont deux actions bien distinctes. L’étape après la génération de texte, pour les scientifiques, est de permettre à un robot de dialoguer à l’oral avec un être humain. Pour l’heure, aucun robot n’est capable de dialoguer de manière complètement fluide avec un être humain, malgré quelques tentatives intéressantes. En attendant ce moment, des scientifiques japonais de la Kagawa University travaillent déjà sur l’humanisation de la voix des robots. Un article d’Ikinamo relate leur expérience : de l’air est propulsé dans une reproduction d’un organe vocal humain. Ensuite, il fait vibrer des simili-cordes vocales, tandis que la « bouche », la « langue » et le « nez » en silicone se modulent de manière à faire sortir un son spécifique. Finalement, des sonorités identiques à celles produites par des êtres humains sont produites et forment des mots en s’assemblant.

Comment humaniser la voix d’un robot ?
Crédits : Sawada Lab/YouTube

Cette expérience inclut une part d’apprentissage autonome par audition de son. Le professeur Sadawa, qui la dirige, explique ainsi que « même si (le robot) entend un son qu’il ne connaît pas, il peut deviner les mouvements nécessaires pour faire ce son. »

En définitive, aucun chercheur n’a encore bâti de concurrent à C3PO. Mais cela se rapproche, car les robots sont désormais capables de générer du texte et d’adapter leur langage aux réactions des humains. En outre, Google Duplex, voix robotique la plus avancée au monde, pourrait bien confirmer tous les espoirs que l’on a placé en elle.

Auteur : Côme Allard de Grandmaison