Inventer  > L’intelligence artificielle de Google est capable de mieux lire sur les lèvres qu’un humain

Written by 14 h 49 min Inventer

L’intelligence artificielle de Google est capable de mieux lire sur les lèvres qu’un humain

Des scientifiques de l’Université d’Oxford et de DeepMind, la filiale de Google dédiée à l’intelligence artificielle, ont développé une IA capable de convertir comme jamais les mouvements des lèvres en texte.

Le 24/11/2016 par WeDemain
Des scientifiques de l'Université d'Oxford et de DeepMind, la filiale de Google dédiée à l'intelligence artificielle, ont développé une IA capable de convertir comme jamais les mouvements des lèvres en texte.
Des scientifiques de l'Université d'Oxford et de DeepMind, la filiale de Google dédiée à l'intelligence artificielle, ont développé une IA capable de convertir comme jamais les mouvements des lèvres en texte.

Et si, demain, les machines savaient lire sur les lèvres des humains ? Si pour l’heure, ce sont surtout les malentendants qui s’entraînent à la lecture labiale, à base de cours par exemple, les multinationales de l’informatique y travaillent depuis longtemps.

Alors qu’un humain expérimenté dans la lecture labiale est capable de reconnaître une phrase dans 52,3 % des cas, des chercheurs de l’Université d’Oxford affirmaient début novembre que leur intelligence artificielle, elle, parvenait à une moyenne de 93 %. Son nom : LipNet, un logiciel qui arriverait presque, selon eux, à retranscrire la parole d’un interlocuteur en temps réel… Mais qui n’aurait été testé “que” sur des séquences pré-enregistrées, avec des volontaires prononçant des phrases très formelles.

Jeudi 24 novembre, un autre groupe de chercheurs de l’Université d’Oxford, qui travaille en partenariat avec le département IA (intelligence artificielle) de la filiale de Google DeepMind, a annoncé avoir réussi à créer un logiciel encore plus performant : le “logiciel de lecture labiale le plus précis du monde”, selon le média de technologie en ligne The Verge .

118 000 phrases et 17 500 mots

​Grâce à des milliers d’heures de séquences télévisées de la chaîne britannique BBC, les scientifiques ont créé un réseau artificiel de neurones capable de sous-titrer des vidéos avec une précision de 46,8 %. Un chiffre qui semble dérisoire… Sauf que devant les mêmes images, un professionnel de lecture labiale humain a, lui, seulement réussi à détecter le mot juste dans 12,4 % des cas. Le tout, rappelons-le, face à des images bien plus compliquées à décrypter que celles analysées par le programme LipNet.

En effet, le logiciel de DeepMind, baptisé Watch, Listen, Attend and Spell (Regarder, écouter, assister et épeler) a été confronté à des conversations “naturelles”, issues de débats politiques non scénarisés pour l’occasion. Dans le détail, ce sont plus de 5 000 heures d’émissions télévisées de la BBC (dont Newsnight, Question Time, World Today) qui ont été utilisées pour développer le logiciel. Au total, 118 000 phrases différentes et 17 500 mots uniques constituent sa base de données. LipNet, lui, n’en compte que 51.

Des applications nombreuses

Selon les chercheurs du projet, les applications de ce logiciel sont nombreuses. Par exemple, il pourrait aider les personnes malentendantes à mieux comprendre les conversations. Mais aussi être utilisé pour sous-titrer des films muets, ou permettre de mieux contrôler des assistants de reconnaissance vocale tels que les programmes Siri d’Apple, Cortona (Microsofot), Google Assistant ou Alexa (Amazon)… en prononçant ses mots à une caméra. Voire en les chuchotant ou en les mimant, ce qui peut s’avérer pratique en public.

Mais ces prouesses technologiques soulèvent aussi de nouvelles questions éthiques. Qu’adviendrait-il si de tels logiciels de reconnaissance labiale étaient utilisés à des fins de surveillance ?

A lire aussi :