Inventer > L’intelligence artificielle de Google est capable de mieux lire sur les lèvres qu’un humain

Written by WeDemain• 24 novembre 2016• 14 h 49 min• Inventer

L’intelligence artificielle de Google est capable de mieux lire sur les lèvres qu’un humain

Des scientifiques de l’Université d’Oxford et de DeepMind, la filiale de Google dédiée à l’intelligence artificielle, ont développé une IA capable de convertir comme jamais les mouvements des lèvres en texte.

Le 24/11/2016 par WeDemain

Des scientifiques de l'Université d'Oxford et de DeepMind, la filiale de Google dédiée à l'intelligence artificielle, ont développé une IA capable de convertir comme jamais les mouvements des lèvres en texte.

L'intelligence artificielle de Google est capable de mieux lire sur les lèvres qu'un humain

Et si, demain, les machines savaient lire sur les lèvres des humains ? Si pour l’heure, ce sont surtout les malentendants qui s’entraînent à la lecture labiale, à base de cours par exemple, les multinationales de l’informatique y travaillent depuis longtemps.

Alors qu’un humain expérimenté dans la lecture labiale est capable de reconnaître une phrase dans 52,3 % des cas, des chercheurs de l’Université d’Oxford affirmaient début novembre que leur intelligence artificielle, elle, parvenait à une moyenne de 93 %. Son nom : LipNet, un logiciel qui arriverait presque, selon eux, à retranscrire la parole d’un interlocuteur en temps réel… Mais qui n’aurait été testé “que” sur des séquences pré-enregistrées, avec des volontaires prononçant des phrases très formelles.

Jeudi 24 novembre, un autre groupe de chercheurs de l’Université d’Oxford, qui travaille en partenariat avec le département IA (intelligence artificielle) de la filiale de Google DeepMind, a annoncé avoir réussi à créer un logiciel encore plus performant : le “logiciel de lecture labiale le plus précis du monde”, selon le média de technologie en ligne The Verge .

118 000 phrases et 17 500 mots

Grâce à des milliers d’heures de séquences télévisées de la chaîne britannique BBC, les scientifiques ont créé un réseau artificiel de neurones capable de sous-titrer des vidéos avec une précision de 46,8 %. Un chiffre qui semble dérisoire… Sauf que devant les mêmes images, un professionnel de lecture labiale humain a, lui, seulement réussi à détecter le mot juste dans 12,4 % des cas. Le tout, rappelons-le, face à des images bien plus compliquées à décrypter que celles analysées par le programme LipNet.

En effet, le logiciel de DeepMind, baptisé Watch, Listen, Attend and Spell (Regarder, écouter, assister et épeler) a été confronté à des conversations “naturelles”, issues de débats politiques non scénarisés pour l’occasion. Dans le détail, ce sont plus de 5 000 heures d’émissions télévisées de la BBC (dont Newsnight, Question Time, World Today) qui ont été utilisées pour développer le logiciel. Au total, 118 000 phrases différentes et 17 500 mots uniques constituent sa base de données. LipNet, lui, n’en compte que 51.

Des applications nombreuses

Selon les chercheurs du projet, les applications de ce logiciel sont nombreuses. Par exemple, il pourrait aider les personnes malentendantes à mieux comprendre les conversations. Mais aussi être utilisé pour sous-titrer des films muets, ou permettre de mieux contrôler des assistants de reconnaissance vocale tels que les programmes Siri d’Apple, Cortona (Microsofot), Google Assistant ou Alexa (Amazon)… en prononçant ses mots à une caméra. Voire en les chuchotant ou en les mimant, ce qui peut s’avérer pratique en public.

Mais ces prouesses technologiques soulèvent aussi de nouvelles questions éthiques. Qu’adviendrait-il si de tels logiciels de reconnaissance labiale étaient utilisés à des fins de surveillance ?

À LIRE AUSSI : Intelligence artificielle : deux ordinateurs ont communiqué dans une langue inconnue

A lire aussi :

Nos partenaires :

La Région Occitanie innove et accueille en résidence une philosophe
Depuis janvier 2024, la philosophe Gabrielle Halpern a pris ses quartiers à la Cité de l’économie et des métiers de demain en Occitanie. Objectif ? Réfléchir sur les défis à venir en promouvant l’hybridation des savoirs et des pratiques.
Les Napoleons : au-delà des sommets
Cette communauté de décideurs et d'acteurs du changement (innovation, environnement, social) organise, chaque année, deux sommets pour favoriser la collaboration et le partage d'idées novatrices. L'occasion aussi de proposer une plateforme pour les penseurs avant-gardistes et, ainsi, inspirer la transition.
“Plus de 1000 start-up françaises sont aujourd’hui des entreprises à impact”
DG de France Digitale, collectif de 2 000 start-up, Maya Noël est la marraine 2024 du Prix Entreprendre pour demain créé par la Fondation Sopra Steria- Institut de France et qui met en avant des start-up qui font sens. Le thème de cette édition ? "Une Tech responsable au service de l’environnement et de la solidarité."

L’intelligence artificielle de Google est capable de mieux lire sur les lèvres qu’un humain

A lire aussi :

Catégories :

Nos partenaires :

La Région Occitanie innove et accueille en résidence une philosophe

Les Napoleons : au-delà des sommets

“Plus de 1000 start-up françaises sont aujourd’hui des entreprises à impact”

A lire aussi :

L’IA à toutes les sauces : les 5 grandes tendances technologiques à suivre en 2025

Vers une IA plus juste et respectueuse : l’apprentissage fédéré pour lutter contre les biais

Le futur des services publics : vers plus d’efficacité et d’humanité grâce à l’IA ?