Partager la publication "Big Science, le super traducteur plus inclusif et écolo que Google"
Faire mieux que Google en matière de langues et de traduction : voilà l’immense défi du projet Big Science. Lancé le 28 avril 2021, ce projet est porté par plus de 250 chercheurs issus de laboratoires et d’entreprises d’une dizaine de pays. Notamment le CNRS, Renault, Ubisoft, Airbus, Facebook ou encore Orange.
Précisément, l’objectif de Big Science est de développer ce qu’on appelle “un modèle de langues”. C’est à dire un programme qui maitrise la grammaire, la syntaxe, et dispose d’un vocabulaire énorme. Et ce dans huit langues. Parmi elles, le français, l’anglais ou diverses langues africaines. Une sorte de supertraducteur qui dépasserait les capacités des outils de Google. Mais aussi d’OpenIA, utilisé par Microsoft. Cet outil se veut également open source, plus neutre et plus écolo.
Pour cela, les chercheurs s’appuient sur le supercalculateur français Jean Zay, installé à Orsay. Ce dernier dispose d’une puissance de calcul de 29 millions de milliards d’opérations par seconde. Mi-avril, le Genci (Grand équipement national de calcul intensif)) et l’Idris (Institut du développement et des ressources en informatique scientifique du CNRS) ont donné leur accord pour mettre à disposition 5 millions d’heures de calcul. C’est-à-dire environ un quart des capacités de Jean Zay.
La machine permettrait de développer le langage, la grammaire, la syntaxe ou encore le vocabulaire de l’IA en un an. Celle-ci pourrait notamment être utilisée dans le domaine de la traduction, mais aussi pour des chatbots ou des jeux vidéo.
De cette façon, le projet espère contrer la “mainmise” des géants de la tech sur ce type de technologies. Les fondateurs pointent notamment du doigt les problèmes éthiques que ce cette “mainmise” engendre. Ils citent par exemple “l’anglo-centrisme” de ces technologies, la non-représentativité des populations, ou encore la prédominance de stéréotypes de genre.
À lire aussi : 10 innovations qui pourraient révolutionner le monde de demain
BigScience se veut donc plus inclusif. Grâce notamment à un “corpus d’apprentissage mieux contrôlé, avec notamment la correction de différents biais de langue et de genre”, précise Le Monde.
L’utilisation du système de Jean Zay permet également de répondre au problème de la forte consommation énergétique des supercaculateurs les plus utilisés et les plus puissants que sont Switch-C (Google) et GPT-3 (OpenIA). “Jean Zay est un champion de l’efficacité énergétique”, souligne le CNRS. En effet, la machine française dispose d’une technologie de refroidissement à l’eau tiède. Les calories sont récupérées pour chauffer un bâtiment du CNRS et bientôt l’Université de Paris-Saclay.
“L’initiative [BigScience, ndlr] est aussi une réaction au fait que les gros modèles développés par les entreprises du numérique se posent ces questions (écologiques ou éthiques, ndlr) a posteriori. Nous ferons d’abord la liste des questions, puis le modèle pour y répondre”, explique Thomas Wolf, à l’initiative du projet et directeur scientifique de la start-up américaine HuggingFace (fournisseur open-source de technologies de traitement du langage naturel), au journal Le Monde.
L’atelier de recherche devrait durer un an. Les premiers résultats, eux, sont attendus pour le mois de juillet.
C'est loin des 1 000 milliards espérés mais c'est toujours mieux qu'une absence d'accord. La COP29…
Réduire sa consommation de viande pour préserver la planète : une idée qui séduit un…
Le biomimétisme, ou l'art d'innover en s'inspirant du vivant, offre des solutions aussi ingénieuses qu'économes…
Cofondateur de la marque de vêtements techniques Lagoped, Christophe Cordonnier défend l'adoption de l'Éco-Score dans…
Chaque année, comme un rituel bien huilé, le Black Friday déferle dans nos newsletters, les…
Fondé par une femme, Jay Graber, le réseau social Bluesky compte plus de 20 millions…