Ah… L’intelligence artificielle ! Mais où les chatbot vont-ils chercher les réponses aux questions qu’on leur pose ? Et leur intelligence justement, d’où vient-elle ? 

Les modèles de langage sur lesquels s’appuient les chatbots (robots conversationnels) d’IA ( intelligence artificielle) sont entraînés à partir d’informations déjà disponibles sur Internet. Ces connaissances sont ensuite restituées de façon à ce que le résultat résiste à un test de probabilité. Sur quels sites web les outils d’IA puisent-ils leurs connaissances ?

L’IA, pas si intelligente que cela ! Ses chatbot font tout le taf !

Contrairement à la perception que l’on pourrait avoir, les chatbots d’IA actuellement disponibles, comme ChatGPT d’OpenAI ou Bard de Google (dont l’intégration dans les services Google a été annoncée à la conférence I/O 2023), ne sont pas à proprement parler intelligents. Ils ne possèdent pas non plus de conscience propre. Les grands modèles de langage (LLM) sur lesquels ils s’appuient sont entraînés à partir d’informations déjà disponibles sur Internet. Ces connaissances sont ensuite restituées de façon à ce que le résultat résiste à un test de probabilité considérant tous les codes du langage naturel (orthographe, syntaxe, grammaire, etc.).

Le Washington Post publie une étude sur les sources d’information des chatbots de l’Intelligence artificielle

Où les chatbot d'IA puisent leurs connaissances ?
Notre graphique, basé sur une étude publiée par le Washington Post, montre les sources d’informations qui sont les plus utilisées. @Statista

Le journal américain a analysé, en collaboration avec l’Allen Institute for AI, le corpus C4 publié par Google. Il s’agit d’une immense base de données regroupant 15 millions de sites web utilisés pour entraîner des IA. Ils ont ensuite pu déterminer la répartition des « tokens » par source, c’est-à-dire la provenance des éléments de texte contenus dans le corpus.

Quelles sont les plus grandes sources d’informations des chatbots les robots conversationnels de l’IA ?

En première position : patent.google.com

Avec 0,46 % du contenu, le moteur de recherche de brevets de Google, « patents.google.com », représente de loin la plus grande part. Cette plateforme indexe les brevets et demandes de brevet provenant du monde entier depuis 2006 et en regroupe aujourd’hui plus de 120 millions.

En deuxième position, on trouve « wikipedia.org »

Avec une part de 0,19 % du contenu, suivi de « scribd.com » avec 0,07 %. Ce dernier interpelle notamment en ce qui concerne le respect des droits d’auteur pour les textes générés par l’IA. Alors que les contenus de Wikipédia se placent  sous licences Creative Commons et se diffusent librement. Scribd est un site de partage de documents en ligne. Nombreuses œuvres protégées sont téléchargées sur lui.

Plusieurs organes de presse tels que le New York Times, le Guardian et Forbes figurent également dans le top 8. Il est important de souligner que l’analyse du Washington Post ne prétend pas à l’exhaustivité. En effet, aucun modèle d’IA n’est entraîné sur la base d’un seul et unique corpus de données.

Alors que la réglementation et la législation en matière d’IA est plutôt à la traîne jusqu’à présent, certaines autorités nationales et internationales ont commencé à s’activer dans cette direction. L’Italie a été la première à agir. stimant qu’OpenAI avait enfreint le RGPD avec ChatGPT, le pays a décidé de bloquer son accès fin mars jusqu’à ce que la société se remette en règle. Dans l’Union européenne, les États membres discutent actuellement de l’introduction de l’AI Act, qui doit créer un cadre juridique transnational pour l’utilisation de l’IA dans l’UE.

Avec ses outils ChatGPT et DALL-E, OpenAI a jusqu’à présent été le principal responsable de l’engouement autour de l’intelligence artificielle. Mais la « hype » pourrait bientôt changer de camp.

 

Merci à Tristan Gaudiaut
Data Journalist Statista

Sur le même sujet

Percipion : ce nouveau logiciel qui prévient la cyber-pédophilie