IA générative

Où les chatbots d'IA puisent-ils leurs connaissances ?

de Tristan Gaudiaut,

11 mai 2023

L'intelligence artificielle

Contrairement à la perception que l'on pourrait avoir, les chatbots d'IA (ou robots conversationnels) actuellement disponibles, comme ChatGPT d'OpenAI ou Bard de Google, ne sont pas à proprement parler intelligents et ne possèdent pas de conscience propre. Les grands modèles de langage (LLM) sur lesquels ils s'appuient sont entraînés à partir d'informations déjà disponibles sur Internet. Ces connaissances sont ensuite restituées de façon à ce que le résultat résiste à un test de probabilité considérant tous les codes du langage naturel (orthographe, syntaxe, grammaire, etc.). Notre graphique, basé sur une étude publiée par le Washington Post, montre les sources d'informations les plus couramment utilisées.

Le journal américain a analysé, en collaboration avec l'Allen Institute for AI, le corpus C4 publié par Google, une immense base de données regroupant 15 millions de sites web qui sont utilisés pour entraîner des IA. Ils ont ensuite pu déterminer la répartition des "tokens" par source, c'est-à-dire la provenance des éléments de texte contenus dans le corpus. Avec 0,46 % du contenu, le moteur de recherche de brevets de Google, "patents.google.com", représente la plus grande part. Cette plateforme indexe les brevets et demandes de brevet provenant du monde entier depuis 2006 et en regroupe aujourd'hui plus de 120 millions.

En deuxième position, on trouve "wikipedia.org" avec une part de 0,19 % du contenu, suivi de "scribd.com" avec 0,07 %. Ce dernier interpelle notamment en ce qui concerne le respect des droits d'auteur pour les textes générés par l'IA. Alors que les contenus de Wikipédia sont placés sous licences Creative Commons et sont diffusables librement, Scribd est un site de partage de documents en ligne sur lequel de nombreuses œuvres protégées ont été téléchargées. Plusieurs organes de presse tels que le New York Times, le Guardian et Forbes figurent également dans le top 10. Il est important de souligner que l'analyse du Washington Post ne prétend pas à l'exhaustivité ou à une exacte représentativité, car aucun modèle d'IA n'est entraîné sur la base d'un seul et unique corpus de données.

Alors que la réglementation et la législation en matière d'IA est plutôt à la traîne jusqu'à présent, certaines autorités nationales et internationales ont commencé à s'activer dans cette direction. L'Italie a été la première à agir : estimant qu'OpenAI avait enfreint le RGPD avec ChatGPT, le pays a décidé de bloquer son accès fin mars jusqu'à ce que la société se remette en règle. Dans l'Union européenne, les États membres discutent actuellement de l'introduction de l'AI Act, qui doit créer un cadre juridique transnational pour l'utilisation de l'IA dans l'UE.

Description

Ce graphique indique les sources d'informations les plus utilisées pour l'entraînement des chatbots d'IA (en % du contenu dans le corpus C4 de Google).

Téléchargement de graphiques

Avis sur l'impact de l'intelligence artificielle sur la médecine en France 2023

Chiffre d'affaires du marché de l'intelligence artificielle dans le monde 2021-2030

Sentiments des Français sur le développement de l'intelligence artificielle en 2023

Sites d'intelligence artificielle les plus visités dans le monde 2022-2023

Principaux pays déposant des brevets en intelligence artificielle 2021

Impact de l'intelligence artificielle sur votre travail selon les Français 2023

Infographies en lien

Loi sur les marchés numériques

Deepfakes

Marchés financiers

Internet

Internet

Semi-conducteurs

Vous avez d'autres questions ?
Nous serons ravis d'y répondre !

Contactez nous !
C’est facile, rapide, et nous serions ravis de vous aider !

Comment nous contacter

Vous pouvez utiliser notre formulaire de contact ou consulter notre FAQ.
Vous pouvez également vous adresser directement à notre service clients.

Votre contact à la Salle de presse infographique

Claire Jenik

Data Journalist