Où les chatbots d'IA puisent-ils leurs connaissances ?

IA générative

Contrairement à la perception que l'on pourrait avoir, les chatbots d'IA (ou robots conversationnels) actuellement disponibles, comme ChatGPT d'OpenAI ou Bard de Google, ne sont pas à proprement parler intelligents et ne possèdent pas de conscience propre. Les grands modèles de langage (LLM) sur lesquels ils s'appuient sont entraînés à partir d'informations déjà disponibles sur Internet. Ces connaissances sont ensuite restituées de façon à ce que le résultat résiste à un test de probabilité considérant tous les codes du langage naturel (orthographe, syntaxe, grammaire, etc.). Notre graphique, basé sur une étude publiée par le Washington Post, montre les sources d'informations les plus couramment utilisées.

Le journal américain a analysé, en collaboration avec l'Allen Institute for AI, le corpus C4 publié par Google, une immense base de données regroupant 15 millions de sites web qui sont utilisés pour entraîner des IA. Ils ont ensuite pu déterminer la répartition des "tokens" par source, c'est-à-dire la provenance des éléments de texte contenus dans le corpus. Avec 0,46 % du contenu, le moteur de recherche de brevets de Google, "patents.google.com", représente la plus grande part. Cette plateforme indexe les brevets et demandes de brevet provenant du monde entier depuis 2006 et en regroupe aujourd'hui plus de 120 millions.

En deuxième position, on trouve "wikipedia.org" avec une part de 0,19 % du contenu, suivi de "scribd.com" avec 0,07 %. Ce dernier interpelle notamment en ce qui concerne le respect des droits d'auteur pour les textes générés par l'IA. Alors que les contenus de Wikipédia sont placés sous licences Creative Commons et sont diffusables librement, Scribd est un site de partage de documents en ligne sur lequel de nombreuses œuvres protégées ont été téléchargées. Plusieurs organes de presse tels que le New York Times, le Guardian et Forbes figurent également dans le top 10. Il est important de souligner que l'analyse du Washington Post ne prétend pas à l'exhaustivité ou à une exacte représentativité, car aucun modèle d'IA n'est entraîné sur la base d'un seul et unique corpus de données.

Alors que la réglementation et la législation en matière d'IA est plutôt à la traîne jusqu'à présent, certaines autorités nationales et internationales ont commencé à s'activer dans cette direction. L'Italie a été la première à agir : estimant qu'OpenAI avait enfreint le RGPD avec ChatGPT, le pays a décidé de bloquer son accès fin mars jusqu'à ce que la société se remette en règle. Dans l'Union européenne, les États membres discutent actuellement de l'introduction de l'AI Act, qui doit créer un cadre juridique transnational pour l'utilisation de l'IA dans l'UE.

Infographie: Où les chatbots d'IA puisent-ils leurs connaissances ? | Statista

Description

Ce graphique indique les sources d'informations les plus utilisées pour l'entraînement des chatbots d'IA (en % du contenu dans le corpus C4 de Google).

Signaler

Téléchargement de graphiques

URL à utiliser comme lien de référence:

https://fr.statista.com/infographie/29976/sources-informations-et-connaissances-les-plus-utilisees-par-les-chatbots-ia-selon-la-part-des-tokens-dans-c4-google/

Code HTML pour intégrer un graphique

<a href="https://fr.statista.com/infographie/29976/sources-informations-et-connaissances-les-plus-utilisees-par-les-chatbots-ia-selon-la-part-des-tokens-dans-c4-google/" title="Infographie: Où les chatbots d'IA puisent-ils leurs connaissances ? | Statista"><img src="https://cdn.statcdn.com/Infographic/images/normal/29976.jpeg" alt="Infographie: Où les chatbots d'IA puisent-ils leurs connaissances ? | Statista" width="100%" height="auto" style="width: 100%; height: auto !important; max-width:960px;-ms-interpolation-mode: bicubic;"/></a> Vous trouverez plus d'infographie sur <a href="https://fr.statista.com/graphique-du-jour/">Statista</a>

Nombre de brevets d'intelligence artificielle accordés dans le monde 2010-2022

Chiffre d'affaires du marché de l'intelligence artificielle dans le monde 2021-2030

Sentiments des Français sur le développement de l'intelligence artificielle en 2023

Fréquence d'utilisation de l'IA générative Google Gemini en France 2024

Sites d'intelligence artificielle les plus visités dans le monde 2022-2023

Impact de l'intelligence artificielle sur votre travail selon les Français 2023

Newsletter Infographies

Statista propose des infographies quotidiennes sur des sujets d’actualité couvrant Médias et Société.

Infographies en lien

Automatisation

Marché de l'emploi

Environnement

Économie numérique

Tech

Intelligence artificielle

FAQ

Le « Graphique du Jour » Statista, disponible sous Licence Creative Commons CC BY-ND 3.0, peut être utilisé et posté sur tout site Internet marchand ou personnel ainsi que sur les réseaux sociaux. Un simple lien vers le graphique est à ajouter lors de la publication. Pour l'intégrer, veuillez cliquer sur le code HTML que vous trouverez sous chaque graphique. Plus d'informations
Le « Graphique du Jour » Statista se focalise en ce moment sur deux secteurs: « Média et Technologie », où figurent des statistiques récentes et mises à jour quotidiennement sur les médias, Internet, les télécommunications et l’électronique grand public; « Économie et Société », qui présente des données relatives aux enjeux économiques et politiques actuels ainsi qu’aux domaines du sport et du divertissement.
Pour le contenu individuel et les infographies respectant votre design d'entreprise, visitez notre page d'agence www.statista.design

Vous avez d'autres questions ?
Nous serons ravis d'y répondre !

Contactez nous !
C’est facile, rapide, et nous serions ravis de vous aider !

Comment nous contacter

Vous pouvez utiliser notre formulaire de contact ou consulter notre FAQ.
Vous pouvez également vous adresser directement à notre service clients.

Où les chatbots d'IA puisent-ils leurs connaissances ?

IA générative

Newsletter Infographies