banner
Centre d'Information
Service client exceptionnel

Les entreprises d’IA doivent rendre des comptes à propos du grattage de données

Jul 14, 2023

Bonjour et bienvenue sur Eye on AI La semaine dernière, 12 organismes de surveillance de la protection des données du monde entier se sont réunis pour publier une déclaration commune sur le grattage de données et ses effets sur la vie privée.

La déclaration, signée par des responsables de la protection de la vie privée d'Australie, du Canada, du Mexique, de Chine, de Suisse, de Colombie, d'Argentine et du Royaume-Uni, pour n'en nommer que quelques-uns, vise les opérateurs de sites Web, en particulier les sociétés de médias sociaux, et déclare qu'ils ont des obligations en matière de protection des données. et les lois sur la confidentialité pour protéger les informations sur leurs plates-formes contre le grattage illégal de données. Même les informations personnelles accessibles au public sont soumises à ces lois dans la plupart des juridictions, affirme le communiqué. Notamment, la déclaration souligne également que les incidents de grattage de données qui collectent des informations personnelles peuvent constituer des violations de données à signaler dans de nombreuses juridictions.

En plus de publier la déclaration, les auteurs déclarent l'avoir envoyée directement à Alphabet (YouTube), ByteDance (TikTok), Meta (Instagram, Facebook et Threads), Microsoft (LinkedIn), Sina Corp (Weibo) et X Corp. (X, auparavant Twitter). Ils suggèrent également une série de contrôles que ces entreprises devraient mettre en place pour protéger les utilisateurs contre les préjudices associés au grattage de données, notamment la désignation d'une équipe chargée de surveiller et de répondre aux activités de grattage.

Les préjudices potentiels décrits comprennent les cyberattaques, la fraude d'identité, la surveillance, la collecte de renseignements ou de politiques non autorisées, ainsi que le marketing et le spam indésirables. Mais même si l’intelligence artificielle n’est pas mentionnée une seule fois dans la déclaration, elle devient de plus en plus un point chaud majeur dans ce dossier.

En grattant Internet, y compris les informations sur les sites de médias sociaux, c'est exactement ainsi que les puissances de l'IA comme OpenAI, Meta et Google ont obtenu une grande partie des données pour entraîner leurs modèles. Et au cours des dernières semaines, le grattage de données est devenu un champ de bataille majeur dans le nouveau paysage de l’IA. Le New York Times, par exemple, a mis à jour plus tôt ce mois-ci ses conditions d’utilisation pour empêcher l’IA de supprimer son contenu, et l’éditeur envisage désormais de poursuivre OpenAI en justice à ce sujet. Cela fait suite à une proposition de recours collectif contre OpenAI et l'investisseur Microsoft déposée en juin, qui alléguait que la société avait secrètement récupéré les informations personnelles de centaines de millions d'utilisateurs d'Internet sans préavis, consentement ou juste compensation.

Il est extrêmement peu probable qu’une lettre formulée avec force ait un impact sur les activités de ces géants de la technologie, mais des poursuites judiciaires et des réglementations contre le grattage de données pourraient très bien le faire. Dans l’UE, où la réglementation sur la confidentialité des données et désormais sur l’IA évolue assez rapidement, par exemple, le grattage de données est de plus en plus surveillé par les organismes gouvernementaux.

Au cœur de l’IA, il s’agit de données. Cela soulève donc la question suivante : si les entreprises ne sont pas en mesure d'extraire librement des données, où obtiendront-elles les données nécessaires pour entraîner leurs modèles ?

Une option concerne les données synthétiques, qui font référence à des informations générées artificiellement plutôt que créées par des événements du monde réel. Ce processus implique souvent, mais pas toujours, l’utilisation de l’IA elle-même pour créer un vaste ensemble de données synthétiques à partir d’un ensemble plus petit de données du monde réel, les données synthétiques résultantes reflétant les propriétés statistiques des données du monde réel.

Tant que les données originales ne sont pas supprimées, cela pourrait être une solution viable. Gartner estime que les données synthétiques dépasseront les données du monde réel dans les modèles d’IA d’ici 2030. Mais les données synthétiques ont leurs inconvénients. Par exemple, cela peut omettre des valeurs aberrantes, introduire des inexactitudes et, idéalement, impliquer des étapes de vérification supplémentaires qui ralentissent le processus. Et tandis que certaines entreprises prétendent que les données synthétiques éliminent les biais, de nombreux experts réfutent cette affirmation et voient comment certaines formes de données synthétiques peuvent en réalité introduire des biais supplémentaires dans les ensembles de données.

Une autre solution potentielle consiste à inscrire les données de première partie. Contrairement à la façon dont les données du monde réel ont été historiquement récupérées, utilisées sans autorisation et même vendues auprès de sous-utilisateurs, il s'agit de données du monde réel qui sont facultatives et fournies volontairement.