Scale AI utilise peu | Nantong Woofers Group Co., Ltd

Les plus grands développeurs d'intelligence artificielle de la Silicon Valley ont un problème de langage. Les outils d'IA générative, comme ChatGPT, prospèrent en anglais et en espagnol. Mais les premières recherches montrent que ces mêmes outils sont chroniquement sous-performants dans les langues « à faibles ressources » qui sont moins représentées sur Internet. Aujourd’hui, l’un des plus grands fournisseurs de données de formation semble s’attaquer de front à ce problème.

Scale AI, l'une des sociétés de données de formation les plus importantes de la Silicon Valley, recrute actuellement près de 60 postes de rédacteurs de contrats dans des dizaines de langues. Chaque offre d'emploi affirme que le travail concerne un projet visant à former « des modèles d'intelligence artificielle générative pour devenir de meilleurs écrivains ». Les langues comprennent le haoussa, le pendjabi, le thaï, le lituanien, le persan, le xhosa, le catalan et le zoulou, entre autres. Six offres d'emploi, dans la catégorie « experts », cherchent à embaucher des écrivains spécifiquement pour les langues régionales d'Asie du Sud, notamment l'aKannada, le gujarati, l'ourdou et le telugu.

Il existe d’importantes disparités salariales entre les langues, les langues occidentales étant jusqu’à 15 fois supérieures à celles des pays du Sud. Par exemple, l'offre d'emploi pour les écrivains allemands paie 21,55 $ de l'heure, contre une offre d'emploi pour un expert en telugu qui n'offre que 1,43 $ de l'heure.

De nombreuses langues les moins bien payées sont considérées comme « à faibles ressources », c'est-à-dire des langues qui sont moins couramment disponibles sur Internet, ce qui laisse les modèles d'IA avec des données rares et souvent médiocres. Certaines des langues les plus parlées au monde, comme l’ourdou et le bengali, sont toujours considérées comme à faibles ressources en raison de leur faible présence en ligne. L'utilisation par Scale AI de travailleurs humains pour améliorer les performances linguistiques « à faibles ressources » constitue un changement notable, selon Julian Posada, professeur adjoint à l'Université de Yale et membre du projet de société de l'information de la faculté de droit.

« Vous avez déjà nettoyé tout Internet. Maintenant, vous devez obtenir les données ailleurs », a déclaré Posada au Reste du monde. "Cela pourrait témoigner de la nécessité non pas de données aléatoires que vous pouvez obtenir de 4chan, mais plutôt de données créées par une personne expérimentée."

Selon Dylan Hadfield-Mennell, professeur adjoint d'intelligence artificielle et de prise de décision au Massachusetts Institute of Technology (MIT), il existe quelques explications courantes expliquant pourquoi les systèmes d'IA générative sont si mauvais dans les langages à faibles ressources.

« Une [théorie] est qu'il n'y a pas assez de données non supervisées pour construire de bons modèles de, disons, les modèles linguistiques en bengali », a déclaré Hadfield-Mennell au Reste du monde, soulignant à quel point une langue comme celle-ci est peu représentée sur Internet. Il y a 270 millions de locuteurs natifs du bengali, soit près de 3 % de la population mondiale, mais il n'est utilisé que pour 0,013 % de tous les domaines Web.

Une tâche décrite dans les descriptions d'embauche de Scale AI pourrait consister à tenter de résoudre ce problème : écrire une nouvelle. Demander aux travailleurs des données de produire des écrits créatifs sur un sujet donné dans une langue comme le bengali est un moyen de créer un nouveau corpus de textes numérisés, qui n'est pas lié aux domaines Internet existants.

Selon Posada, l'utilisation de ces histoires originales, qui seraient pour la plupart exemptes de discours de haine et appartenaient entièrement aux développeurs, pourrait avoir l'avantage supplémentaire de réduire le besoin de modération du contenu. Cela pourrait également contribuer à éviter des poursuites potentiellement coûteuses, comme celle envisagée contre OpenAI par le New York Times.

Si la génération de nouvelles données constitue une solution, il est clair que d’autres stratégies sont également en jeu. Une autre tâche dans les offres d’emploi demande aux rédacteurs de « classer une série de réponses produites par un modèle d’IA ».

Pour Hadfield-Mennell, il s’agit d’un exemple clair de RLHF, ou « apprentissage par renforcement à partir de la rétroaction humaine ». RLHF est une technique qui se concentre sur l'affinement des sorties d'un modèle, plutôt que sur la seule modification de ses entrées. Cela aborde une autre théorie courante concernant les raisons pour lesquelles les modèles ont des difficultés avec les langages à faibles ressources. « L'autre possibilité est que vous manquez fondamentalement de retour sur la façon de bien écrire dans ces langues [à faibles ressources] », a-t-il déclaré.