Les voix de l'IA sont difficiles à repérer, même si vous savez que l'audio pourrait être un deepfake

L’audio Deepfake peut tromper les gens même s’ils savent qu’ils pourraient entendre une voix générée par l’IA – les détecteurs alimentés par l’IA devront peut-être intensifier leurs efforts pour aider les gens à distinguer les deepfakes de la parole humaine authentique.

Par Jeremy Hsu

2 août 2023

Pourriez-vous savoir si vous écoutiez une voix générée par l’IA ?

Shutterstock/fizkes

Même lorsque les gens savent qu’ils écoutent des paroles générées par l’IA, il reste difficile pour les locuteurs de l’anglais et du mandarin de détecter de manière fiable une voix profondément fausse. Cela signifie que des milliards de personnes qui comprennent les langues les plus parlées au monde sont potentiellement en danger lorsqu'elles sont exposées à des escroqueries ou à des informations erronées.

Kimberly Mai de l'University College London et ses collègues ont mis plus de 500 personnes au défi d'identifier les deepfakes parmi plusieurs clips audio. Certains clips contenaient la voix authentique d’une locutrice lisant des phrases génériques en anglais ou en mandarin, tandis que d’autres étaient des deepfakes créés par des IA génératives entraînées sur les voix féminines.

En savoir plus:

Le béton de stockage d'énergie pourrait constituer la base des maisons alimentées à l'énergie solaire

Les participants à l’étude ont été répartis au hasard dans deux configurations expérimentales différentes. Un groupe a écouté 20 échantillons de voix dans leur langue maternelle et a dû décider si les clips étaient réels ou faux.

Les gens ont correctement classé les deepfakes et les voix authentiques environ 70 % du temps pour les échantillons de voix en anglais et en mandarin. Cela suggère que la détection humaine des deepfakes dans la vie réelle sera probablement encore pire, car la plupart des gens ne sauront pas nécessairement à l'avance qu'ils pourraient entendre des paroles générées par l'IA.

Un deuxième groupe a reçu 20 paires de clips audio choisis au hasard. Chaque paire comportait la même phrase prononcée par un humain et le deepfake, et les participants étaient invités à signaler le faux. Cela a augmenté la précision de la détection à plus de 85 pour cent – même si l’équipe a reconnu que ce scénario donnait aux auditeurs un avantage irréaliste.

Inscrivez-vous à notre newsletter Le Quotidien

Les dernières nouvelles scientifiques livrées chaque jour dans votre boîte de réception.

"Cette configuration n'est pas complètement représentative des scénarios réels", explique Mai. "Les auditeurs ne sauraient pas à l'avance si ce qu'ils écoutent est réel, et des facteurs tels que le sexe et l'âge de l'orateur pourraient affecter les performances de détection."

L'étude n'a pas non plus mis les auditeurs au défi d'identifier si les deepfakes ressemblent ou non à la personne cible imitée, explique Hany Farid de l'Université de Californie à Berkeley. Identifier la voix authentique de certains locuteurs est important dans des scénarios réels : des escrocs ont cloné les voix de chefs d'entreprise pour inciter les employés à transférer de l'argent, et des campagnes de désinformation ont mis en ligne des deepfakes d'hommes politiques bien connus sur les réseaux sociaux.

En savoir plus:

La soie d'araignée artificielle pourrait nous aider à récupérer l'eau potable de l'air

Farid a néanmoins décrit ces recherches comme aidant à évaluer dans quelle mesure les deepfakes générés par l’IA « se déplacent à travers l’étrange vallée », imitant le son naturel des voix humaines sans conserver de subtiles différences de parole, qui peuvent sembler étranges aux auditeurs. L’étude fournit une base de référence utile pour les systèmes automatisés de détection des deepfakes, dit-il.

Des tentatives supplémentaires pour former les participants à améliorer leur détection des deepfakes ont généralement échoué. Cela suggère qu’il est important de développer des détecteurs de deepfake basés sur l’IA, explique Mai. Elle et ses collègues cherchent à tester si de grands modèles de langage capables de traiter des données vocales peuvent faire l'affaire.

Référence du journal :