Relever les défis de la désinformation en ligne
Il s’agit d’une transcription de l’IA.
00:00:00:00 - 00:00:38:12
Abigail Acton
C’est CORDIScovery. Bonjour et bienvenue dans cet épisode de CORDIScovery avec moi, Abigail Acton. Vous souvenez-vous de l’époque où vous pouviez surfer sur l’internet en étant sûrs que ce que vous regardiez était probablement fiable? Ou bien suis-je trop vieille? Au fil des ans, il semble que les informations soient de moins en moins dignes de confiance et, avec les fausses informations et les algorithmes biaisés, la désinformation en ligne semble omniprésente.
00:00:38:16 - 00:01:01:02
Abigail Acton
Identifier, suivre et enquêter sur la désinformation en ligne et d’autres contenus problématiques est un défi extrêmement complexe. Ils peuvent mener à des crimes de haine et à d’autres formes de violence, mais de nombreuses autorités policières européennes ne disposent pas d’outils ou de technologies spécialisés pour s’attaquer à ce problème. Comment pouvons-nous donc les aider? En tant qu’individus, comment pouvons-nous savoir si nous sommes manipulés?
00:01:01:07 - 00:01:24:00
Abigail Acton
Nous sommes de plus en plus exposés à la désinformation en ligne, soit de manière passive, à travers les flux des médias sociaux, soit de manière active, en utilisant des moteurs de recherche et des sites web spécifiques qui nous guident vers des sites qui renforcent nos partis pris et construisent des murs de préjugés. Les entreprises s’efforcent d’identifier et de supprimer les sites de fausses informations et de minimiser la diffusion de la désinformation sur les médias sociaux. Mais qu’en est-il des moteurs de recherche eux-mêmes?
00:01:24:05 - 00:01:48:14
Abigail Acton
Les robots d’indexation pourraient-ils constituer un moyen innovant de nous aider à auditer leur activité? La diffusion de la désinformation en ligne menace nos valeurs démocratiques. Face à l’augmentation de la désinformation, l’IA, et les technologies du langage en particulier, jouent un rôle crucial pour la détecter. L’apprentissage automatique et l’IA s’appuient sur de grands modèles de langage. Mais qu’en est-il des langues qui ont une plus petite empreinte en ligne? Celles qui sont moins fréquemment utilisées?
00:01:48:16 - 00:02:14:11
Abigail Acton
Comment renforcer l’IA pour lutter contre la désinformation dans les langues dites «peu dotées»? Pour nous aider à nous y retrouver dans ce labyrinthe, trois chercheurs qui ont tous bénéficié d’un financement scientifique de l’UE. Owen Conlan est membre du Trinity College de Dublin et professeur à l’École d’informatique et de statistiques. Il est également codirecteur du Centre des sciences humaines numériques du Trinity.
00:02:14:13 - 00:02:20:13
Abigail Acton
Owen s’intéresse beaucoup au contrôle par l’utilisateur des systèmes personnalisés pilotés par l’IA. Bonjour, Owen, et bienvenue!
00:02:20:15 - 00:02:21:24
Owen Conlan
Bonjour, Abigail. C’est un plaisir d’être ici.
00:02:22:02 - 00:02:42:03
Abigail Acton
Ravis de vous accueillir. Joana Gonçalves de Sá est chercheuse au laboratoire Nova de sciences informatiques et d’informatique et au laboratoire de physique des particules de Lisbonne, où elle dirige le groupe de recherche sur la physique sociale et la complexité. Elle se concentre sur les biais humains et algorithmiques, en utilisant les fausses informations comme système modèle. Bienvenue, Joana.
00:02:42:09 - 00:02:43:19
Joana Gonçalves de Sá
Merci beaucoup de m’accueillir.
00:02:43:21 - 00:02:59:08
Abigail Acton
Marián Šimko est chercheur expert à l’Institut Kempelen des technologies intelligentes en Slovaquie. Marián se concentre sur le traitement du langage naturel, l’extraction d’informations, le traitement des langues peu dotées et l’interprétabilité des modèles neuronaux. Bienvenue, Marián.
00:02:59:10 - 00:03:00:18
Marián Šimko
Bonjour. Je suis ravi d’être ici.
00:03:00:22 - 00:03:18:18
Abigail Acton
C’est un plaisir de vous recevoir. Owen, je vais d’abord m’adresser à vous. Le projet VIGILANT développe une plateforme intégrée, des outils et des technologies avancés d’identification et d’analyse de la désinformation, en utilisant des méthodes d’IA de pointe. Je sais que vous vous concentrez sur l’IA centrée sur l’humain, Owen, mais pouvez-vous nous expliquer ce que vous entendez par là?
00:03:18:23 - 00:03:41:05
Owen Conlan
Oui, certainement. L’IA centrée sur l’humain tente de comprendre l’interaction symbiotique entre les humains et les systèmes d’IA, et de permettre aux humains et aux utilisateurs d’apprécier la manière dont un agent d’IA travaille en leur nom. Et c’est une chose assez compliquée, parce que vous ne voulez pas entrer dans les détails fondamentaux des algorithmes de convolution, etc.
00:03:41:05 - 00:04:00:24
Owen Conlan
Cela ne sert personne. Mais le revers de la médaille, c’est que vous ne voulez pas d’un agent d’IA qui se contente de dire: «Voici votre réponse» ni d’une solution de type «boîte noire». Où se trouve donc le juste milieu? Ainsi, lorsque nous utilisons l’expression «IA centrée sur l’humain», nous essayons de trouver un moyen personnalisé de montrer à un utilisateur comment un agent d’IA fonctionne en son nom.
00:04:01:05 - 00:04:23:16
Owen Conlan
Montrer quels éléments d’information clés sont utilisés pour générer les réponses et l’illustrer. En ce qui nous concerne, lorsque nous générons des réponses, nous essayons avant tout de mettre en évidence les contenus réellement problématiques auxquels l’utilisateur doit faire attention pour comprendre le contexte d’une recherche ou pour comprendre qu’il s’agit potentiellement de désinformation. Comment donner un sens à tout cela pour l’utilisateur?
00:04:23:19 - 00:04:36:05
Abigail Acton
D’accord. C’est plus clair. Merci. Owen, je sais que vous avez travaillé sur un projet appelé PROVENANCE dans le passé. Il s’agissait d’aider les personnes à s’y retrouver dans ces complexités. Pouvez-vous nous en parler avant de passer à VIGILANT?
00:04:36:07 - 00:05:15:21
Owen Conlan
Absolument. PROVENANCE s’adressait à des utilisateurs ordinaires comme vous et moi, lorsque nous naviguons sur le web, en particulier dans les flux sociaux, afin d’essayer d’illustrer où certains éléments de ces flux sociaux peuvent contenir des signaux problématiques. Qu’est-ce que j’entends par «signaux problématiques»? Je veux dire qu’un langage très émotionnel peut être utilisé dans la présentation de quelque chose qui prétend être une nouvelle ou de quelque chose qui emploie une terminologie qui, nous le savons, peut être très difficile et peut faire référence à différents membres de groupes de la société, ou qui utilise des actifs médiatiques qui, nous le savons, sont utilisés dans d’autres contextes,
00:05:15:23 - 00:05:44:13
Owen Conlan
et semblent maintenant être utilisés dans un contexte très différent. Nous sommes donc très prudents dans cette situation et ne prétendons pas qu’il s’agit de «fausses nouvelles». Nous essayons de montrer qu’il y a potentiellement des problèmes dans la manière dont cela est représenté. Et, dans une certaine mesure, nous laissons l’utilisateur décider. Maintenant, cela ne fonctionne que si vous offrez en même temps à l’utilisateur la possibilité de se former et d’apprendre sur la désinformation, pourquoi elle est déployée, quels types de tropes et de mécanismes sont utilisés pour nous provoquer.
00:05:44:15 - 00:06:22:04
Owen Conlan
La plupart du temps, la désinformation tente de répondre à des déclencheurs émotionnels très forts et nous amène à modifier légèrement nos convictions, qu’il s’agisse des vaccins ou de certains points de vue politiques, etc. PROVENANCE s’est donc penché sur cette question. L’un des éléments clés que nous avons observés était le rôle que jouent nos traits de personnalité dans notre vulnérabilité à la désinformation, ainsi que le rôle que ces traits jouent dans la manière dont nous pouvons intervenir pour permettre à un utilisateur d’interagir avec ces informations d’une manière contrôlée et comprise.
00:06:22:04 - 00:06:44:02
Owen Conlan
Ils ne se contentent donc pas de voir une chose, de croire une chose, ils voient la chose et commencent à se demander si elle est réelle. Toutefois, l’un des défis à relever est de faire en sorte que les personnes puissent encore apprendre qu’il existe un contenu en ligne auquel elles peuvent se fier. Car si ce que nous faisons les amène à remettre en question tout ce qui est fondamental et à ne rien croire, alors tout est une conspiration, et personne ne peut faire confiance à aucun contenu en ligne.
00:06:44:02 - 00:06:46:00
Owen Conlan
Il s’agit donc d’un équilibre délicat à maintenir.
00:06:46:05 - 00:07:02:13
Abigail Acton
Oui, c’est tout à fait vrai. Oui, tout à fait. Oui, je comprends la logique. Super. D’accord. Si nous passions à VIGILANT? Je sais que VIGILANT visait peut-être davantage à fournir des outils aux autorités de police, que nous pourrions appeler AP par la suite. Pouvez-vous nous en dire plus sur le type d’outils créés dans le cadre du projet?
00:07:02:15 - 00:07:32:12
Owen Conlan
Certainement. L’un des défis auxquels sont confrontées les AP est de comprendre quel contenu peut être problématique d’un point de vue pénal, car, comme pour nous tous, il y a tellement de contenu en ligne. Nous devons maintenant être très prudents. Il ne s’agit pas d’une surveillance de masse. C’est le cas lorsqu’un membre du public ou d’autres voies d’enquête concentrent leur attention sur une zone parce qu’ils soupçonnent une activité criminelle dans cette zone.
00:07:32:14 - 00:07:59:07
Owen Conlan
Les activités criminelles dont nous parlons sont souvent des activités extrémistes, des personnes qui tentent d’inciter les membres de la société à agir de manière criminelle et antisociale. Et cela se produit sur des plateformes que nous utilisons tous, peut-être de manière bénigne, mais certaines personnes ne les utilisent pas de manière aussi bénigne. Ainsi, un bon exemple pour nous serait d’illustrer, par exemple, un groupe affirmant faussement quelque chose.
00:07:59:07 - 00:08:17:20
Owen Conlan
C’est là qu’intervient la désinformation. Il pourrait donc y avoir, par exemple, une situation hypothétique. Ils pourraient prétendre qu’une mosquée doit être construite dans une zone très sensible de La Rambla. Ainsi, en fonction de cette affirmation et de la conversation qui nous entoure, il s’agit d’une simple désinformation, ce qui n’est pas illégal en soi.
00:08:17:22 - 00:08:42:01
Owen Conlan
Mais si les personnes commencent à se mobiliser autour d’elle et à planifier une émeute, elle devient alors une activité illégale. Ce que nous proposons à nos policiers, ce sont des outils qui, lorsqu’ils les orientent vers ces zones de suspicion, leur permettent de commencer à récolter et à comprendre le type d’émotions qui sont exprimées. Ce qui est assez étrange pour nous, c’est de constater que certaines émotions auxquelles on ne s’attend pas... Vous pensez que la haine serait un indicateur clé d’un problème, elle l’est certainement,
00:08:42:03 - 00:09:11:23
Owen Conlan
mais le bonheur peut l’être aussi. Les membres de ce groupe sont heureux d’être sur le point de s’organiser et de mettre en œuvre un plan. Nous nous intéressons donc à des entités logiques, des noms, des mots, etc., ainsi qu’à l’émotion et à la confluence de ces éléments, et nous sommes en mesure de les illustrer visuellement. Ainsi, en un coup d’œil, vous pouvez regarder un canal Telegram et comprendre où se trouvent les points chauds, de sorte qu’un membre de la police puisse le voir et attirer l’attention sur ce point.
00:09:12:00 - 00:09:30:13
Abigail Acton
D’accord. Excellent. C’est super. Vous savez, je comprends. Je veux dire qu’il s’agirait probablement de sentiments de frisson, d’excitation ou d’anticipation, qui pourraient également être des signaux d’alarme. Oui. Comment les autorités policières, quelqu’un qui regarde un ordinateur et qui essaie de déterminer s’il faut déployer des ressources quelque part, verraient-elles cela concrètement?
00:09:30:15 - 00:09:52:09
Owen Conlan
Tout d’abord, elles se concentrent sur la chance, et nous utilisons l’idée d’un nœud. C’est donc l’idée de défaire un nœud. Elles importent un certain nombre de sources d’information différentes. Ces sources sont traitées en fonction d’un langage naturel, d’une entité, d’une émotion, d’une variété de choses différentes, et elles sont représentées sous forme de graphiques temporels et d’intensités.
00:09:52:15 - 00:09:57:10
Owen Conlan
Cela leur permet de voir essentiellement les points chauds visuels où ces éléments coïncident.
00:09:57:12 - 00:10:04:15
Abigail Acton
D’accord. Vous pouvez donc voir les chevauchements qui sont des signaux d’alarme. Oui. Puis, à partir d’un certain nombre de chevauchements, on commence à se dire qu’il faut peut-être être présent.
00:10:04:17 - 00:10:06:21
Owen Conlan
Vous commencez alors à approfondir le contenu en détail.
00:10:06:24 - 00:10:07:11
Abigail Acton
D’accord.
00:10:07:12 - 00:10:16:08
Owen Conlan
Cela leur permet d’aller à l’essentiel et de vraiment comprendre... parce que nous ne voulons pas qu’un système d’IA déploie la police.
00:10:16:14 - 00:10:18:03
Abigail Acton
Oui.
00:10:18:05 - 00:10:25:03
Owen Conlan
Nous voulons un système comme celui-ci pour soutenir l’enquête détaillée afin de déterminer comment les ressources peuvent être utilisées au mieux.
00:10:25:03 - 00:10:32:07
Abigail Acton
Il s’agit donc en fait d’un moyen de trier une énorme quantité de données pour identifier les sources réelles qui doivent être examinées de plus près.
00:10:32:07 - 00:10:32:22
Owen Conlan
C’est correct.
00:10:32:24 - 00:10:35:13
Abigail Acton
Oui. C’est donc un gain de temps énorme.
00:10:35:19 - 00:10:56:15
Owen Conlan
C’est un gain de temps considérable. Il s’agit également de comprendre comment les ressources peuvent être déployées. Oui. En effet, les différents pays d’Europe ont des éthiques très différentes qui sous-tendent le fonctionnement de leurs autorités policières. En Irlande, par exemple, notre police s’appelle An Garda Síochána, ce qui signifie les gardiens de la paix. Et cela caractérise vraiment la façon dont ils interagissent avec la société, etc.
00:10:56:17 - 00:11:18:16
Owen Conlan
Il en va de même dans un contexte en ligne. Ainsi, en Estonie, il existe des gendarmes en ligne qui font des rondes virtuelles. Parfois, cela signifie qu’il faut frapper à une porte virtuelle et dire: «Ce contenu n’est pas illégal, mais sachez que nous sommes là, que nous sommes présents. Vous savez, nous sommes ici pour nous assurer que tout va bien».
00:11:18:18 - 00:11:24:09
Owen Conlan
Oui. Un outil comme VIGILANT doit s’inscrire dans ces contextes très différents.
00:11:24:11 - 00:11:43:05
Abigail Acton
Oui, en effet. Parce que l’approche est très différente d’un pays à l’autre. C’est excellent. Merci beaucoup. Vous l’expliquez vraiment bien. Je sais que vous souhaitez également fournir des outils et des ressources aux décideurs politiques. Comment le matériel créé par VIGILANT, le travail effectué par VIGILANT, alimente-t-il cela, selon vous?
00:11:43:07 - 00:12:08:10
Owen Conlan
Oui. D’une part, il s’agit d’outils très similaires lorsqu’on les regarde de loin. D’autre part, la manière dont ils sont ciblés et le type de commentaires et d’encouragements que vous faites pour aider les décideurs politiques sont tout à fait différents. Nous participons activement à un autre projet financé par l’Union européenne, Athena, qui porte sur les FIMI, le défi lié aux activités de manipulation de l’information et d’ingérence menées depuis l’étranger, ce qui s’apparente un peu plus à de la surveillance, en fait.
00:12:08:12 - 00:12:33:22
Owen Conlan
Ainsi, de même que nous ne devrions pas surveiller nos populations dans nos pays, il est acceptable de regarder ces sites... Si vous pouviez me voir, je suis en train de mimer des guillemets... Ces sites «d’information». Il existe donc de grandes fermes de désinformation qui produisent toute une série de désinformations souvent générées par l’IA, et elles essaient simplement de gagner du terrain. Il s’agit de campagnes où l’on essaie de démolir une personnalité politique particulière, en utilisant un certain nombre de moyens différents.
00:12:33:22 - 00:12:54:24
Owen Conlan
Une fois qu’elles ont gagné du terrain, elles les diffusent davantage. Et ce que fait Athena, de la même manière que VIGILANT, c’est récolter des informations à partir de sources de ce type. Athena est moins discriminant car ce projet ne se concentre pas sur les individus, et nous devons être très prudents avec les informations personnelles ici, mais il recueille des informations et produit des infographies similaires, etc.
00:12:54:24 - 00:13:20:13
Owen Conlan
Pour disposer d’une base de données permettant d’éclairer les décisions politiques sur les actions et les interventions, l’un des défis que nous rencontrons souvent est que la campagne d’Athena peut apparaître dans un certain contexte linguistique. Ainsi, par exemple, cela pourrait se produire en Grèce. En grec, on pointe du doigt les défis liés à l’immigration, et nous assistons à de fausses allégations à ce sujet pour attiser la population.
00:13:20:15 - 00:13:43:02
Owen Conlan
La réaction des autorités grecques à cet égard est en soi un apprentissage. Vous pouvez coupler ce qu’elles ont fait avec ce type de problème émergent, une plateforme comme Athena, et le transfert vers l’Italie, quand nous commençons à voir un problème similaire dans la langue italienne, dans un contexte politique différent. Mais que pouvons-nous apprendre de la réaction grecque dans ce cas?
00:13:43:04 - 00:13:56:17
Owen Conlan
Parce que l’Europe est un mélange complexe de multiples contextes culturels, linguistiques, langagiers et de pays différents. Mais nous pouvons apprendre lorsque nous assistons à ces attaques, et nous pouvons essayer de transmettre ces connaissances au-delà des frontières nationales.
00:13:56:19 - 00:14:15:18
Abigail Acton
Parfait. Merci beaucoup. Oui. Nous pouvons ainsi apprendre les uns des autres. Merci beaucoup. D’accord. Je vais maintenant m’adresser à Joana. Joana, FARE_AUDIT a imaginé un moyen de contrôler les moteurs de recherche pour voir comment l’historique de navigation influence les résultats des moteurs de recherche et comment cela joue sur la probabilité d’être dirigé vers des sources de désinformation.
00:14:15:18 - 00:14:29:10
Abigail Acton
Il y a donc un certain chevauchement avec le travail effectué par Owen. Joana, pouvez-vous nous parler un peu de la notion de comportement humain en relation avec les préjugés? Pouvez-vous expliquer l’importance de la partialité en ligne, s’il vous plaît?
00:14:29:12 - 00:14:52:04
Joana Gonçalves de Sá
Oui. Nous parlons donc de deux projets différents. Dans l’un des projets, nous avons clairement cherché à savoir comment les biais humains ou cognitifs peuvent favoriser la diffusion de la désinformation. Ainsi, chaque fois que nous trouvons une information en ligne, nous devons décider si nous la croyons ou non et si nous voulons ou non la partager.
00:14:52:06 - 00:15:15:09
Joana Gonçalves de Sá
Et comme le disait Owen, nous ne pouvons pas décider de ne croire en rien et devenir complètement cyniques ou de croire en tout et devenir crédules. Ainsi, à chaque fois que nous devons prendre une décision, ce que nous pensons, ou notre hypothèse, c’est que cette décision est influencée par différents biais cognitifs. Disons que j’ai déjà rencontré cette situation par le passé et que j’ai tendance à y croire.
00:15:15:09 - 00:15:40:19
Joana Gonçalves de Sá
Il s’agit donc d’un biais de confirmation. Et il m’est plus facile de croire des informations que je crois déjà. De nouvelles informations. De plus, si mes amis ont tendance à y croire, je suis probablement sujet à ce que l’on appelle un biais de groupe, c’est-à-dire que je crois davantage les membres du groupe que les experts. Nous utilisons la désinformation comme un système modèle, comme d’autres chercheurs utilisent des souris en laboratoire, pour étudier les biais cognitifs.
00:15:40:19 - 00:16:03:04
Joana Gonçalves de Sá
Et nous essayons de voir comment ces différents biais cognitifs se propagent, l’expérience, parce que nous pouvons en apprendre davantage sur les idées préconçues des personnes sur le monde et sur la façon dont elles décident d’entrer en relation avec la société, nous l’utilisons donc en quelque sorte dans l’autre sens. Nous ne sommes pas exactement en train de mettre en place une désinformation ou d’utiliser la désinformation pour étudier les biais cognitifs.
00:16:03:09 - 00:16:25:01
Abigail Acton
Ce qui est très bien. C’est une excellente chose car la compréhension du fonctionnement des biais montre également comment les personnes utilisent l’information ou abordent l’information en ligne. Les chambres d’écho sont donc favorisées par les algorithmes utilisés par les moteurs de recherche pour pousser l’information vers l’utilisateur. Il doit donc être très difficile pour la désinformation d’être identifiée par un individu. Pouvez-vous nous parler un peu de ce que FARE_AUDIT a fait dans ce domaine?
00:16:25:07 - 00:16:50:08
Joana Gonçalves de Sá
Oui. L’idée est donc que, parce qu’il est si difficile de l’identifier, de grands efforts ont été déployés, notamment pour surveiller les réseaux sociaux, car nous savons que nos flux sont personnalisés et qu’ils peuvent se nourrir de ces biais. C’est comme si c’était les personnes qui semaient délibérément la désinformation. Ils savent que nous ne sommes pas des agents parfaitement rationnels, et ils se nourrissent donc de ces biais pour amplifier leur signal.
00:16:50:10 - 00:17:14:18
Joana Gonçalves de Sá
Il y a eu des travaux très importants sur les médias sociaux. Mais nous nous sommes concentrés sur deux autres moyens de diffusion de l’information qui sont un peu plus méconnus. En particulier, les moteurs de recherche. Les moteurs de recherche sont généralement considérés comme neutres, voire comme une passerelle vers la vérité. De plus, les personnes ont tendance à croire ce qu’elles voient si elles en font la recherche.
00:17:14:18 - 00:17:40:09
Joana Gonçalves de Sá
Elles vont donc sur Google ou un autre moteur de recherche, par exemple, et cherchent quelque chose. Et, en général, même les premiers résultats sont considérés comme la vérité. Et bien sûr, ce n’est pas vrai. Et bien sûr, les moteurs de recherche personnalisent eux aussi ce qu’ils nous montrent en fonction de nombreux éléments, y compris notre localisation et d’autres recherches que nous avons effectuées dans le passé ou même notre historique de navigation.
00:17:40:11 - 00:17:58:00
Abigail Acton
Puis-je donc vous demander ce que FARE_AUDIT a développé pour aider les personnes à reconnaître qu’elles sont peut-être poussées dans une certaine direction? J’ai cru comprendre que vous aviez développé un outil qui pourrait peut-être servir aux journalistes et aux gardiens de la démocratie, aux associations pour traquer la désinformation. Pouvez-vous nous en dire un peu plus à ce sujet?
00:17:58:01 - 00:18:18:07
Joana Gonçalves de Sá
Exactement. Les moteurs de recherche sont difficiles à auditer, et les algorithmes sont propriétaires, ce sont des boîtes noires. Nous ne voulions donc pas nous appuyer sur les données de personnes réelles pour des raisons de protection de la vie privée et de biais dans les échantillons. Nous avons alors mis au point un système de robots d’indexation, généralement appelés «bots». Ces robots imitent le comportement humain.
00:18:18:07 - 00:18:38:12
Joana Gonçalves de Sá
Nous avons donc une petite armée de robots qui naviguent en ligne, collectent des cookies et se font passer pour des personnes. Et nous pouvons leur faire prétendre qu’ils sont des personnes de différents lieux, utilisant différentes langues et même éventuellement de sexes ou d’âges différents à partir de leur historique de navigation. Ensuite, ils vont sur les moteurs de recherche et font exactement la même requête au même moment.
00:18:38:14 - 00:19:02:03
Joana Gonçalves de Sá
Et nous comparons ce que les différents moteurs de recherche affichent comme résultats pour ces requêtes. Nous avons mené différentes études en utilisant exactement cette méthodologie. Supposons que nous ayons une étude sur le conflit israélo-palestinien actuel dans laquelle les robots peuvent être situés juste de l’autre côté de la frontière, et qu’ils fassent les mêmes requêtes.
00:19:02:05 - 00:19:25:22
Joana Gonçalves de Sá
Nous verrons alors non seulement si les résultats sont très différents, mais aussi s’ils ont des tendances particulières ou s’il s’agit de biais particuliers. Et dans ce cas particulier, je pense que c’est intéressant parce que la localisation est généralement considérée comme neutre en termes de profilage. Si je cherche un restaurant près de chez moi, je veux le restaurant qui est près de chez moi et non un restaurant qui est très, très, très loin.
00:19:25:24 - 00:19:48:10
Joana Gonçalves de Sá
Mais si nous parlons de conflit géopolitique, le fait de montrer des informations différentes sur la même requête à des personnes vivant dans des pays différents peut être extrêmement problématique. Avec ces deux audits: l’un pour les élections parlementaires européennes dans lequel des robots placés dans différents pays européens posent des questions telles que: «Pour qui dois-je voter?» ou: «Quel est le meilleur parti?»,
00:19:48:12 - 00:20:10:11
Joana Gonçalves de Sá
et l’autre pour les élections présidentielles américaines, les dernières de 2024. Nous pouvons ensuite constater à quel point il est facile de faire des requêtes générales et parfois neutres qui donnent des résultats très, très différents. Et dans ce cas en particulier, disons dans le cas du Parlement européen, les résultats sont très biaisés.
00:20:10:11 - 00:20:13:24
Abigail Acton
Oh, vous avez donc bien vu un certain biais se manifester. Oh oui.
00:20:14:01 - 00:20:22:14
Joana Gonçalves de Sá
Très clairement. Et je pourrais probablement vous faire deviner de quel côté, de la gauche ou de la droite, ils étaient partiaux.
00:20:22:20 - 00:20:29:10
Abigail Acton
Oui. D’accord. Intéressant. Un peu effrayant aussi. Avez-vous trouvé vos résultats... Je suppose que vous les avez trouvés légèrement troublants.
00:20:29:15 - 00:20:55:06
Joana Gonçalves de Sá
Oui. C’est effrayant. Et, même dans la réalité, nous avons trouvé des biais très clairs. Ces partis sont rarement mentionnés, mais chaque fois qu’ils le sont, ils appartiennent à une famille spécifique. Mais le fait que ces moteurs de recherche soient si largement utilisés et que des millions de personnes les consultent chaque jour, même si les biais étaient faibles et rares, cela resterait préoccupant car le signal peut être très largement amplifié.
00:20:55:08 - 00:21:24:09
Joana Gonçalves de Sá
Mais aussi le fait que nous disposons maintenant d’un outil qui peut être utilisé par les chercheurs. Nous essayons toutefois de l’adapter pour les journalistes et le grand public, tout en informant l’UE, par exemple avec un projet pilote dans le cadre du règlement sur les services numériques visant à auditer de très grands moteurs de recherche en ligne et à essayer d’identifier les biais, car il est également possible que les moteurs de recherche soient en fait manipulés par des agents politiques.
00:21:24:09 - 00:21:33:21
Joana Gonçalves de Sá
Ce n’est pas... Ils utilisent l’optimisation des moteurs de recherche ou d’autres systèmes pour amplifier leur signal sans même que les moteurs de recherche s’en rendent compte.
00:21:33:21 - 00:21:44:23
Abigail Acton
Très bien. Il s’agit donc de se faufiler par une sorte de porte dérobée. Oui, c’est vrai. C’est vraiment une révélation. Merci. Quelqu’un a-t-il des questions ou des observations à formuler sur le fabuleux travail de Joana? Oui. Owen, qu’aimeriez-vous dire?
00:21:45:00 - 00:21:47:08
Owen Conlan
Oui, c’est vraiment un travail fantastique, Joana.
00:21:47:08 - 00:21:48:14
Abigail Acton
N’est-ce pas?
00:21:48:16 - 00:22:12:05
Owen Conlan
Avez-vous envisagé de déployer les robots pour examiner les réponses de l’IA que nous commençons à voir dans les recherches? Je sais que la recherche Google, par exemple, a une vue d’ensemble de l’IA sur de nombreuses réponses. Je pense que l’opportunité de biaiser et d’orienter des personnes pourrait être très importante. Il sera intéressant de voir comment elle adapte les résultats en fonction de la localisation ou de sa compréhension de l’utilisateur.
00:22:12:07 - 00:22:13:19
Owen Conlan
Est-ce quelque chose que vous envisagez?
00:22:14:00 - 00:22:36:23
Joana Gonçalves de Sá
Oui, et merci beaucoup pour cette question. Nous avons effectué un audit de grands modèles de langage, basés sur ChatGPT et Copilot, et nous avons posé des questions similaires. «Pour qui dois-je voter», «Quels sont les meilleurs partis?» Nous avons même introduit le genre, la composante de genre, comme par exemple: «En tant que femme, pour qui dois-je voter?» ou «En tant qu’homme, pour qui dois-je voter?»
00:22:36:23 - 00:23:06:04
Joana Gonçalves de Sá
Les résultats sont également très biaisés dans le même sens, et ils le sont encore plus si l’on introduit le sexe. C’est vrai? Nous sommes donc allés directement sur les plateformes. Mais maintenant, bien sûr, avec l’intégration que font les moteurs de recherche de ces outils, nous pouvons aussi les auditer directement sur les résultats de recherche, la connaissance qu’ils fournissent et sur leur réponse IA, et voir si les biais demeurent ou s’ils sont amplifiés, ou non, et s’ils ont disparu, s’ils ont été corrigés.
00:23:06:06 - 00:23:31:05
Abigail Acton
Super. Merci beaucoup. Eh bien, c’est très complet. On dirait que c’est un peu, c’est presque une course, n’est-ce pas, pour essayer de rester dans la course et de continuer à trouver des moyens innovants d’identifier la manipulation. Aussi vite que les moyens de manipulation se développent ici, c’est très bien. Merci beaucoup. Je vais maintenant passer à Marián. Marián, l’objectif du projet DisAI, basé en Slovaquie, était de développer des technologies et des outils d’IA fiables pour les langues peu dotées.
00:23:31:05 - 00:23:45:05
Abigail Acton
Nous venons de parler de modèles de langage, etc. Nous sommes donc intéressés par la lutte contre la menace croissante de la désinformation en ligne dans des langues qui ont peut-être moins d’empreinte. Pouvez-vous nous dire pourquoi vous avez commencé à vous impliquer dans ce projet, Marián?
00:23:45:07 - 00:24:15:08
Marián Šimko
Oui. En tant que chercheur, je suis étonné de voir à quel point la technologie peut nous aider dans la pléthore de tâches que nous accomplissons au quotidien. La plupart d’entre elles sont liées à diverses formes de communication. C’est la nature même de l’être humain, et les méthodes et techniques issues du domaine appelé «traitement du langage naturel» visent à nous aider dans nos activités quotidiennes de recherche, de compréhension, de création ou de transformation d’informations.
00:24:15:10 - 00:24:39:18
Marián Šimko
Nous avons des applications de cette technologie dans nos poches aujourd’hui, par exemple, lorsque nous filtrons des courriers indésirables, lorsque nous nous voyons recommander des nouvelles quotidiennes ou lorsque nous recevons des critiques résumées sur des produits ou des services que nous voulons acheter, et je pense qu’il est important d’utiliser la technologie du langage pour lutter contre la désinformation. Et c’est particulièrement motivant, car nous le faisons pour le bien social.
00:24:39:20 - 00:25:04:11
Marián Šimko
Et ce qui est intéressant ici, c’est que le phénomène de désinformation n’est pas nouveau pour nous. En fait, il est aussi vieux que l’humanité. Mais ce qui le rend spécial, c’est le pouvoir de la technologie dont nous disposons aujourd’hui, et qui amplifie considérablement cet impact. Je veux dire par là la quantité d’informations, l’accès instantané à l’information, la vitesse de diffusion, l’essor de l’IA générative, et la baisse des coûts.
00:25:04:13 - 00:25:06:17
Marián Šimko
Donc, oui, c’est un problème.
00:25:06:17 - 00:25:26:14
Abigail Acton
D’accord. Absolument. Nous avons parlé jusqu’à présent de la capacité de l’IA à comprendre le langage, qui est utilisée pour nous transmettre des informations. DisAI s’efforce de l’ouvrir à des langues moins utilisées. Pouvez-vous nous en dire un peu plus sur le travail de votre projet, qui essaie, comme je l’ai dit, de l’ouvrir à des langues moins utilisées.
00:25:26:18 - 00:25:53:10
Marián Šimko
Oui. Tout d’abord, la qualité ou la performance des applications récentes de traitement du langage naturel, qui utilisent largement les réseaux neuronaux profonds de nos jours, est basée sur la quantité de données utilisées pour la formation, par exemple, les grands modèles de langage sont formés de manière à pouvoir lire des quantités de texte sur Internet et apprendre à prédire le mot suivant dans une phrase.
00:25:53:10 - 00:26:13:13
Marián Šimko
Par exemple, si nous avons un ciel, nous voulons deviner «bleu». Le ciel est bleu. De plus, ces modèles apprennent des schémas, de la grammaire, des faits, simplement en essayant de prédire le mot suivant, encore et encore. C’est le fondement de nombreuses approches de pointe. En fait, il remplit n’importe quelle tâche, le bon traitement du langage naturel que nous avons à portée de main.
00:26:13:15 - 00:26:42:07
Marián Šimko
Et cela inclut les tâches que nous traitons dans le projet DisAI, qui sont liées à la lutte contre la désinformation. Le problème est lié aux langues moins utilisées. Et pour ces langues, il n’y a pas assez de contenu pour fournir une base solide à ce modèle. Par conséquent, ces modèles peuvent avoir du mal à comprendre ou à générer un texte cohérent dans ces langues.
00:26:42:09 - 00:27:00:22
Marián Šimko
La plupart des données sont donc en anglais, en chinois, en espagnol, etc. Ces modèles sont bien meilleurs. Il en résulte des performances inégales, et les locuteurs de langues peu dotées obtiennent des réponses de moins bonne qualité, moins courantes, moins précises et moins utiles.
00:27:00:22 - 00:27:05:09
Abigail Acton
D’accord. Qu’a donc fait le projet DisAI pour tenter d’améliorer la situation?
00:27:05:09 - 00:27:35:00
Marián Šimko
Oui. Par conséquent, nous nous concentrons sur les vérificateurs de faits, qui jouent un rôle important dans cette entreprise, ainsi que sur les utilisateurs de base disposant d’une technologie élémentaire de traitement du langage naturel. En outre, leur travail est plus difficile lorsqu’ils ont affaire à d’autres langues que l’anglais, par exemple. Dans le cadre du projet DisAI, nous nous concentrons sur le développement de nouvelles approches de traitement du langage qui peuvent y contribuer.
00:27:35:00 - 00:27:58:07
Marián Šimko
Cela peut donc améliorer les performances dans les langues peu dotées. Et, oui, notre motivation est naturelle, notre langue maternelle est le slovaque, et c’est un exemple frappant de langue peu dotée. La diffusion de la désinformation reste un problème sérieux en Slovaquie. Et, comme dans d’autres pays d’Europe de l’Est, la démocratie est, disons, plus fragile.
00:27:58:07 - 00:28:07:04
Marián Šimko
Il est donc important d’améliorer ces méthodes et de faciliter le travail des vérificateurs de faits.
00:28:07:04 - 00:28:23:22
Abigail Acton
Absolument. C’est un travail essentiel que vous faites. Je comprends tout à fait. Puis-je vous demander ce que le projet a développé en termes de techniques pour tenter de relever ce défi? Je vois très clairement quel est l’objectif et la motivation. Mais qu’avez-vous fait ou qu’est-ce qui est encore en cours?
00:28:24:01 - 00:28:46:21
Marián Šimko
Oui. Donc, exactement... Dans le cadre de DisAI, mon équipe tente de développer des méthodes, des techniques et des outils susceptibles de faciliter le travail des vérificateurs de faits. Dans le cadre de leur travail, différentes tâches peuvent être prises en charge par les technologies de langage. Nous nous concentrons en particulier sur la tâche de recherche de données factuelles. Il s’agit de l’une des quatre ou cinq tâches les plus importantes que nous effectuons.
00:28:46:23 - 00:29:19:02
Marián Šimko
Pour faire simple, lorsqu’un vérificateur de faits tombe sur une nouvelle affirmation, par exemple, que la vaccination modifie l’ADN humain, il veut savoir si elle a déjà été vérifiée par quelqu’un d’autre auparavant, ou du moins cela peut l’aider considérablement, parce que la création de vérifications de faits est assez exigeante. Il est bon de vérifier si possible toutes les langues et de voir si les faits ont déjà été vérifiés par quelqu’un d’autre, y compris en portugais ou en indonésien.
00:29:19:02 - 00:29:25:05
Marián Šimko
Et cela peut réduire considérablement les efforts qu’ils consacrent à la création de vérifications des faits.
00:29:25:07 - 00:29:33:12
Abigail Acton
D’accord. C’est un bon exemple. Merci beaucoup. Super. D’accord. Bien expliqué Marián, merci. Quelqu’un a-t-il des observations ou des commentaires à faire à Marián? Oui. Owen, je vous en prie.
00:29:33:14 - 00:29:55:11
Owen Conlan
Marián, c’est un travail essentiel. C’est ce que nous constatons régulièrement dans nos tentatives de lutte contre la désinformation. Le manque d’ensembles de données dans différents contextes linguistiques, le fait que pour nous, bien sûr, pour la police, ils essaient de lutter contre la désinformation qui peut ne pas être dans la langue qu’ils parlent eux-mêmes et peut souvent être dans une langue qui n’est pas bien représentée dans les ensembles de données.
00:29:55:17 - 00:30:15:24
Owen Conlan
Récemment, nous avons constaté qu’il était particulièrement difficile de trouver des ensembles de données sur les discours de haine en allemand. Et vous savez que cela semble être quelque chose que vous devriez pouvoir découvrir relativement facilement, mais cela dépend vraiment de l’endroit où se concentre la recherche dans ces contextes linguistiques... S’ils existent. Nous essayons donc de traduire les discours de haine de l’anglais vers l’allemand.
00:30:15:24 - 00:30:36:21
Owen Conlan
Et comme vous pouvez le comprendre, cela n’a pas très bien fonctionné. Des choses simples comme les mots-valises. Ainsi, des expressions telles que «Kill-ary Clinton», qui a du sens pour nous et que nous considérons comme un terme haineux dans un contexte anglais, et qui est un terme haineux, ne peuvent pas être traduites. Il y a donc tant de liens et d’aspects culturels contextuels. C’est pourquoi ce travail est essentiel.
00:30:36:23 - 00:30:57:13
Abigail Acton
Le travail de chacun d’entre vous est absolument essentiel. C’était un véritable plaisir de vous écouter, savoir ce que vous avez fait et ce que vous avez accompli jusqu’à présent. Et bien sûr, comme je l’ai dit plus tôt, c’est une course permanente contre les techniques de désinformation qui nous sont imposées. Merci beaucoup pour cela et pour ce que vous faites.
00:30:57:14 - 00:31:02:14
Abigail Acton
Essayer de clarifier un peu nos vies en ligne. Merci beaucoup.
00:31:02:16 - 00:31:03:16
Joana Gonçalves de Sá
Merci de nous avoir accueillis.
00:31:03:17 - 00:31:04:09
Marián Šimko
Merci.
00:31:04:13 - 00:31:36:15
Abigail Acton
Ce fut un plaisir. Je vous en prie. Au revoir. Prenez soin de vous. Si vous avez apprécié ce podcast, suivez-nous sur Spotify et Apple Podcasts, et consultez la page d’accueil des podcasts sur le site web de CORDIS. Abonnez-vous pour vous assurer que les recherches les plus récentes sur la science financée par l’UE ne vous échappent pas. Et si vous aimez nous écouter, pourquoi ne pas en parler autour de vous? Nous avons parlé de l’influence de nos intestins sur notre cerveau, des dernières technologies qui aident les enquêteurs dans les affaires de viols, et de la manière de poser une sonde sur un astéroïde.
00:31:36:17 - 00:32:04:19
Abigail Acton
Dans nos 47 derniers épisodes, vous trouverez de quoi titiller votre curiosité. Peut-être souhaitez-vous savoir ce que font d’autres projets financés par l’UE pour lutter contre la désinformation numérique? Le site web de CORDIS vous donnera un aperçu des résultats des projets financés par Horizon 2020 et Horizon Europe qui travaillent dans ce domaine. Le site web contient des articles et des entretiens qui explorent les résultats de la recherche menée dans un très large éventail de domaines et de sujets, des dodos aux neutrinos.
00:32:04:23 - 00:32:29:10
Abigail Acton
Vous y trouverez votre bonheur. Vous participez peut-être à un projet ou vous souhaitez faire une demande de financement. Regardez ce que font les autres dans votre domaine. Venez donc découvrir les recherches consacrées à ce qui fait vibrer notre monde. Vos retours sont toujours les bienvenus! Envoyez-nous un message à l’adresse editorial@cordis.europa.eu. À la prochaine!
Les dernières avancées dans la course complexe visant à identifier et à lutter contre la désinformation en ligne
Le contenu peut mener à des crimes de haine et à d’autres formes de violence, mais de nombreuses autorités policières européennes ne disposent pas d’outils ou de technologies spécialisés pour s’attaquer à ce problème – comment peut-on les aider? En tant qu’individus, comment pouvons-nous savoir si nous sommes manipulés? Nous sommes de plus en plus exposés à l’information/la désinformation en ligne, soit de manière passive, à travers les flux des médias sociaux, soit de manière active, en utilisant des moteurs de recherche et des sites web spécifiques qui nous guident vers des sites qui renforcent nos partis pris et construisent des murs de préjugés. Les entreprises s’efforcent d’identifier et de supprimer les sites de fausses informations et de minimiser la diffusion de la désinformation sur les médias sociaux, mais qu’en est-il des moteurs de recherche eux-mêmes? Les robots d’indexation pourraient-ils constituer un moyen innovant de nous aider à auditer leur activité? La diffusion de la désinformation en ligne menace nos valeurs démocratiques. Face à l’augmentation de la désinformation, l’IA, et les technologies du langage en particulier, jouent un rôle crucial pour la détecter. L’apprentissage automatique et l’IA s’appuient sur de grands modèles de langage, mais qu’en est-il des langues qui ont une plus petite empreinte en ligne, celles qui sont moins fréquemment utilisées? Comment renforcer l’IA pour lutter contre la désinformation dans les langues dites «peu dotées»? Découvrez comment ces risques et d’autres cyberrisques sont abordés avec l’aide du financement de la recherche de l’UE. Owen Conlan(s’ouvre dans une nouvelle fenêtre), est membre du Trinity College(s’ouvre dans une nouvelle fenêtre), Dublin, et professeur à l’École d’informatique et de statistique(s’ouvre dans une nouvelle fenêtre). Il est également codirecteur du Centre des sciences humaines numériques du Trinity(s’ouvre dans une nouvelle fenêtre). Owen s’intéresse beaucoup au contrôle de l’utilisateur sur les systèmes personnalisés pilotés par l’IA, qu’il a étudié dans le cadre du projet VIGILANT. Joana Gonçalves de Sá(s’ouvre dans une nouvelle fenêtre) est chercheuse au laboratoire Nova de sciences informatiques et d’informatique(s’ouvre dans une nouvelle fenêtre) et au laboratoire d’instrumentation et de physique des particules expérimentale(s’ouvre dans une nouvelle fenêtre), à Lisbonne, où elle dirige le groupe de recherche sur la physique sociale et la complexité. Elle se concentre sur les biais humains et algorithmiques, en utilisant les fausses informations comme système modèle, le sujet de son projet FARE_AUDIT. Marián Šimko(s’ouvre dans une nouvelle fenêtre) est chercheur expert à l’Institut Kempelen des technologies intelligentes(s’ouvre dans une nouvelle fenêtre) en Slovaquie. Ses recherches portent sur le traitement du langage naturel, l’extraction d’informations, le traitement des langues peu dotées et l’interprétabilité des modèles neuronaux. Le projet DisAI s’est intéressé au développement de nouvelles approches pour le traitement du langage afin d’améliorer les performances des grands modèles d’apprentissage de langage pour les langues moins fréquemment utilisées.
Vos retours sont les bienvenus!
Si vous avez des commentaires, nous serons toujours heureux que vous nous en fassiez part! Envoyez-nous vos commentaires, questions ou suggestions à l’adresse suivante: editorial@cordis.europa.eu.