S’informer à l’ère des Fake News ?

S’informer à l’ère des Fake News ?

Entre plateformes et fake news, pour s’informer, il est nécessaire de s’armer d'esprit critique. Mais alors, comment parvenons-nous à nous informer aujourd’hui ? Réussissons-nous à débusquer les fausses informations ? Qu'en est-il des nouvelles technologies ?

Crédits : ©ReadyMade sur Pexels

 
Retour

Info et fake news : interview Guillaume Cabanac

Interview de Guillaume Cabanac

Interview de Guillaume Cabanac

Peut-on s’informer avec certitude à partir de publications scientifiques ?

Un logiciel pour détecter des articles scientifiques à la fiabilité problématique.

Guillaume Cabanac est maître de conférences habilité à diriger des recherches (HDR) en informatique à l'université Toulouse III – Paul Sabatier. Il est membre de l'Institut de recherche en informatique de Toulouse (IRIT-CNRS/Toulouse INP/UT1 Capitole/UT2J/UT3 Paul Sabatier) et siège au Comité national du CNRS en qualité de membre nommé du Conseil scientifique de l'Institut des sciences humaines et sociales (InSHS). Il a mis au point, dans le cadre de ses recherches, un logiciel - Problematic Paper Screener - permettant de détecter des articles scientifiques à la fiabilité problématique. Ainsi, les articles scientifiques que Guillaume Cabanac cherche à identifier sont ceux qui contiennent des erreurs voire des fraudes. L'ré-évaluation de ces publications est ensuite réalisée par une communauté composée de professionnels, de scientifiques et de volontaires, tous faisant cela pro bono. Lors de la pandémie du au Covid19, le rythme de publication des articles scientifiques a fortement été accéléré ce qui a conduit à diminuer le temps accordé au peer reviewing, risquant l’augmentation du risque d’erreurs et de fraudes. Ce système de relecture par les pairs, pourtant censé être le garant de la fiabilité et du sérieux des publications et revues scientifiques, se trouve alors remis en question. Nous avons souhaité en savoir plus, Guillaume Cabanac a accepté de répondre à nos questions. 

 

Lorsqu’il a rédigé un article scientifique, un chercheur soumet celui-ci à une revue qu’il a précédemment choisie selon différents critères : le thème, la réputation, les frais de publication, le type de revue, la régularité de la publication, le mode d'évaluation et les consignes de rédaction. Certaines revues sont à proscrire : les revues prédatrices. Elles n’ont pas de réel processus d’évaluation ce qui leur permet de publier beaucoup et beaucoup plus rapidement, dont des articles à la qualité scientifique douteuse. Ces revues n’ont pas une bonne réputation. La renommée des revues est basée sur différents critères tels que le nombre de citations par d’autres chercheurs, le prestige des auteurs ou l’organisation du comité de lecture. Pour publier un article dans certaines revues, l’auteur doit payer. Dans d’autres, c’est le lecteurs doit payer pour pouvoir lire les articles. Cependant, certaines revues permettent de publier en libre accès, c’est-à-dire que les lecteurs ont accès gratuitement et de manière illimité aux articles. Une fois soumis à une revue, l’article va être évalué par un comité de lecture et/ou de manière anonyme par d’autres chercheurs. L'article peut être accepté ou refusé dans sa totalité mais des demandes de modification ou d’améliorations peuvent aussi être faites à l’auteur. Le processus de publication d’un article scientifique prend en général plusieurs mois mais il permet - normalement - d’assurer la qualité scientifique de celui-ci. Cependant et cela même dans les revues les plus prestigieuses, ce n’est pas toujours le cas. 

Quai des Savoirs : Pour votre travail sur les publications scientifiques frauduleuses, en collaboration avec le chercheur grenoblois Cyril Labbé et l’informaticien russe Alexander Magazinov, la revue Nature vous a identifié parmi les 10 personnalités qui ont marqué la science en 2021. Pourriez-vous nous parler du travail qui vous a valu cette éminente distinction ?

Guillaume Cabanac : Les travaux de 2021 ont porté sur l’automatisation de la détection d’articles publiés bien que dénués de sens. J’ai publié en mai 2021 avec Cyril Labbé de l’Université Grenoble-Alpes une méthode qui a identifié 243 articles produits par un programme générant de manière aléatoire et automatique des articles scientifiques (Scigen) : totalement bidons et pourtant publiés (parfois vendus) par Elsevier, IEEE, IOP et d’autres éditeurs réputés. Avec l’apport d’Alexander Magazinov de Yandex Russia, nous avons poursuivi ces travaux pour traquer 943 « expressions torturées » à ce jour, telles que : « conscience contrefaite » à la place de « intelligence artificielle » ou « déception rénale » au lieu de « insuffisance rénale ». 

Totalement aberrantes, ces expressions figurent pourtant dans 7.000 articles parus dans des revues d’éditeurs réputés, principalement en ingénierie et en santé. Elles résultent d’une forme de plagiat inédite en science : « copier/paraphraser/coller ». Les faussaires volent des passages d’articles publiés, utilisent un programme pour changer les mots par des synonymes et s’approprient ce texte paraphrasé. L’inspection de ces articles frauduleux révèle d’autres problèmes : identité d’auteur usurpée, images volées, passages de textes générés algorithmiquement et dénués de sens…

Partisans de la science ouverte, nous avons posté un preprint(1) sur arXiv(2) détaillant méthode et résultats le 12 juillet 2021. Des journalistes scientifiques ont immédiatement couvert ce résultat dans Nature et RetractionWatch. Sous-titré « Open Call for Investigation » notre preprint invite la communauté scientifique à participer à l’effort d’analyse post-publication des milliers d’articles problématiques listés sur le Problematic Paper Screener que j’ai développé pour éplucher l’intégralité de la littérature scientifique toutes les nuits. Tels des détectives enquêtant sur une piste à partir de « tuyaux » révélés par des indics, des dizaines de scientifiques exploitent ces indices et postent leurs rapports de (ré)évaluation sur PubPeer(3). Cette activité d’évaluation post-publication est soutenue par l’Office Français de l’Intégrité Scientifique, département du Haut Conseil de l'évaluation de la recherche et de l'enseignement supérieur (HCERES), comme souligné dans sa note de septembre 2021. La prise en compte de l’éthique et de l’intégrité de la science et de la recherche scientifique est quelque chose de nouveau en France et dans le monde. Le covid a permis de faire émerger cette prise de conscience et de la rendre conséquente. 

1 : Préprint : est un brouillon d'article de recherche, non encore évalué par les pairs, qui peut par la suite être soumis à une revue (sans que ça soit le cas tout le temps). S’il est soumis à une revue et qu’il correspond à ses critères, il est ensuite examiné par des relecteurs, chercheurs dont l’expertise correspond aux thèmes et aux techniques abordés dans l’article. Ils évaluent le contenu de l’article (méthodologie, présentation des résultats) et peuvent demander à l’auteur des ajouts, modifications, précisions. Cette étape est appelée évaluation par les pairs (peer reviewing). La décision finale de publier revient au comité de rédaction de la revue. Qu'est-ce qu'un preprint - HAL Documentation (archives-ouvertes.fr)

2 : arXiv : archive ouverte de prépublication en ligne d’articles scientifiques. arXiv — Wikipédia (wikipedia.org)

3 : PubPeer : site internet permettant de formuler des commentaires sur des articles scientifiques en post-publication, mais aussi de signaler des soupçons de manquements à l'éthique scientifique. PubPeer — Wikipédia (wikipedia.org)

 

Quai des Savoirs : Comment fonctionne le logiciel (Problematic Paper Screener) que vous avez élaboré ? 

Guillaume Cabanac :  Le Problematic Paper Screener (PPS) comprend huit détecteurs, chacun visant à débusquer des articles non fiables selon des méthodes et critères différents : plagiat, génération de texte, citation d’articles non fiables, notamment. Le PPS interroge chaque nuit la base bibliographique Dimensions pour identifier, parmi les 120 millions d’articles scientifiques indexés, ceux qui contiennent des phrases torturées, ou d’autres indices de non-fiabilité. Ainsi, PPS s'appuie sur plus de 1.000 phrases torturées pour identifier les articles et de nouvelles sont découvertes et ajoutées tous les jours. Ceci donne un effet boule de neige : plus il y a de phrases, plus il y a d’articles analysés qui permettent d’identifier de nouvelles phrases torturées et ainsi de suite … Ces articles suspects sont listés sur le PPS pour que des détectives (des scientifiques, des amateurs-chasseurs d’erreurs, le grand public…) les ré-évaluent à l’aune des problèmes identifiés. PPS est, entre autres, un site web permettant de rechercher à l’aide de mots clés des articles problématiques pour participer à leur réévaluation. En faisant un premier tri dans l'ensemble des articles publiés dans le monde, PPS facilite ce travail de débunkage.

Lorsque l’analyse humaine confirme les suspicions du PPS, les détectives sont encouragés à poster un rapport d’évaluation post-publication sur la plateforme PubPeer.org. PPS propose des modèles pour effectuer des signalements sur Pubpeer à l’aide de captures d’écran, en son nom ou anonymement. En donnant librement accès aux articles identifiés, PPS permet à tous de participer à leur débunkage. Cela permet ainsi une ré-évaluation décentralisée et incite à la recherche participative. En effet, les détectives peuvent être des amateurs : un petit bagage scientifique permet à tous de participer à la réévaluation des articles. 

Quai des Savoirs :  Votre travail a été distingué par la revue Nature, est-ce le signe que scientifiques et chercheurs ont décidé de faire face à ce phénomène de “fausses publications” ? 

Guillaume Cabanac : Durant la décennie passée, les scientifiques ont progressivement pris conscience des pratiques délictueuses d’éditeurs prédateurs qui font payer des frais pour publier vite et sans évaluation ou si peu à des auteurs parfois crédules, parfois complices.

La réputation des maisons d’édition et le ciblage de revues classées dans le Journal Citation Reports de Clarivate Analytics ou Scopus d’Elsevier offrait, pensait-on, une assurance de qualité et d’intégrité scientifique. Nos résultats démontrent le contraire : des milliers d’articles problématiques sont parus, déstabilisant la confiance que la communauté a placé dans le processus d’évaluation opéré par des dizaines de revues épinglées, publiées par des industriels qui ont remplacé les rigoureuses sociétés savantes d’autrefois.

La distinction de Nature a mis le projecteur sur une part minime, mais bien présente, d’articles non-fiables évalués par les pairs et publiés dans des revues établies dont la fiabilité n’avait jamais été contestée jusqu’alors. 

Ainsi, certains chercheurs proposent de mettre en place des challenges à la manière des entreprises d’informatique qui engagent des hackeurs pour trouver des failles dans leur logiciels avant leur commercialisation. L’idée serait d’inciter les chercheurs à identifier les articles frauduleux, une sorte de hackage volontaire de la science permettant d’anticiper les problèmes qui pourraient survenir. Sur ce principe, quelques maisons d’édition sont en train de mettre en place cette idée à la manière d’une chasse aux articles frauduleux  : « Wanted : fake articles ». D’autres commencent à intégrer PPS - disponible en open source - à leur chaîne d’édition afin de limiter voire d’éviter de publier des articles problématiques. 

Après avoir vu un de leurs articles signalés sur Pubpeer, il arrive que les auteurs répondent mais c’est là une toute petite minorité. La Chine, par exemple, a drastiquement changé sa politique au lieu d’inciter les chercheurs à toujours plus publier, elle poursuit aujourd’hui les fraudeurs (4). Certains auteurs répondent qu’il s’agit-là de leur façon de s’exprimer mais lorsque des dizaines de phrases torturées sont identifiées dans leur article, cette justification semble bien faible. Un autre exemple est le cas d’un article publié par une chercheuse et une étudiante. Suite au signalement, l’étudiante a répondu qu’elle ne savait pas qu’il n’était pas autorisé de « copier/paraphraser/coller ». Mais ce n’était pas le seul aspect problématique de l’article. Une partie de l’état de l’art avait été rédigé à l’aide d’un logiciel de réécriture ce qui est aussi une fraude. Dans ce cas-là, il doit donc y avoir une part sincère d’erreur et une part de mauvaise foi. 

Les maisons d’édition retirent de plus en plus d’articles. Parfois même des numéros entiers : c’est souvent le cas de numéros spéciaux pour lesquels une seule personne, l’éditeur, a pour mission à la fois de choisir les articles, le comité de relectures, de valider les articles … Et si l’éditeur est un fraudeur alors l’ensemble du numéro est entaché et tous les articles doivent être retirés. 

Aujourd’hui, la science s’auto-corrige, un peu plus, un peu mieux. C’est un travail important mais de longue haleine car retirer un article ne suffit pas : il faut identifier comment l'erreur identifiée s'est propagée en identifiant l'ensemble des articles qui citent celui-ci. Le fait de s’être basé sur un article qui se révèle faux voire bidon peut mettre en péril l’ensemble des résultats auxquels les auteurs sont parvenus. C’est alors toute la chaîne de citation qui constitue la science qui est mise en péril. Récemment,  un nouveau module (Feet of Clay) a été ajouté sur PPS. Il permet d’identifier les articles qui citent des articles qui ont été retirés ou qui contiennent des phrases torturées et ont fait l'objet de commentaires post-publication sur PubPeer.

4 : Else, H., & Van Noorden, R. (2021). The fight against fake-paper factories that churn out sham science. In Nature (Vol. 591, Issue 7851, pp. 516–519). Springer Science and Business Media LLC. https://doi.org/10.1038/d41586-021-00733-5

 

Quai des Savoirs : La mise en avant des erreurs des publications scientifiques a-t-elle eu un impact hors de la communauté scientifique ? 

Guillaume Cabanac : Par le passé, des erreurs en science ont eu un impact sur la société. Par exemple, l’épinard est consommé pour son apport présumé en fer alors que cette croyance résulte d’une erreur dans un article de 1870, corrigée depuis. Les récentes rétractations liées au Lancetgate(5) durant la pandémie de COVID ont contribué à altérer la confiance que la société confère à la science. Les rétractations en masse d’articles problématiques révélées par le PPS, prononcées par les plus prestigieuses maisons d’édition, concourent à assainir la littérature. Plutôt que de mettre la poussière sous le tapis (et ne pas réagir), les maisons d’éditions reconnaissent leurs torts en rétractant les articles non-fiables. Ce processus d’auto-correction de la science est capital pour assurer les scientifiques et le grand public de l’intégrité de la science.

5 : Lancetgate  : Scandale suite au retrait d’une étude portant sur l'hydroxychloroquine comme traitement du Covid réalisée par Dr Raoult en 2020. Covid : un an après le #Lancetgate, retour sur la saga de l'hydroxychloroquine portée par le Pr. Raoult à Marseille (francetvinfo.fr)

 

Quai des Savoirs : La confiance que nous pouvons accorder aux publications scientifiques en est-elle modifiée ?

Guillaume Cabanac :  Nos détecteurs ont identifié des problèmes de fiabilité pour 3 articles sur 10.000 publiés en 2021. Cette recherche a conduit à la rétractation de plus de 800 articles d’Elsevier, de Springer et autres. Cette dépollution évitera que des étudiantes et étudiants, des collègues ou des intelligences artificielles exploitent des résultats scientifiques invalides. Tout ceci interroge quant à la rigueur de l’évaluation par les pairs pratiquée par les revues établies, avec facteur d’impact(6) et publiées par les maisons d’éditions les plus prestigieuses. Bien entendu, les chercheurs vérifient leurs sources et Pubpeer est un bon outil pour cela. À titre individuel, il convient de faire preuve d’esprit critique et de recouper ses sources… des compétences enseignées très tôt et à travailler tout au long de la vie !

5 : Facteur d’impact : indicateur estimant indirectement la visibilité d'une revue scientifique. Il est basé sur la moyenne du nombre de citations des articles de cette revue publiés durant les deux années précédentes. Facteur d'impact — Wikipédia (wikipedia.org)

 

Conclusion Quai des Savoirs 

Pour Guillaume Cabanac, avoir été reconnu par la revue Nature pour son travail et par le l'Institut Universitaire de France qu'il intègre en octobre 2022 et par la société est valorisant. Ce n’est ni la reconnaissance ni l’argent qui le motive : bien que de grandes maisons d'édition lui aient proposé un emploi, il est universitaire avant tout et ne souhaite pas quitter le monde de la recherche universitaire. La reconnaissance est certes appréciable mais il est motivé par l’injustice et la destruction que les fraudes engendrent à la science et qui nuisent ainsi au bon déroulement de la recherche scientifique. 

Guillaume Cabanac espère que ses travaux permettront de compenser un peu les dégâts causés par différents scandales sur la valeur et la notoriété des universités françaises. 

 

Pour compléter :

Conférence « Pollution de la littérature scientifique : détection participative d'expressions torturées révélatrices d'articles frauduleux »

14/06/2022 à l’Université Paul Sabatier – Toulouse 3

https://www.youtube.com/watch?v=MtGMSfubD8Y

Les réponses sont partiellement tirées du texte rédigé à l’occasion de la publication de ce post https://www.univ-tlse3.fr/natures-10-guillaume-cabanac-parmi-les-10-personnalites-qui-ont-marque-la-science-en-2021

Un chercheur toulousain distingué par la revue Nature pour ses travaux sur les fausses études scientifiques (francetvinfo.fr)

---

Crédits : ©Tada Images sur AdobeStock
©momius sur AdobeStock


Loin d’être exhaustif, ce dossier a été créé dans le but d’être un panel de ressources : des interviews de chercheurs, des articles, des podcasts, des projets éducatifs, des outils … Il a été réalisé dans le but d’essayer de répondre à la question suivante :  Comment s’informer à l’ère des Fake News ?  Voici différents articles et interviews associés à des ressources complémentaires pour permettre d’approfondir cette problématique. 

 

Ce dossier a pour vocation d’être une ressource en mouvement, une ressource vivante. Si en parcourant ce dossier, des idées, des liens vous sont venus : proposez-les nous. Nous serons ravis d’enrichir ce dossier.

 

Interviews :

 

Articles :