Crise de réplication - Replication crisis

La crise de réplication (également appelée crise de réplicabilité et crise de reproductibilité ) est une crise méthodologique en cours dans laquelle il a été constaté que les résultats de nombreuses études scientifiques sont difficiles ou impossibles à reproduire . Parce que la reproductibilité des résultats empiriques est une partie essentielle de la méthode scientifique , de tels échecs sapent la crédibilité des théories qui s'appuient sur eux et potentiellement des parties substantielles des connaissances scientifiques.

La crise de réplication affecte le plus sévèrement les sciences sociales et médicales , où des efforts considérables ont été entrepris pour réexaminer les résultats classiques, afin de déterminer à la fois leur fiabilité et, si elles ne sont pas fiables, les raisons de l'échec. Les données d'enquête indiquent fortement que toutes les sciences naturelles sont également touchées.

L'expression « crise de réplication » a été inventée au début des années 2010 dans le cadre d'une prise de conscience croissante du problème. Les considérations sur les causes et les remèdes ont donné naissance à une nouvelle discipline scientifique appelée métascience , qui utilise des méthodes de recherche empirique pour examiner la pratique de la recherche empirique.

Étant donné que la recherche empirique implique à la fois l'obtention et l'analyse de données, les considérations concernant sa reproductibilité se divisent en deux catégories. La validation de l'analyse et de l'interprétation des données obtenues dans une étude est appelée reproductibilité au sens étroit et est discutée en profondeur dans les sciences computationnelles . La tâche consistant à répéter l'expérience ou l'étude d'observation pour obtenir de nouvelles données indépendantes dans le but d'arriver à des conclusions identiques ou similaires à celles d'une étude originale est appelée réplication .

Portée

Globalement

Un sondage de 2016 de 1 500 scientifiques mené par Nature a rapporté que 70 % d'entre eux n'avaient pas réussi à reproduire au moins une expérience d'un autre scientifique (dont 87 % de chimistes , 77 % de biologistes , 69 % de physiciens et ingénieurs , 67 % de chercheurs en médecine , 64 % des scientifiques de la Terre et de l' environnement et 62 % de tous les autres), tandis que 50 % n'avaient pas réussi à reproduire une de leurs propres expériences et moins de 20 % avaient déjà été contactés par un autre chercheur incapable de reproduire leur travail. Seule une minorité avait déjà tenté de publier une réplication, et alors que 24 % avaient pu publier une réplication réussie, seulement 13 % avaient publié une réplication échouée , et plusieurs répondants qui avaient publié des réplications échouées ont noté que les éditeurs et les réviseurs exigeaient qu'ils jouent comparaisons avec les études originales. En 2009, 2 % des scientifiques ont admis avoir falsifié des études au moins une fois et 14 % ont admis connaître personnellement quelqu'un qui l'a fait. Une telle inconduite était, selon une étude, signalée plus fréquemment par les chercheurs en médecine que par d'autres. Une étude de 2021 a révélé que les articles publiés dans des revues de premier plan avec des résultats qui ne peuvent pas être reproduits ont tendance à être plus cités que la science reproductible . Les résultats publiés de manière non reproductible – ou pas de manière suffisamment transparente et reproductible – sont plus susceptibles d'être erronés et peuvent ralentir les progrès. Les auteurs avancent également des explications possibles à cet état de fait.

En psychologie

Plusieurs facteurs se sont conjugués pour placer la psychologie au centre de la controverse. Selon une enquête de 2018 de 200 méta-analyses, « la recherche psychologique est, en moyenne, affligée d'une faible puissance statistique ». Une grande partie de l'accent a été mis sur le domaine de la psychologie sociale , bien que d' autres domaines de la psychologie , tels que la psychologie clinique , la psychologie du développement et la recherche en éducation ont également été mis en cause.

Premièrement, les pratiques de recherche douteuses (QRP) ont été identifiées comme courantes dans le domaine. De telles pratiques, bien que non intentionnellement frauduleuses, impliquent de capitaliser sur la zone grise des pratiques scientifiques acceptables ou d'exploiter la flexibilité dans la collecte, l'analyse et la communication des données, souvent dans le but d'obtenir le résultat souhaité. Les exemples de QRP incluent la notification sélective ou la publication partielle de données (notification uniquement de certaines des conditions de l'étude ou des mesures dépendantes collectées dans une publication), l'arrêt facultatif (choisir quand arrêter la collecte de données , souvent en fonction de la signification statistique des tests), post-hoc la narration (encadrant les analyses exploratoires comme des analyses de confirmation) et la manipulation des valeurs aberrantes (soit en supprimant les valeurs aberrantes, soit en laissant les valeurs aberrantes dans un ensemble de données pour rendre un test statistique significatif). Une enquête menée auprès de plus de 2 000 psychologues a indiqué qu'une majorité de répondants ont admis avoir utilisé au moins un QRP. Le biais de publication (voir la section « Causes » ci-dessous) conduit à un nombre élevé de résultats faussement positifs . Il est augmenté par la pression de publier ainsi que par le biais de confirmation de l'auteur et constitue un risque inhérent au domaine, nécessitant un certain degré de scepticisme de la part des lecteurs.

Deuxièmement, la psychologie et la psychologie sociale en particulier, se sont retrouvées au centre de plusieurs scandales impliquant des recherches purement et simplement frauduleuses , notamment la fabrication de données admise par Diederik Stapel ainsi que des allégations contre d'autres. Cependant, la plupart des chercheurs reconnaissent que la fraude est peut-être la moindre contribution aux crises de réplication.

Troisièmement, plusieurs effets en science psychologique se sont avérés difficiles à reproduire avant même la crise actuelle de réplication. Par exemple, la revue scientifique Judgment and Decision Making a publié plusieurs études au fil des ans qui ne parviennent pas à soutenir la théorie de la pensée inconsciente . Les réplications apparaissent particulièrement difficiles lorsque les essais de recherche sont pré-enregistrés et menés par des groupes de recherche peu investis dans la théorie en question.

Ces trois éléments réunis ont entraîné une attention renouvelée pour la réplication soutenue par le psychologue Daniel Kahneman . L'examen de nombreux effets a montré que plusieurs croyances fondamentales sont difficiles à reproduire. Une édition spéciale de 2014 de la revue Social Psychology s'est concentrée sur les études de réplication et un certain nombre de croyances antérieures se sont avérées difficiles à reproduire. Une édition spéciale 2012 de la revue Perspectives on Psychological Science s'est également concentrée sur des problèmes allant du biais de publication à l'aversion nulle qui contribuent aux crises de réplication en psychologie. En 2015, la première étude empirique ouverte sur la reproductibilité en psychologie a été publiée, appelée Reproductibility Project . Des chercheurs du monde entier ont collaboré pour reproduire 100 études empiriques de trois grandes revues de psychologie. Moins de la moitié des tentatives de réplication ont réussi à produire des résultats statistiquement significatifs dans les directions attendues, bien que la plupart des tentatives de réplication aient produit des tendances dans les directions attendues.

De nombreux essais de recherche et méta-analyses sont compromis par une mauvaise qualité et des conflits d'intérêts impliquant à la fois les auteurs et les organisations professionnelles de défense des droits , ce qui entraîne de nombreux faux positifs concernant l'efficacité de certains types de psychothérapie .

Bien que le journal britannique The Independent ait écrit que les résultats du projet de reproductibilité montrent qu'une grande partie des recherches publiées ne sont que du « psycho-babillage », la crise de réplication ne signifie pas nécessairement que la psychologie n'est pas scientifique. Ce processus fait plutôt partie du processus scientifique dans lequel les idées anciennes ou celles qui ne peuvent résister à un examen minutieux sont élaguées, bien que ce processus d'élagage ne soit pas toujours efficace. La conséquence est que certains domaines de la psychologie autrefois considérés comme solides, tels que l'amorçage social , ont fait l'objet d'un examen minutieux en raison de l'échec des réplications.

Le lauréat du prix Nobel et professeur émérite de psychologie Daniel Kahneman a fait valoir que les auteurs originaux devraient être impliqués dans l'effort de réplication parce que les méthodes publiées sont souvent trop vagues. D'autres, comme Andrew Wilson, ne sont pas d'accord, arguant que les méthodes devraient être écrites en détail. Une enquête sur les taux de réplication en psychologie en 2012 a indiqué des taux de réussite de réplication plus élevés dans les études de réplication lorsqu'il y avait un chevauchement des auteurs avec les auteurs originaux d'une étude (91,7% de taux de réplication réussie dans les études avec chevauchement d'auteur par rapport à 64,6% de taux de réplication réussie sans auteur chevauchement).

L'accent mis sur la crise de réplication a conduit à d'autres efforts renouvelés dans la discipline pour tester à nouveau des découvertes importantes. En réponse aux préoccupations concernant les biais de publication et le p- hacking , plus de 140 revues de psychologie ont adopté un examen par les pairs à l'insu des résultats où les études sont acceptées non pas sur la base de leurs résultats et après la fin des études, mais avant que les études ne soient menées et après la base de la rigueur méthodologique de leurs conceptions expérimentales et les justifications théoriques de leurs techniques d'analyse statistique avant la collecte ou l'analyse des données. Les premières analyses de cette procédure ont estimé que 61 % des études à l'insu des résultats ont conduit à des résultats nuls , contre 5 à 20 % estimés dans les recherches antérieures. De plus, les collaborations à grande échelle entre des chercheurs travaillant dans plusieurs laboratoires dans différents pays et qui rendent régulièrement leurs données librement disponibles pour que différents chercheurs puissent les évaluer sont devenues beaucoup plus courantes sur le terrain.

Taux de réplication psychologique

Un rapport de l' Open Science Collaboration en août 2015, coordonné par Brian Nosek, a estimé la reproductibilité de 100 études en sciences psychologiques provenant de trois revues de psychologie de haut rang. Dans l'ensemble, 36 % des réplications ont donné des résultats significatifs ( valeur de p inférieure à 0,05) par rapport à 97 % des études originales qui avaient des effets significatifs. La taille moyenne de l' effet dans les réplications était environ la moitié de l'ampleur des effets rapportés dans les études originales.

Le même article a examiné les taux de reproductibilité et les tailles d'effet par journal ( Journal of Personality and Social Psychology [JPSP], Journal of Experimental Psychology: Learning, Memory, and Cognition [JEP:LMC], Psychological Science [PSCI]) et par discipline ( social psychologie , psychologie du développement ). Les taux de réplication de l'étude étaient de 23 % pour le JPSP, de 48 % pour le JEP:LMC et de 38 % pour le PSCI. Les études dans le domaine de la psychologie cognitive ont un taux de réplication plus élevé (50 %) que les études dans le domaine de la psychologie sociale (25 %).

Une analyse de l'historique des publications dans les 100 meilleures revues de psychologie entre 1900 et 2012 a indiqué qu'environ 1,6 % de toutes les publications de psychologie étaient des tentatives de réplication. Les articles étaient considérés comme une tentative de réplication si le terme « réplication » apparaissait dans le texte. Un sous-ensemble de ces études (500 études) a été sélectionné au hasard pour un examen plus approfondi et a donné un taux de réplication inférieur de 1,07 % (342 des 500 études [68,4 %] étaient en fait des réplications). Dans le sous-ensemble de 500 études, l'analyse a indiqué que 78,9 % des tentatives de réplication publiées ont réussi.

Une étude publiée en 2018 dans Nature Human Behavior a cherché à reproduire 21 articles de sciences sociales et comportementales de Nature and Science , concluant que seulement 13 pouvaient être reproduits avec succès. De même, dans une étude menée sous les auspices du Center for Open Science , une équipe de 186 chercheurs de 60 laboratoires différents (représentant 36 nationalités différentes de 6 continents différents) a mené des réplications de 28 découvertes classiques et contemporaines en psychologie. L'objectif de l'étude n'était pas seulement de savoir si les résultats des articles originaux se reproduisaient ou non, mais aussi sur la mesure dans laquelle les résultats variaient en fonction des variations dans les échantillons et les contextes. Dans l'ensemble, 14 des 28 résultats ne se sont pas reproduits malgré la taille massive des échantillons. Cependant, si un résultat se reproduisait, il se reproduisait dans la plupart des échantillons, tandis que si un résultat n'était pas répliqué, il ne se reproduisait pas avec peu de variation entre les échantillons et les contextes. Cette preuve est incompatible avec une explication populaire selon laquelle les échecs de réplication en psychologie sont probablement dus à des changements dans l'échantillon entre l'étude d'origine et l'étude de réplication.

Un dilemme social disciplinaire

Soulignant la structure sociale qui décourage la réplication en psychologie, Brian D. Earp et Jim AC Everett ont énuméré cinq points expliquant pourquoi les tentatives de réplication sont rares :

  1. "Les réplications indépendantes et directes des découvertes des autres peuvent prendre beaucoup de temps pour le chercheur réplicateur"
  2. "[Les réplications] sont susceptibles de retirer de l'énergie et des ressources directement à d'autres projets qui reflètent sa propre pensée originale"
  3. "[Les réplications] sont généralement plus difficiles à publier (en grande partie parce qu'elles sont considérées comme non originales)"
  4. « Même si [les réplications] sont publiées, elles sont susceptibles d'être considérées comme des exercices de « maçonnage » plutôt que comme des contributions majeures au domaine »
  5. "[Les réplications] apportent moins de reconnaissance et de récompense, et même une sécurité de carrière de base, à leurs auteurs"

Pour ces raisons, les auteurs ont soutenu que la psychologie est confrontée à un dilemme social disciplinaire, où les intérêts de la discipline sont en contradiction avec les intérêts du chercheur individuel.

Polémique sur le « terrorisme méthodologique »

La crise de réplication de la psychologie attirant l'attention, la psychologue de l'Université de Princeton, Susan Fiske, a suscité la controverse pour avoir dénoncé les critiques de la psychologie. Elle a étiqueté ces "adversaires" non identifiés avec des noms tels que "terroriste méthodologique" et "police des données autoproclamée", et a déclaré que les critiques de la psychologie ne devraient être exprimées qu'en privé ou en contactant les journaux. Le statisticien et politologue de l'Université de Columbia, Andrew Gelman , a répondu à Fiske, affirmant qu'elle s'était trouvée prête à tolérer le "paradigme mort" des statistiques erronées et avait refusé de retirer des publications même lorsque des erreurs étaient signalées. Il a ajouté que son mandat en tant que rédactrice a été catastrophique et qu'un certain nombre d'articles publiés qu'elle a édités se sont avérés basés sur des statistiques extrêmement faibles ; l'un des propres articles publiés par Fiske comportait une erreur statistique majeure et des conclusions « impossibles ».

En médecine

Sur 49 études médicales de 1990 à 2003 avec plus de 1000 citations, 45 ont affirmé que la thérapie étudiée était efficace. Parmi ces études, 16 % ont été contredites par des études ultérieures, 16 % ont trouvé des effets plus forts que les études ultérieures, 44 % ont été répliquées et 24 % sont restées largement incontestées. La Food and Drug Administration des États -Unis en 1977-1990 a trouvé des défauts dans 10 à 20 % des études médicales. Dans un article publié en 2012, C. Glenn Begley , un consultant en biotechnologie travaillant chez Amgen , et Lee Ellis, à l'Université du Texas, ont découvert que seulement 11% des 53 études précliniques sur le cancer pouvaient être répliquées. Les études non reproductibles avaient un certain nombre de caractéristiques en commun, notamment le fait que les études n'ont pas été réalisées par des enquêteurs ignorant le bras expérimental par rapport au bras témoin, qu'il y avait un échec à répéter les expériences, un manque de témoins positifs et négatifs, un échec à montrer toutes les données , l'utilisation inappropriée de tests statistiques et l'utilisation de réactifs qui n'ont pas été validés de manière appropriée.

Une enquête menée auprès de chercheurs sur le cancer a révélé que la moitié d'entre eux n'avaient pas été en mesure de reproduire un résultat publié. Une enquête similaire de Nature sur 1 576 chercheurs qui ont répondu à un bref questionnaire en ligne sur la reproductibilité a montré que plus de 70% des chercheurs ont essayé et échoué à reproduire les expériences d'un autre scientifique, et plus de la moitié n'ont pas réussi à reproduire leurs propres expériences. "Bien que 52% des personnes interrogées conviennent qu'il existe une" crise "de reproductibilité significative, moins de 31% pensent que le fait de ne pas reproduire les résultats publiés signifie que le résultat est probablement faux, et la plupart disent qu'ils font toujours confiance à la littérature publiée."

Un article de 2016 de John Ioannidis , professeur de médecine et de recherche et politique en matière de santé à la faculté de médecine de l'université de Stanford et professeur de statistique à la faculté des sciences humaines et de l'université de Stanford, a expliqué "Pourquoi la plupart des recherches cliniques ne sont pas utiles". Dans l'article, Ioannidis exposait certains des problèmes et appelait à une réforme, caractérisant certains points pour que la recherche médicale soit à nouveau utile ; un exemple qu'il a fait était la nécessité pour la médecine d'être "centrée sur le patient" (par exemple sous la forme du Patient-Centered Outcomes Research Institute ) au lieu de la pratique actuelle consistant principalement à prendre en charge "les besoins des médecins, des chercheurs ou des sponsors". .

Dans le marketing

Le marketing est une autre discipline avec un "besoin désespéré" de réplication. De nombreuses études marketing célèbres ne sont pas répétées lors de la réplication, un exemple notable étant l'effet " trop de choix ", dans lequel un grand nombre de choix de produits rend un consommateur moins susceptible d'acheter. En plus des arguments mentionnés précédemment, des études de réplication en marketing sont nécessaires pour examiner l'applicabilité des théories et des modèles à travers les pays et les cultures, ce qui est particulièrement important en raison des influences possibles de la mondialisation .

En économie

Une étude de 2016 dans la revue Science a révélé qu'un tiers des 18 études expérimentales de deux revues économiques de premier plan ( American Economic Review et Quarterly Journal of Economics ) n'ont pas réussi à se répliquer. Une étude de 2017 dans l' Economic Journal a suggéré que « la majorité des effets moyens dans la littérature économique empirique sont exagérées par un facteur d'au moins 2 et au moins un tiers sont exagérées par un facteur de 4 ou plus ».

En sciences du sport

Une étude de 2018 a pris le domaine de l' exercice et de la science du sport à l'épreuve pour des études de réplication insuffisantes, des rapports limités de résultats nuls et insignifiants et une transparence insuffisante de la recherche. Les statisticiens ont critiqué la science du sport pour l'utilisation courante d'une méthode statistique controversée appelée « inférence basée sur la magnitude » qui a permis aux scientifiques du sport d'extraire des résultats apparemment significatifs à partir de données bruyantes là où les tests d'hypothèse ordinaires n'en auraient trouvé aucun.

Dans la gestion des ressources en eau

Une étude de 2019 dans Scientific Data a suggéré que seul un petit nombre d'articles dans des revues sur les ressources en eau et la gestion pouvaient être reproduits, tandis que la majorité des articles n'étaient pas reproductibles en raison de l'indisponibilité des données. L'étude a estimé avec une confiance de 95 % que « les résultats pourraient être reproduits pour seulement 0,6 % à 6,8 % de l'ensemble des 1 989 articles ».

Répercussions politiques

Aux États-Unis, la crise de la reproductibilité de la science est devenue un sujet de controverse politique, lié à la tentative de diminuer les réglementations – par exemple des émissions de polluants, avec l'argument que ces réglementations sont basées sur une science non reproductible. Des tentatives antérieures dans le même but accusaient les études utilisées par les régulateurs d'être non transparentes.

Sensibilisation et perceptions du public

Des inquiétudes ont été exprimées au sein de la communauté scientifique quant au fait que le grand public pourrait considérer la science comme moins crédible en raison de l'échec des réplications. Les recherches soutenant cette préoccupation sont rares, mais une enquête représentative au niveau national en Allemagne a montré que plus de 75 % des Allemands n'ont pas entendu parler d'échecs de réplication en science. L'étude a également révélé que la plupart des Allemands ont une perception positive des efforts de réplication : seuls 18 % pensent que la non-réplicabilité montre qu'on ne peut pas faire confiance à la science, tandis que 65 % pensent que la recherche de réplication montre que la science applique un contrôle de qualité, et 80 % conviennent que les erreurs et les corrections font partie de la science.

Causes 

Une cause majeure de faible reproductibilité est le biais de publication et le biais de sélection , à leur tour causés par le fait que les résultats statistiquement non significatifs sont rarement publiés ou discutés dans les publications sur les effets potentiels multiples. Parmi les effets potentiels inexistants (ou minimes), les tests statistiques montrent une significativité (au niveau habituel) avec une probabilité de 5%. Si un grand nombre de ces effets sont examinés dans le cadre d'une recherche de résultats significatifs, ces effets erronément significatifs inondent ceux trouvés de manière appropriée et conduisent à des réplications réussies (toujours à tort) avec seulement 5% de probabilité. Une proportion croissante de ces études abaisse ainsi progressivement le taux de réplication correspondant aux études d'effets plausiblement pertinents. Des résultats erronément significatifs peuvent également provenir de pratiques douteuses dans l'analyse des données appelées dragage de données ou P-hacking , HARKing et degrés de liberté des chercheurs .

C. Glenn Begley et John Ioannidis ont proposé ces causes pour l'augmentation de la chasse à l'importance :

  • Génération de nouvelles données/publications à un rythme sans précédent.
  • La majorité de ces découvertes ne résisteront pas à l'épreuve du temps.
  • Le non-respect des bonnes pratiques scientifiques et le désespoir de publier ou de périr .
  • Des intervenants multiples et variés.

Ils concluent qu'aucune partie n'est seule responsable et qu'aucune solution unique ne suffira.

Ces problèmes peuvent conduire à la canonisation de faux faits.

En fait, certaines prédictions d'une crise imminente dans le mécanisme de contrôle de la qualité de la science remontent à plusieurs décennies, en particulier parmi les chercheurs en études scientifiques et technologiques (STS). Derek de Solla Price – considéré comme le père de la scientométrie – a prédit que la science pourrait atteindre la « sénilité » en raison de sa propre croissance exponentielle. Certaines publications actuelles semblent justifier cette prophétie de « débordement », déplorant la dégradation à la fois de l'attention et de la qualité.

Le philosophe et historien des sciences Jerome R. Ravetz a prédit dans son livre de 1971 La connaissance scientifique et ses problèmes sociaux que la science - dans sa progression de la "petite" science composée de communautés isolées de chercheurs, à la "grande" science ou "techno-science" - souffrirait de problèmes majeurs dans son système interne de contrôle de la qualité. Ravetz a reconnu que la structure d'incitation pour les scientifiques modernes pourrait devenir dysfonctionnelle, maintenant connue sous le nom de défi actuel « publier ou périr », créant des incitations perverses à publier des découvertes, aussi douteuses soient-elles. Selon Ravetz, la qualité de la science n'est maintenue que lorsqu'il existe une communauté d'universitaires liés par un ensemble de normes et de standards partagés, tous disposés et capables de se tenir mutuellement responsables.

L'historien Philip Mirowski a proposé un diagnostic similaire dans son livre Science Mart (2011). Dans le titre, le mot « Mart » fait référence au géant de la vente au détail « Walmart », utilisé par Mirowski comme métaphore de la marchandisation de la science. Dans l'analyse de Mirowski, la qualité de la science s'effondre lorsqu'elle devient une marchandise échangée sur un marché. Mirowski plaide sa cause en faisant remonter le déclin de la science à la décision des grandes entreprises de fermer leurs laboratoires internes. Ils ont sous-traité leur travail aux universités dans le but de réduire les coûts et d'augmenter les profits. Les sociétés ont ensuite déplacé leurs recherches des universités vers une option encore moins chère - les organisations de recherche sous contrat (CRO).

La crise du système de contrôle de la qualité de la science affecte l'utilisation de la science pour la politique. C'est la thèse d'un travail récent d'un groupe d'universitaires STS, qui identifient dans la « politique fondée sur des preuves (ou informées) » un point de tension actuelle. L'économiste Noah Smith suggère qu'un facteur de la crise a été la surévaluation de la recherche dans les universités et la sous-évaluation des capacités d'enseignement, en particulier dans les domaines avec peu de découvertes récentes majeures.

La théorie des systèmes sociaux, due au sociologue allemand Niklas Luhmann, propose une autre lecture de la crise. Selon cette théorie, chacun des systèmes tels que « économie », « science », « religion », « médias » et ainsi de suite communique en utilisant son propre code, vrai/faux pour la science, profit/perte pour l'économie, nouveau/non- nouvelles pour les médias; selon certains sociologues, la médiatisation de la science, sa marchandisation et sa politisation, – du fait du couplage structurel entre les systèmes, ont conduit à une confusion des codes originels du système. Si le code de la science vrai/faux est remplacé par ceux des autres systèmes, tels que profit/perte, news/no-news, le fonctionnement de la science entre dans une crise interne.

Les données ouvertes, les logiciels open source et le matériel open source sont tous essentiels pour permettre la reproductibilité. L'utilisation de logiciels propriétaires, l'absence de publication de logiciels d'analyse et le manque de données ouvertes empêchent la réplication des études. À moins que le logiciel utilisé dans la recherche ne soit open source, il est impossible de reproduire les résultats avec différentes configurations logicielles et matérielles. Le CERN a à la fois des projets Open Data et CERN Analysis Preservation pour stocker les données, toutes les informations pertinentes et tous les logiciels et outils nécessaires pour préserver une analyse dans les grandes expériences du LHC . Outre tous les logiciels et données, les actifs d'analyse préservés comprennent des métadonnées qui permettent de comprendre le flux de travail d'analyse, les logiciels associés, les incertitudes systématiques, les procédures statistiques et les moyens significatifs de rechercher l'analyse, ainsi que des références à des publications et à du matériel de sauvegarde. Le logiciel du CERN est open source et disponible pour une utilisation en dehors de la physique des particules et des conseils sont fournis à d'autres domaines sur les approches et stratégies générales utilisées pour la science ouverte dans la physique des particules contemporaine.

Réponse 

La réplication a été désignée comme « la pierre angulaire de la science ». Les études de réplication tentent d'évaluer si les résultats publiés reflètent de vrais résultats ou de faux positifs. L'intégrité des découvertes scientifiques et la reproductibilité de la recherche sont importantes car elles constituent la base de connaissances sur laquelle les futures études sont construites.

Métasciences

La métascience est l'utilisation de la méthodologie scientifique pour étudier la science elle - même. La métascience cherche à augmenter la qualité de la recherche scientifique tout en réduisant les déchets. Il est également connu sous le nom de « recherche sur la recherche » et « la science de la science », car il utilise des méthodes de recherche pour étudier comment la recherche est effectuée et où des améliorations peuvent être apportées. La métascience s'intéresse à tous les domaines de recherche et a été décrite comme « une vue d'ensemble de la science ». Selon les mots de John Ioannidis , "La science est la meilleure chose qui soit arrivée aux êtres humains... mais nous pouvons le faire mieux."

Des méta-recherches continuent d'être menées pour identifier les racines de la crise et y remédier. Les méthodes pour faire face à la crise comprennent l' enregistrement préalable d'études scientifiques et d'essais cliniques ainsi que la création d'organisations telles que CONSORT et le réseau EQUATOR qui publient des directives pour la méthodologie et les rapports. Des efforts se poursuivent pour réformer le système d'incitations académiques, pour améliorer le processus d' examen par les pairs , pour réduire l' utilisation abusive des statistiques , pour lutter contre les biais dans la littérature scientifique et pour augmenter la qualité et l'efficacité globales du processus scientifique.

Lutter contre les biais de publication grâce au pré-enregistrement des études

Une innovation récente dans la publication scientifique pour faire face à la crise de réplication est l'utilisation de rapports enregistrés . Le format de rapport enregistré exige que les auteurs soumettent une description des méthodes d'étude et des analyses avant la collecte des données. Une fois que la méthode et le plan d'analyse ont été examinés par des pairs, la publication des résultats est provisoirement garantie, selon que les auteurs suivent ou non le protocole proposé. L'un des objectifs des rapports enregistrés est de contourner le biais de publication vers des résultats significatifs qui peuvent conduire à la mise en œuvre de pratiques de recherche douteuses et d'encourager la publication d'études avec des méthodes rigoureuses.

La revue Psychological Science a encouragé le pré - enregistrement des études et la communication des tailles d'effet et des intervalles de confiance. Le rédacteur en chef a également noté que l'équipe éditoriale demandera la réplication d'études avec des résultats surprenants d'examens utilisant de petits échantillons avant d'autoriser la publication des manuscrits.

De plus, seule une très faible proportion de revues universitaires en psychologie et en neurosciences ont explicitement déclaré qu'elles acceptaient les soumissions d'études de réplication dans leur objectif et leur portée ou leurs instructions aux auteurs. Ce phénomène n'encourage pas la déclaration ni même la tentative d'études de réplication.

Passer à un paradigme de systèmes complexes

Il a été avancé que les efforts de recherche travaillant dans le cadre du paradigme linéaire conventionnel aboutissent nécessairement à des difficultés de réplication. Des problèmes surviennent si les processus causaux dans le système à l'étude sont "interaction-dominante" au lieu de "composant dominant", multiplicatif au lieu d'additif, et avec de nombreuses petites interactions non linéaires produisant des phénomènes au niveau macro, qui ne sont pas réductibles à leur micro composants de niveau. Dans le contexte de systèmes aussi complexes , les modèles linéaires conventionnels produisent des réponses qui ne sont pas raisonnables, car il n'est en principe pas possible de décomposer la variance comme suggéré par le cadre du modèle linéaire général (GLM) - viser à reproduire un tel résultat est donc évidemment problématique. Les mêmes questions sont actuellement posées dans de nombreux domaines de la science, où les chercheurs commencent à remettre en question les hypothèses sous-jacentes aux méthodes statistiques classiques.

Mettre l'accent sur les tentatives de réplication dans l'enseignement

Sur la base de cours de méthodes expérimentales au MIT, à Stanford et à l' Université de Washington , il a été suggéré que les cours de méthodes en psychologie et dans d'autres domaines mettent l'accent sur les tentatives de réplication plutôt que sur les études originales. Une telle approche aiderait les étudiants à apprendre la méthodologie scientifique et fournirait de nombreuses répliques indépendantes de découvertes scientifiques significatives qui testeraient la réplicabilité des découvertes scientifiques. Certains ont recommandé que les étudiants diplômés soient tenus de publier une tentative de réplication de haute qualité sur un sujet lié à leur recherche doctorale avant l'obtention du diplôme.

Réduire la valeur p requise pour revendiquer la signification de nouveaux résultats

De nombreuses publications ont besoin d' un p -value de p <0,05 la revendication signification statistique. L'article "Redéfinir la signification statistique", signé par un grand nombre de scientifiques et de mathématiciens, propose que dans "les domaines où le seuil de définition de la signification statistique pour les nouvelles découvertes est p < 0,05, nous proposons un changement à p < 0,005. Cette étape simple améliorerait immédiatement la reproductibilité de la recherche scientifique dans de nombreux domaines.

Leur raisonnement est que « la principale cause de non-reproductibilité (que les) normes statistiques de preuves pour demander de nouvelles découvertes dans de nombreux domaines de la science sont tout simplement trop faible. ASSOCIER « statistiquement significatifs » les résultats avec p <0,05 résultats dans un taux élevé de faux positifs même en l'absence d'autres problèmes expérimentaux, procéduraux et de rapport.

Cet appel a ensuite été critiqué par un autre grand groupe, qui a fait valoir que la « redéfinition » du seuil ne résoudrait pas les problèmes actuels, en entraînerait de nouveaux et qu'en fin de compte, tous les seuils devaient être justifiés au cas par cas au lieu de suivant les conventions générales.

Remédier à la mauvaise interprétation des valeurs p

Bien que les statisticiens soient unanimes sur le fait que l'utilisation du p < 0,05 fournit des preuves plus faibles qu'on ne le pense généralement, il y a un manque d'unanimité sur ce qu'il faut faire à ce sujet. Certains ont préconisé que les méthodes bayésiennes devraient remplacer les valeurs p . Cela ne s'est pas produit à grande échelle, en partie parce que c'est compliqué, et en partie parce que de nombreux utilisateurs se méfient de la spécification des distributions antérieures en l'absence de données concrètes. Une version simplifiée de l'argument bayésien, basée sur le test d'une hypothèse nulle ponctuelle a été suggérée par Colquhoun (2014, 2017). Les problèmes logiques de l'inférence inductive ont été discutés dans "Le problème avec les valeurs p" (2016).

Les risques liés à la confiance dans les valeurs p ont été soulignés en soulignant que même l'observation de p = 0,001 n'était pas nécessairement une preuve solide contre l'hypothèse nulle. Malgré le fait que le rapport de vraisemblance en faveur de l'hypothèse alternative sur l'hypothèse nulle est proche de 100, si l'hypothèse était peu plausible, avec une probabilité a priori d'un effet réel de 0,1, même l'observation de p  = 0,001 aurait un faux positif risque de 8 pour cent. Il n'atteindrait même pas le seuil des 5 pour cent.

Il a été recommandé de ne pas utiliser les termes "significatif" et "non significatif". Les valeurs p et les intervalles de confiance doivent toujours être spécifiés, mais ils doivent être accompagnés d'une indication du risque de faux positif. Il a été suggéré que la meilleure façon de le faire est de calculer la probabilité a priori qu'il serait nécessaire de croire pour obtenir un risque de faux positif de, disons, 5 %. Les calculs peuvent se faire avec les scripts R qui sont fournis, ou, plus simplement, avec une calculatrice web. Cette approche dite bayésienne inversée, qui a été suggérée par Matthews (2001), est une façon d'éviter le problème selon lequel la probabilité a priori est rarement connue.

Encourager des échantillons de plus grande taille

Pour améliorer la qualité des réplications, des tailles d'échantillons plus grandes que celles utilisées dans l'étude originale sont souvent nécessaires. Des tailles d'échantillon plus grandes sont nécessaires car les estimations des tailles d'effet dans les travaux publiés sont souvent exagérées en raison du biais de publication et de la grande variabilité d'échantillonnage associée à de petites tailles d'échantillon dans une étude originale. De plus, l'utilisation de seuils de signification conduit généralement à des effets gonflés, car en particulier avec de petites tailles d'échantillon, seuls les effets les plus importants deviendront significatifs.

Partage de données brutes dans des référentiels en ligne

Les référentiels en ligne où les données, les protocoles et les résultats peuvent être stockés et évalués par le public cherchent à améliorer l'intégrité et la reproductibilité de la recherche. Des exemples de tels référentiels incluent Open Science Framework , Registry of Research Data Repositories et Psychfiledrawer.org. Des sites comme Open Science Framework offrent des badges pour l'utilisation de pratiques scientifiques ouvertes dans le but d'inciter les scientifiques. Cependant, certains craignent que ceux qui sont les plus susceptibles de fournir leurs données et leur code pour les analyses soient les chercheurs les plus sophistiqués. John Ioannidis de l'Université de Stanford a suggéré que "le paradoxe peut survenir selon lequel les chercheurs les plus méticuleux, les plus sophistiqués, les plus avertis et les plus prudents en matière de méthodes peuvent devenir plus sensibles aux critiques et aux attaques de réputation de la part de ré-analyseurs qui recherchent des erreurs, aussi négligeables soient-elles".

Financement des études de réplication

En juillet 2016, l' Organisation néerlandaise pour la recherche scientifique a débloqué 3 millions d'euros pour des études de réplication. Le financement est destiné à la réplication basée sur la réanalyse des données existantes et la réplication par la collecte et l'analyse de nouvelles données. Des fonds sont disponibles dans les domaines des sciences sociales, de la recherche en santé et de l'innovation en santé.

En 2013, la Fondation Laura et John Arnold a financé le lancement du Center for Open Science avec une subvention de 5,25 millions de dollars et en 2017 avait fourni un financement supplémentaire de 10 millions de dollars. Il a également financé le lancement du Meta-Research Innovation Center à Stanford à l'Université de Stanford dirigé par John Ioannidis et Steven Goodman pour étudier les moyens d'améliorer la recherche scientifique. Il a également financé l' initiative AllTrials dirigée en partie par Ben Goldacre .

Mettre l'accent sur la triangulation, pas seulement sur la réplication

Marcus R. Munafò et George Davey Smith soutiennent, dans un article publié par Nature , que la recherche devrait mettre l'accent sur la triangulation , pas seulement sur la réplication. Ils prétendent que,

la réplication à elle seule ne nous mènera pas loin (et) pourrait en fait aggraver les choses... Nous pensons qu'une protection essentielle contre les idées erronées est la triangulation. Il s'agit de l'utilisation stratégique de plusieurs approches pour répondre à une seule question. Chaque approche a ses propres hypothèses, forces et faiblesses indépendantes. Les résultats qui concordent entre les différentes méthodologies sont moins susceptibles d'être des artefacts . ... Peut-être que l'une des raisons pour lesquelles la réplication a suscité tant d'intérêt est l'idée souvent répétée que la falsification est au cœur de l'entreprise scientifique. Cette idée a été popularisée par la maxime de Karl Popper des années 1950 selon laquelle les théories ne peuvent jamais être prouvées, seulement falsifiées . Pourtant, une trop grande insistance sur la répétition des expériences pourrait fournir un sentiment de certitude infondé sur les résultats qui reposent sur une approche unique. ... les philosophes des sciences ont évolué depuis Popper. De meilleures descriptions de la façon dont les scientifiques travaillent réellement incluent ce que l'épistémologue Peter Lipton a appelé en 1991 "l'inférence à la meilleure explication".

Élever les normes générales de présentation des méthodes

Certains auteurs ont soutenu que la communication insuffisante des méthodes expérimentales est un contributeur majeur à la crise de reproductibilité et que l'amélioration de la qualité de la façon dont la conception expérimentale et les analyses statistiques sont rapportées contribuerait à améliorer la situation. Ces auteurs ont tendance à plaider à la fois pour un large changement culturel dans la communauté scientifique quant à la façon dont les statistiques sont considérées et une poussée plus coercitive de la part des revues scientifiques et des organismes de financement.

Métadonnées et outils numériques

Il a été suggéré qu'« un moyen simple de vérifier la fréquence à laquelle les études ont été répétées et si les résultats originaux sont confirmés ou non » est nécessaire. Les catégorisations ou les notations de reproductibilité au niveau de l'étude et/ou des résultats ainsi que l'ajout de liens vers et la notation des confirmations par des tiers pourraient être effectués par les pairs évaluateurs, la revue scientifique ou par les lecteurs en combinaison avec de nouvelles plateformes ou outils numériques .

Une approche de destruction créative

La réplication est fondamentale pour que les progrès scientifiques confirment les découvertes originales. Cependant, la réplication à elle seule ne suffit pas à elle seule à résoudre la crise de réplication. Les efforts de réplication devraient chercher non seulement à soutenir ou à remettre en question les résultats originaux, mais aussi à les remplacer par des théories révisées et plus solides avec un plus grand pouvoir explicatif. Cette approche implique donc d'« élaguer » les théories existantes, de comparer toutes les théories alternatives et de rendre les efforts de réplication plus génératifs et engagés dans la construction de théories.

Utilisation des études de réplication pour la thèse de dernière année

Au cours du diplôme de premier cycle, les étudiants sont tenus de soumettre une thèse de dernière année qui consiste en un travail de recherche original. Il a été recommandé non seulement d'enseigner aux étudiants la science ouverte, mais aussi d'encourager les études de réplication dans le cadre de leur projet de troisième année.

Implications pour l'industrie pharmaceutique

Les sociétés pharmaceutiques et les sociétés de capital-risque entretiennent des laboratoires de recherche ou passent des contrats avec des prestataires de services de recherche privés (par exemple, Envigo et Smart Assays Biotechnologies) dont le travail consiste à reproduire des études universitaires, afin de tester si elles sont exactes avant d'investir ou d'essayer de développer un nouveau médicament basé sur cette recherche. Les enjeux financiers sont élevés pour l'entreprise et les investisseurs, il est donc rentable pour eux d'investir dans des réplications exactes. L'exécution d'études de réplication consomme des ressources. De plus, faire une réplication experte nécessite non seulement une expertise générique en méthodologie de recherche, mais une expertise spécifique dans le sujet d'intérêt souvent restreint. Parfois, la recherche nécessite des compétences et des connaissances techniques spécifiques, et seuls les chercheurs dédiés à un domaine de recherche restreint peuvent avoir ces compétences. À l'heure actuelle, les agences de financement sont rarement intéressées à financer des études de réplication, et la plupart des revues scientifiques ne sont pas intéressées à publier de tels résultats. Les chercheurs sur le cancer d'Amgen Oncology n'ont pu reproduire que 11 % des 53 études innovantes qu'ils ont choisies pour poursuivre sur une période de 10 ans ; une analyse réalisée en 2011 par des chercheurs de la société pharmaceutique Bayer a révélé que les conclusions internes de la société ne concordaient avec les résultats originaux que dans un quart du temps tout au plus. L'analyse a également révélé que, lorsque les scientifiques de Bayer étaient capables de reproduire un résultat dans une expérience de réplication directe, il avait tendance à bien se traduire en applications cliniques ; ce qui signifie que la reproductibilité est un marqueur utile du potentiel clinique.

Voir également

Les références

Lectures complémentaires