Biais d'échantillonnage - Sampling bias

En statistique , le biais d'échantillonnage est un biais dans lequel un échantillon est collecté de telle sorte que certains membres de la population visée aient une probabilité d'échantillonnage plus faible ou plus élevée que d'autres. Il en résulte un échantillon biaisé d'une population (ou de facteurs non humains) dans laquelle tous les individus, ou instances, n'étaient pas également susceptibles d'avoir été sélectionnés. Si cela n'est pas pris en compte, les résultats peuvent être attribués à tort au phénomène à l'étude plutôt qu'à la méthode d' échantillonnage .

Les sources médicales désignent parfois le biais d'échantillonnage comme un biais de vérification . Le biais de détermination a fondamentalement la même définition, mais est encore parfois classé comme un type distinct de biais.

Distinction du biais de sélection

Le biais d'échantillonnage est généralement classé comme un sous-type de biais de sélection , parfois spécifiquement appelé biais de sélection d'échantillon , mais certains le classent comme un type distinct de biais. Une distinction, bien que non universellement acceptée, du biais d'échantillonnage est qu'il sape la validité externe d'un test (la capacité de ses résultats à être généralisés à l'ensemble de la population), tandis que le biais de sélection concerne principalement la validité interne des différences ou des similitudes trouvées dans les échantillon à portée de main. En ce sens, les erreurs survenant dans le processus de collecte de l'échantillon ou de la cohorte entraînent un biais d'échantillonnage, tandis que des erreurs dans tout processus ultérieur entraînent un biais de sélection.

Cependant, le biais de sélection et le biais d'échantillonnage sont souvent utilisés comme synonymes.

Les types

  • Sélection à partir d'une zone réelle spécifique . Par exemple, une enquête auprès d'élèves du secondaire pour mesurer la consommation de drogues illégales par les adolescents sera un échantillon biaisé car elle n'inclut pas les élèves scolarisés à domicile ou les décrocheurs. Un échantillon est également biaisé si certains membres sont sous-représentés ou surreprésentés par rapport à d'autres dans la population. Par exemple, un entretien « homme de la rue » qui sélectionne des personnes qui passent à un certain endroit va avoir une surreprésentation d'individus en bonne santé qui sont plus susceptibles d'être à l'extérieur de la maison que les personnes atteintes d'une maladie chronique. Il peut s'agir d'une forme extrême d'échantillonnage biaisé, car certains membres de la population sont totalement exclus de l'échantillon (c'est-à-dire qu'ils ont une probabilité nulle d'être sélectionnés).
  • Biais d' auto-sélection (voir aussi Biais de non-réponse ), qui est possible chaque fois que le groupe de personnes étudiées a une forme quelconque de contrôle sur sa participation (comme les normes actuelles d' éthique de la recherche sur les sujets humains exigent pour de nombreux temps réel et certains formes d'études longitudinales). La décision des participants de participer peut être corrélée à des traits qui affectent l'étude, faisant des participants un échantillon non représentatif. Par exemple, les personnes qui ont des opinions bien arrêtées ou des connaissances approfondies peuvent être plus disposées à consacrer du temps à répondre à un sondage que celles qui n'en ont pas. Un autre exemple est celui des sondages en ligne et par téléphone , qui sont des échantillons biaisés parce que les répondants sont auto-sélectionnés. Les personnes qui sont très motivées à répondre, généralement les personnes qui ont des opinions bien arrêtées, sont surreprésentées, et les personnes indifférentes ou apathiques sont moins susceptibles de répondre. Cela conduit souvent à une polarisation des réponses, les perspectives extrêmes se voyant accorder un poids disproportionné dans le résumé. En conséquence, ces types de sondages sont considérés comme non scientifiques.
  • Le biais d'exclusion résulte de l'exclusion de groupes particuliers de l'échantillon, par exemple l'exclusion de sujets qui ont récemment migré dans la zone d'étude (cela peut se produire lorsque les nouveaux arrivants ne sont pas disponibles dans un registre utilisé pour identifier la population source). Exclure les sujets qui quittent la zone d'étude au cours du suivi équivaut plutôt à un abandon ou à une non-réponse, un biais de sélection en ce sens qu'il affecte plutôt la validité interne de l'étude.
  • Biais d'utilisateur sain , lorsque la population étudiée est probablement en meilleure santé que la population générale. Par exemple, il est peu probable qu'une personne en mauvaise santé occupe un emploi de travailleur manuel.
  • L'erreur de Berkson , lorsque la population étudiée est sélectionnée dans un hôpital et est donc en moins bonne santé que la population générale. Cela peut entraîner une fausse corrélation négative entre les maladies : un patient hospitalisé sans diabète est plus susceptible d'avoir une autre maladie donnée telle que la cholécystite , car il doit avoir eu une raison d'entrer à l'hôpital en premier lieu.
  • Overmatching , correspondant à un facteur de confusion apparentqui est en réalité le résultat de l'exposition. Le groupe témoin devient plus semblable aux cas en ce qui concerne l'exposition que la population générale.
  • Biais de survie , dans lequel seuls les sujets « survivants » sont sélectionnés, en ignorant ceux qui sont tombés hors de vue. Par exemple, utiliser le dossier des entreprises actuelles comme indicateur du climat des affaires ou de l'économie ignore les entreprises qui ont échoué et qui n'existent plus.
  • Biais de Malmquist , un effet en astronomie d'observation qui conduit à la détection préférentielle d'objets intrinsèquement brillants.

Échantillonnage basé sur les symptômes

L'étude des conditions médicales commence par des rapports anecdotiques. De par leur nature, ces rapports n'incluent que ceux référés pour diagnostic et traitement. Un enfant qui ne peut pas fonctionner à l'école est plus susceptible de recevoir un diagnostic de dyslexie qu'un enfant qui lutte mais passe. Un enfant examiné pour une condition est plus susceptible d'être testé et diagnostiqué avec d'autres conditions, ce qui fausse les statistiques de comorbidité . À mesure que certains diagnostics sont associés à des problèmes de comportement ou à une déficience intellectuelle , les parents essaient d'éviter que leurs enfants ne soient stigmatisés par ces diagnostics, introduisant ainsi un biais supplémentaire. Des études soigneusement sélectionnées à partir de populations entières montrent que de nombreuses affections sont beaucoup plus courantes et généralement beaucoup plus bénignes qu'on ne le croyait auparavant.

Tronquer la sélection dans les études généalogiques

Exemple de pedigree simple de biais d'échantillonnage

Les généticiens sont limités dans la façon dont ils peuvent obtenir des données sur les populations humaines. À titre d'exemple, considérons une caractéristique humaine. Nous sommes intéressés à décider si la caractéristique est héritée comme un simple trait mendélien . Suivant les lois de l'hérédité mendélienne , si les parents d'une famille n'en ont pas la caractéristique, mais en portent l'allèle, ils en sont porteurs (par exemple un hétérozygote non expressif ). Dans ce cas, leurs enfants auront chacun 25 % de chances de présenter la caractéristique. Le problème se pose parce que nous ne pouvons pas dire quelles familles ont les deux parents comme porteurs (hétérozygotes) à moins qu'elles n'aient un enfant qui présente la caractéristique. La description suit le manuel de Sutton.

La figure montre les pedigrees de toutes les familles possibles avec deux enfants lorsque les parents sont porteurs (Aa).

  • Sélection non tronquée . Dans un monde parfait, nous devrions pouvoir découvrir toutes ces familles avec un gène, y compris celles qui sont simplement porteuses. Dans cette situation, l'analyse serait exempte de biais de détermination et les pedigrees seraient sous "sélection non tronquée". En pratique, la plupart des études identifient et incluent les familles dans une étude basée sur le fait qu'elles ont des individus affectés.
  • Tronquer la sélection . Lorsque les individus affligés ont une chance égale d'être inclus dans une étude, cela s'appelle la sélection tronquée, signifiant l'exclusion (troncature) par inadvertance des familles qui sont porteuses d'un gène. Étant donné que la sélection est effectuée au niveau individuel, les familles avec deux enfants atteints ou plus auraient une probabilité plus élevée d'être incluses dans l'étude.
  • La sélection tronquée complète est un cas particulier où chaque famille avec un enfant atteint a une chance égale d'être sélectionnée pour l'étude.

Les probabilités de chacune des familles sélectionnées sont indiquées dans la figure, la fréquence d'échantillonnage des enfants affectés étant également indiquée. Dans ce cas simple, le chercheur recherchera une fréquence de 4 / 7 ou 5 / 8 pour la caractéristique, en fonction du type de sélection de troncature utilisé.

L'effet homme des cavernes

Un exemple de biais de sélection est appelé « effet homme des cavernes ». Une grande partie de notre compréhension des peuples préhistoriques provient des grottes, telles que les peintures rupestres réalisées il y a près de 40 000 ans. S'il y avait eu des peintures contemporaines sur des arbres, des peaux d'animaux ou des coteaux, elles auraient été emportées depuis longtemps. De même, les preuves de foyers, de dépotoirs , de lieux de sépulture , etc. sont les plus susceptibles de rester intactes jusqu'à l'ère moderne dans les grottes. Les peuples préhistoriques sont associés aux grottes parce que c'est là que les données existent encore, pas nécessairement parce que la plupart d'entre eux ont vécu dans des grottes pendant la majeure partie de leur vie.

Problèmes dus au biais d'échantillonnage

Le biais d'échantillonnage est problématique car il est possible qu'une statistique calculée sur l'échantillon soit systématiquement erronée. Le biais d'échantillonnage peut conduire à une sur- ou sous-estimation systématique du paramètre correspondant dans la population. Un biais d'échantillonnage se produit dans la pratique car il est pratiquement impossible d'assurer un caractère aléatoire parfait dans l'échantillonnage. Si le degré de fausse déclaration est faible, l'échantillon peut être traité comme une approximation raisonnable d'un échantillon aléatoire. De plus, si l'échantillon ne diffère pas de manière marquée dans la quantité mesurée, un échantillon biaisé peut toujours être une estimation raisonnable.

Le mot biais a une forte connotation négative. En effet, les biais proviennent parfois d'une intention délibérée d'induire en erreur ou d'autres fraudes scientifiques . Dans l'usage statistique, le biais représente simplement une propriété mathématique, peu importe s'il est délibéré ou inconscient ou dû à des imperfections dans les instruments utilisés pour l'observation. Alors que certaines personnes peuvent délibérément utiliser un échantillon biaisé pour produire des résultats trompeurs, le plus souvent, un échantillon biaisé n'est que le reflet de la difficulté à obtenir un échantillon vraiment représentatif, ou de l'ignorance du biais dans leur processus de mesure ou d'analyse. Un exemple de la façon dont l'ignorance d'un biais peut exister est l'utilisation généralisée d'un rapport (alias changement de pli ) comme mesure de différence en biologie. Parce qu'il est plus facile d'obtenir un grand rapport avec deux petits nombres avec une différence donnée, et relativement plus difficile d'obtenir un grand rapport avec deux grands nombres avec une plus grande différence, de grandes différences significatives peuvent être manquées lors de la comparaison de mesures numériques relativement grandes. Certains ont appelé cela un «biais de démarcation» parce que l'utilisation d'un rapport (division) au lieu d'une différence (soustraction) supprime les résultats de l'analyse de la science en pseudoscience (voir problème de démarcation ).

Certains échantillons utilisent un plan statistique biaisé qui permet néanmoins d'estimer des paramètres. Le National Center for Health Statistics des États-Unis , par exemple, suréchantillonne délibérément les populations minoritaires dans bon nombre de ses enquêtes nationales afin d'obtenir une précision suffisante pour les estimations au sein de ces groupes. Ces enquêtes nécessitent l'utilisation de poids d'échantillonnage (voir plus loin) pour produire des estimations appropriées pour tous les groupes ethniques. Pourvu que certaines conditions soient remplies (principalement que les poids soient calculés et utilisés correctement), ces échantillons permettent une estimation précise des paramètres de la population.

Exemples historiques

Exemple d'échantillon biaisé : en juin 2008, 55 % des navigateurs Web ( Internet Explorer ) utilisés n'ont pas réussi le test Acid2 . En raison de la nature du test, l'échantillon était principalement composé de développeurs Web.

Un exemple classique d'échantillon biaisé et des résultats trompeurs qu'il a produit s'est produit en 1936. Au début des sondages d'opinion, le magazine American Literary Digest a collecté plus de deux millions de sondages postaux et a prédit que le candidat républicain à l' élection présidentielle américaine , Alf Landon , battrait le président sortant, Franklin Roosevelt , par une large marge. Le résultat fut exactement le contraire. L'enquête Literary Digest représentait un échantillon recueilli auprès des lecteurs du magazine, complété par des dossiers de propriétaires d'automobiles enregistrés et d'utilisateurs du téléphone. Cet échantillon comprenait une surreprésentation d'individus riches, qui, en tant que groupe, étaient plus susceptibles de voter pour le candidat républicain. En revanche, un sondage de seulement 50 000 citoyens sélectionnés par l'organisation de George Gallup a prédit avec succès le résultat, conduisant à la popularité du sondage Gallup .

Un autre exemple classique s'est produit lors de l' élection présidentielle de 1948 . Le soir des élections, le Chicago Tribune a publié le titre DEWEY BAT TRUMAN , qui s'est avéré être une erreur. Dans la matinée, le président élu souriant , Harry S. Truman , a été photographié tenant un journal portant ce titre. La raison pour laquelle la Tribune s'est trompée est que leur rédacteur en chef a fait confiance aux résultats d'un sondage téléphonique . La recherche par sondage en était alors à ses balbutiements et peu d'universitaires se sont rendu compte qu'un échantillon d'utilisateurs du téléphone n'était pas représentatif de la population générale. Les téléphones n'étaient pas encore répandus et ceux qui en possédaient avaient tendance à être prospères et à avoir des adresses stables. (Dans de nombreuses villes, l' annuaire téléphonique du Système Bell contenait les mêmes noms que le Registre social ). De plus, le sondage Gallup sur lequel la Tribune a basé son titre datait de plus de deux semaines au moment de l'impression.

Dans les données sur la qualité de l'air , les polluants (tels que le monoxyde de carbone , le monoxyde d'azote , le dioxyde d'azote ou l' ozone ) présentent souvent des corrélations élevées , car ils proviennent du ou des mêmes processus chimiques. Ces corrélations dépendent de l'espace (c'est-à-dire de l'emplacement) et du temps (c'est-à-dire la période). Par conséquent, une distribution de polluants n'est pas nécessairement représentative pour chaque endroit et chaque période. Si un instrument de mesure à faible coût est calibré avec des données de terrain de manière multivariée, plus précisément par collocation à côté d'un instrument de référence, les relations entre les différents composés sont incorporées dans le modèle de calibration. En déplaçant l'instrument de mesure, des résultats erronés peuvent être produits.

Un exemple plus récent est la pandémie de COVID-19 , où il a été démontré que les variations du biais d'échantillonnage dans les tests COVID-19 expliquent de grandes variations dans les taux de létalité et la répartition par âge des cas entre les pays.

Corrections statistiques pour un échantillon biaisé

Si des segments entiers de la population sont exclus d'un échantillon, aucun ajustement ne peut produire des estimations représentatives de l'ensemble de la population. Mais si certains groupes sont sous-représentés et que le degré de sous-représentation peut être quantifié, alors les poids d'échantillon peuvent corriger le biais. Cependant, le succès de la correction est limité au modèle de sélection choisi. Si certaines variables manquent, les méthodes utilisées pour corriger le biais pourraient être inexactes.

Par exemple, une population hypothétique pourrait comprendre 10 millions d'hommes et 10 millions de femmes. Supposons qu'un échantillon biaisé de 100 patients comprenne 20 hommes et 80 femmes. Un chercheur pourrait corriger ce déséquilibre en fixant un poids de 2,5 pour chaque mâle et de 0,625 pour chaque femelle. Cela ajusterait toutes les estimations pour atteindre la même valeur attendue qu'un échantillon qui comprenait exactement 50 hommes et 50 femmes, à moins que les hommes et les femmes diffèrent dans leur probabilité de participer à l'enquête.

Voir également

Les références