Échantillon (statistiques) - Sample (statistics)

Une représentation visuelle de la sélection d'un échantillon aléatoire simple

En statistique et en méthodologie de recherche quantitative , un échantillon est un ensemble d'individus ou d'objets collectés ou sélectionnés à partir d'une population statistique par une procédure définie. Les éléments d'un échantillon sont connus comme des points d' échantillonnage , les unités d'échantillonnage ou d' observations. Lorsqu'il est conçu comme un ensemble de données, un échantillon est souvent désigné par des lettres romaines majuscules telles et , avec ses éléments exprimés en minuscules (par exemple, ) et la taille de l'échantillon désignée par la lettre .

En règle générale, la population est très importante, ce qui rend un recensement ou un dénombrement complet de tous les individus de la population soit impraticable, soit impossible. L'échantillon représente généralement un sous-ensemble de taille gérable. Des échantillons sont collectés et des statistiques sont calculées à partir des échantillons, de sorte que l'on puisse faire des inférences ou des extrapolations de l'échantillon à la population.

L'échantillon peut être tiré d'une population « sans remise » (c'est-à-dire qu'aucun élément ne peut être sélectionné plus d'une fois dans le même échantillon), auquel cas il s'agit d'un sous - ensemble d'une population ; ou « avec remplacement » (c'est-à-dire qu'un élément peut apparaître plusieurs fois dans un même échantillon), auquel cas il s'agit d'un sous-ensemble multiple.

Types d'échantillons

Un échantillon complet est un ensemble d'objets d'une population parente qui comprend tous ces objets qui satisfont à un ensemble de critères de sélection bien définis. Par exemple, un échantillon complet d'hommes australiens mesurant plus de 2 m consisterait en une liste de tous les hommes australiens mesurant plus de 2 m. Mais cela n'inclurait pas les hommes allemands, ni les femmes australiennes de grande taille, ni les personnes de moins de 2 m. Donc, pour compiler un tel échantillon complet, il faut une liste complète de la population parentale, y compris des données sur la taille, le sexe et la nationalité pour chaque membre de cette population parentale. Dans le cas des populations humaines, il est peu probable qu'une liste aussi complète existe (la population humaine se compte en milliards). Mais de tels échantillons complets sont souvent disponibles dans d'autres disciplines, telles que l'ensemble des joueurs d'une grande ligue sportive, les dates de naissance des membres d'un parlement ou une liste complète d'objets astronomiques à magnitude limitée.

Un échantillon non biaisé (représentatif) est un ensemble d'objets choisis parmi un échantillon complet, en utilisant un processus de sélection qui ne dépend pas des propriétés des objets. Par exemple, un échantillon non biaisé d'hommes australiens mesurant plus de 2 m pourrait consister en un sous-ensemble échantillonné au hasard de 1 % d'hommes australiens mesurant plus de 2 m. Mais une personne choisie sur la liste électorale pourrait ne pas être impartiale puisque, par exemple, les hommes de moins de 18 ans ne seront pas inscrits sur la liste électorale. Dans un contexte astronomique, un échantillon non biaisé peut être constitué de la fraction d'un échantillon complet pour laquelle des données sont disponibles, à condition que la disponibilité des données ne soit pas biaisée par les propriétés de la source individuelle.

La meilleure façon d'éviter un échantillon biaisé ou non représentatif est de sélectionner un échantillon aléatoire, également appelé échantillon probabiliste. Un échantillon aléatoire est défini comme un échantillon dans lequel chaque membre individuel de la population a une chance connue et non nulle d'être sélectionné dans le cadre de l'échantillon. Plusieurs types d'échantillons aléatoires sont simples échantillons aléatoires , des échantillons systématiques , des échantillons aléatoires stratifiés , et des échantillons aléatoires groupe .

Un échantillon qui n'est pas aléatoire est appelé échantillon non aléatoire ou échantillonnage non probabiliste . Voici quelques exemples d'échantillons non aléatoires sont des échantillons de commodité , des échantillons de jugement , des échantillons téléologique , des échantillons de quotas , échantillons de boules de neige et des noeuds en quadrature dans des méthodes quasi-Monte Carlo .

Description mathématique de l'échantillon aléatoire

En termes mathématiques, étant donné une distribution de probabilité F , un échantillon aléatoire de longueur n (où n peut être n'importe quel nombre entier positif) est un ensemble de réalisations de n variables aléatoires indépendantes et identiquement distribuées ( iid ) de distribution F .

Un échantillon représente concrètement les résultats de n expériences dans lesquelles la même quantité est mesurée. Par exemple, si nous voulons estimer la taille moyenne des membres d'une population particulière, nous mesurons la taille de n individus. Chaque mesure est tirée de la distribution de probabilité F caractérisant la population, ainsi chaque hauteur mesurée est la réalisation d'une variable aléatoire de distribution F . A noter qu'un ensemble de variables aléatoires (c'est-à-dire un ensemble de fonctions mesurables) ne doit pas être confondu avec les réalisations de ces variables (qui sont les valeurs que prennent ces variables aléatoires). En d' autres termes, est une fonction représentant la mesure à la i expérience -ième, et est la valeur obtenue lors de la mesure.

Voir également

Remarques

Liens externes