Glossaire de probabilités et statistiques - Glossary of probability and statistics
Glossaire Wikipedia
La plupart des termes répertoriés dans les glossaires de Wikipédia sont déjà définis et expliqués dans Wikipédia lui-même. Cependant, des glossaires comme celui-ci sont utiles pour rechercher, comparer et examiner ensemble un grand nombre de termes. Vous pouvez aider à améliorer cette page en ajoutant de nouveaux termes ou en écrivant des définitions pour les termes existants.
Une étude statistique dans laquelle l'objectif est de mesurer l'effet d'une variable sur le résultat d'une variable différente. Par exemple, comment me sentirai-je mal de tête si je prends de l'aspirine, par rapport à si je ne prends pas d'aspirine? Les études causales peuvent être expérimentales ou observationnelles.
Dans une étude statistique, les concomitants sont toutes les variables dont les valeurs ne sont pas affectées par les traitements, telles que l'âge, le sexe et le taux de cholestérol d'une unité avant de commencer un régime (traitement).
Étant donné deux variables aléatoires X et Y distribuées conjointement , la distribution de probabilité conditionnelle de Y étant donné X (écrite « Y | X ») est la distribution de probabilité de Y lorsque X est connu pour être une valeur particulière
La probabilité d'un événement A, en supposant l'événement B. La probabilité conditionnelle s'écrit P ( A | B ), et se lit "la probabilité de A , étant donné B "
Dans les statistiques inférentielles, un IC est une plage de valeurs plausibles pour un paramètre, comme la moyenne de la population. Par exemple, sur la base d'une étude des habitudes de sommeil chez 100 personnes, un chercheur peut estimer que la population globale dort entre 5 et 9 heures par nuit. Ceci est différent de la moyenne de l'échantillon, qui peut être mesurée directement.
un niveau de confiance
Également appelé coefficient de confiance, le niveau de confiance indique la probabilité que l'intervalle de confiance (intervalle) capture la vraie moyenne de la population. Par exemple, un intervalle de confiance avec un niveau de confiance de 95% a 95% de chances de capturer la moyenne de la population. Techniquement, cela signifie que si l'expérience était répétée plusieurs fois, 95% des IC contiendraient la vraie moyenne de la population.
Aussi appelé coefficient de corrélation, une mesure numérique de la force de la relation linéaire entre deux variables aléatoires (on peut l'utiliser pour quantifier, par exemple, comment la taille et la taille des chaussures sont corrélées dans la population). Un exemple est le coefficient de corrélation produit-moment de Pearson , qui est obtenu en divisant la covariance des deux variables par le produit de leurs écarts-types. Les variables indépendantes ont une corrélation de 0. Une corrélation de population est souvent représentée par le symbole , tandis qu'une corrélation d'échantillon par .
Étant donné deux variables aléatoires X et Y , avec des valeurs attendues et , la covariance est définie comme la valeur attendue de la variable aléatoire et est écrite . Il est utilisé pour mesurer la corrélation.
Un événement avec un seul élément. Par exemple, lorsque vous retirez une carte d'un deck, "obtenir le valet de pique" est un événement élémentaire, alors que "obtenir un roi ou un as" ne l'est pas.
Une fonction des données connues qui est utilisée pour estimer un paramètre inconnu; une estimation est le résultat de l'application réelle de la fonction à un ensemble particulier de données. La moyenne peut être utilisée comme estimateur
Somme de la probabilité de chaque résultat possible de l'expérience multipliée par son gain («valeur»). Ainsi, il représente le montant moyen que l'on «s'attend» à gagner par pari si des paris avec des cotes identiques sont répétés plusieurs fois. Par exemple, la valeur attendue d'un jet de dé à six faces est de 3,5. Le concept est similaire à la moyenne. La valeur attendue de la variable aléatoire X s'écrit typiquement E (X) pour l'opérateur et ( mu ) pour le paramètre.
Un sous-ensemble de l'espace échantillon (résultat d'une expérience possible), auquel une probabilité peut être attribuée. Par exemple, en lançant un dé, "obtenir un cinq ou un six" est un événement (avec une probabilité d'un tiers si le dé est juste)
Une mesure des observations extrêmes peu fréquentes (valeurs aberrantes) de la distribution de probabilité d'une variable aléatoire à valeur réelle. Un kurtosis plus élevé signifie qu'une plus grande partie de la variance est due à des écarts extrêmes peu fréquents, par opposition à des écarts fréquents de taille modeste
Une fonction de probabilité conditionnelle considérée comme une fonction de son deuxième argument avec son premier argument maintenu fixe. Par exemple, imaginez tirer une balle numérotée avec le nombre k d'un sac de n balles, numérotées de 1 à n. Ensuite, vous pourriez décrire une fonction de vraisemblance pour la variable aléatoire N comme la probabilité d'obtenir k étant donné qu'il y a n boules: la vraisemblance sera 1 / n pour n supérieur ou égal à k, et 0 pour n plus petit que k. Contrairement à une fonction de distribution de probabilité, cette fonction de vraisemblance ne totalisera pas 1 sur l'espace d'échantillonnage
Étant donné deux variables aléatoires X et Y distribuées conjointement , la distribution marginale de X est simplement la distribution de probabilité de X ignorant les informations sur Y
La probabilité d'un événement, ignorant toute information sur d'autres événements. La probabilité marginale de A s'écrit P ( A ). Contraste avec la probabilité conditionnelle
Une collection d'événements est mutuellement indépendante si, pour un sous-ensemble de la collection, la probabilité conjointe de tous les événements se produisant est égale au produit des probabilités conjointes des événements individuels. Pensez au résultat d'une série de tirages au sort. C'est une condition plus forte que l'indépendance par paire
L'énoncé testé dans un test de signification statistique Habituellement, l'hypothèse nulle est une affirmation «sans effet» ou «sans différence». "Par exemple, si l'on voulait tester si la lumière a un effet sur le sommeil, l'hypothèse nulle serait qu'il n'y a aucun effet, il est souvent symbolisé par H 0 .
Peut être un paramètre de population, un paramètre de distribution, un paramètre non observé (avec différentes nuances de sens). En statistique, c'est souvent une quantité à estimer
Dans l'inférence bayésienne , cela représente des croyances antérieures ou d'autres informations disponibles avant que de nouvelles données ou observations ne soient prises en compte
Décrit la probabilité dans une distribution de probabilité continue. Par exemple, vous ne pouvez pas dire que la probabilité qu'un homme mesure six pieds est de 20%, mais vous pouvez dire qu'il a 20% de chances d'avoir entre cinq et six pieds. La densité de probabilité est donnée par une fonction de densité de probabilité. Contraste avec la masse de probabilité
Une fonction mesurable sur un espace de probabilité, souvent à valeur réelle. La fonction de distribution d'une variable aléatoire donne la probabilité de résultats différents. Nous pouvons également dériver la moyenne et la variance d'une variable aléatoire
Dans une étude statistique, toutes les variables dont les valeurs peuvent avoir été affectées par les traitements, comme le taux de cholestérol après avoir suivi un régime particulier pendant six mois.
La moyenne arithmétique d'un échantillon de valeurs tirées de la population. Il est indiqué par . Un exemple est le score moyen au test d'un sous-ensemble de 10 étudiants d'une classe. La moyenne de l'échantillon est utilisée comme estimateur de la moyenne de la population, qui, dans cet exemple, serait la note moyenne au test de tous les élèves de la classe.
Un processus de sélection d'observations pour obtenir des connaissances sur une population. Il existe de nombreuses méthodes pour choisir sur quel échantillon effectuer les observations
Une mesure de l'asymétrie de la distribution de probabilité d'une variable aléatoire à valeur réelle. En gros, une distribution a une asymétrie positive (asymétrique à droite) si la queue supérieure est plus longue et une asymétrie négative (asymétrique à gauche) si la queue inférieure est plus longue (confondre les deux est une erreur courante)
Résultat de l'application d'un algorithme statistique à un ensemble de données. Elle peut également être décrite comme une variable aléatoire observable
Deux événements sont indépendants si le résultat de l'un n'affecte pas celui de l'autre (par exemple, obtenir un 1 sur un jet de dé n'affecte pas la probabilité d'obtenir un 1 sur un second jet). De même, lorsque nous affirmons que deux variables aléatoires sont indépendantes, nous voulons dire intuitivement que connaître quelque chose sur la valeur de l'une d'elles ne donne aucune information sur la valeur de l'autre.
Inférence sur une population d'un échantillon aléatoire tiré de celle-ci ou, plus généralement, sur un processus aléatoire à partir de son comportement observé pendant une période de temps finie
Un ensemble d'entités sur lesquelles des inférences statistiques doivent être tirées, souvent basées sur un échantillonnage aléatoire. On peut aussi parler d'une population de mesures ou de valeurs
Variables dans une étude statistique qui sont conceptuellement manipulables. Par exemple, dans une étude sur la santé, suivre un certain régime est un traitement alors que l'âge ne l'est pas.
Peut faire référence à chaque répétition individuelle quand on parle d'une expérience composée d'un nombre fixe d'entre elles. À titre d'exemple, on peut penser qu'une expérience est un nombre quelconque de un à n tirages de pièces, disons 17. Dans ce cas, un tirage au sort peut être appelé un essai pour éviter toute confusion, puisque toute l'expérience est composée de 17 unités.
Dans une étude statistique, les objets auxquels les traitements sont attribués. Par exemple, dans une étude examinant les effets de la cigarette, les unités seraient des personnes.
Une mesure de sa dispersion statistique d'une variable aléatoire, indiquant à quelle distance de la valeur attendue ses valeurs sont généralement. La variance de la variable aléatoire X est généralement désigné comme , ou tout simplement