Erreurs de type I et de type II - Type I and type II errors

Dans les tests d'hypothèses statistiques , une erreur de type I est le rejet erroné de l' hypothèse nulle (également connue sous le nom de résultat ou conclusion « faux positif » ; exemple : « une personne innocente est condamnée »), tandis qu'une erreur de type IIest l'acceptation erronée de l'hypothèse nulle (également appelée constatation ou conclusion « faux négatif » ; exemple : « un coupable n'est pas condamné »). Une grande partie de la théorie statistique tourne autour de la minimisation de l'une ou des deux de ces erreurs, bien que l'élimination complète de l'une ou de l'autre soit une impossibilité statistique si le résultat n'est pas déterminé par un processus causal connu et observable. En sélectionnant une valeur seuil (seuil) basse et en modifiant le niveau alpha (p), la qualité du test d'hypothèse peut être augmentée. La connaissance des erreurs de type I et des erreurs de type II est largement utilisée en science médicale , en biométrie et en informatique .

Intuitivement, les erreurs de type I peuvent être considérées comme des erreurs de commission , c'est-à-dire que le chercheur conclut malheureusement que quelque chose est le fait. Par exemple, considérons une étude dans laquelle des chercheurs comparent un médicament à un placebo. Si les patients qui reçoivent le médicament vont mieux que les patients qui ont reçu le placebo par hasard, il peut sembler que le médicament est efficace, mais en fait la conclusion est incorrecte. A l'inverse, les erreurs de type II sont des erreurs d' omission . Dans l'exemple ci-dessus, si les patients qui ont reçu le médicament ne s'amélioraient pas à un taux plus élevé que ceux qui ont reçu le placebo, mais qu'il s'agissait d'un coup de chance, ce serait une erreur de type II. La conséquence d'une erreur de type II dépend de la taille et de la direction de la détermination manquée et des circonstances. Un remède coûteux pour un patient sur un million peut être sans conséquence même s'il s'agit vraiment d'un remède.

Définition

Contexte statistique

Dans la théorie des tests statistiques , la notion d' erreur statistique fait partie intégrante des tests d'hypothèses . Le test consiste à choisir environ deux propositions concurrentes appelées hypothèse nulle , notée H 0 et hypothèse alternative , notée H 1 . Ceci est conceptuellement similaire au jugement dans un procès devant un tribunal. L'hypothèse nulle correspond à la position de l'accusé : de même qu'il est présumé innocent jusqu'à preuve du contraire, l'hypothèse nulle est présumée vraie jusqu'à ce que les données apportent des preuves convaincantes contre elle. L'hypothèse alternative correspond à la position contre le défendeur. Plus précisément, l'hypothèse nulle implique également l'absence de différence ou l'absence d'association. Ainsi, l'hypothèse nulle ne peut jamais être qu'il existe une différence ou une association.

Si le résultat du test correspond à la réalité, alors une décision correcte a été prise. Cependant, si le résultat du test ne correspond pas à la réalité, une erreur s'est produite. Il existe deux situations dans lesquelles la décision est erronée. L'hypothèse nulle peut être vraie, alors que nous rejetons H 0 . En revanche, l'hypothèse alternative H 1 peut être vraie, alors que nous ne rejetons pas H 0 . On distingue deux types d'erreur : l'erreur de type I et l'erreur de type II.

Erreur de type I

Le premier type d'erreur est le rejet erroné d'une hypothèse nulle à la suite d'une procédure de test. Ce type d'erreur est appelé erreur de type I (faux positif) et est parfois appelé erreur du premier type.

Pour ce qui est de l'exemple de la salle d'audience, une erreur de type I correspond à la condamnation d'un accusé innocent.

Erreur de type II

Le deuxième type d'erreur est l'acceptation erronée de l'hypothèse nulle comme résultat d'une procédure de test. Ce type d'erreur est appelé erreur de type II (faux négatif) et est également appelé erreur du deuxième type.

Pour ce qui est de l'exemple de la salle d'audience, une erreur de type II correspond à l'acquittement d'un criminel.

Taux d'erreur de croisement

Le taux d'erreur de croisement (CER) est le point auquel les erreurs de type I et les erreurs de type II sont égales et représente le meilleur moyen de mesurer l'efficacité d'une biométrie. Un système avec une valeur CER inférieure offre plus de précision qu'un système avec une valeur CER plus élevée.

Faux positif et faux négatif

Voir plus d'informations dans : Faux positif et faux négatif

En termes de faux positifs et de faux négatifs, un résultat positif correspond au rejet de l'hypothèse nulle, tandis qu'un résultat négatif correspond à l'échec du rejet de l'hypothèse nulle ; « faux » signifie que la conclusion tirée est incorrecte. Ainsi, une erreur de type I équivaut à un faux positif, et une erreur de type II équivaut à un faux négatif.

Tableau des types d'erreurs

Relations tabularisées entre vérité/fausseté de l'hypothèse nulle et résultats du test :

 Tableau des types d'erreurs
L'hypothèse nulle ( H 0 ) est
 
Vrai Faux
Décision
sur l'
hypothèse nulle ( H 0 )
Ne
rejetez pas

Inférence correcte
(vrai négatif)

(probabilité = 1− α )

Erreur de type II
(faux négatif)
(probabilité = β
Rejeter Erreur de type I
(faux positif)
(probabilité = α

Inférence correcte
(vrai positif)

(probabilité = 1− β )
 

Taux d'erreur

Les résultats obtenus à partir d'échantillons négatifs (courbe de gauche) se chevauchent avec les résultats obtenus à partir d'échantillons positifs (courbe de droite). En déplaçant la valeur seuil du résultat (barre verticale), le taux de faux positifs (FP) peut être diminué, au prix d'une augmentation du nombre de faux négatifs (FN), ou vice versa. (TP = vrais positifs, TN = vrais négatifs)

Un test parfait aurait zéro faux positif et zéro faux négatif. Cependant, les méthodes statistiques sont probabilistes et il est impossible de savoir avec certitude si les conclusions statistiques sont correctes. Chaque fois qu'il y a une incertitude, il y a la possibilité de faire une erreur. Compte tenu de cette nature de la science statistique, tous les tests d'hypothèses statistiques ont une probabilité de faire des erreurs de type I et de type II.

  • Le taux d'erreur de type I ou niveau de signification est la probabilité de rejeter l'hypothèse nulle étant donné qu'elle est vraie. Il est désigné par la lettre grecque (alpha) et est également appelé niveau alpha. Habituellement, le niveau de signification est fixé à 0,05 (5 %), ce qui implique qu'il est acceptable d'avoir une probabilité de 5 % de rejeter à tort la véritable hypothèse nulle.
  • Le taux d'erreur de type II est désigné par la lettre grecque (beta) et lié à la puissance d'un test , qui est égale à 1−β.

Ces deux types de taux d'erreur sont comparés l'un à l'autre : pour un ensemble d'échantillons donné, l'effort pour réduire un type d'erreur entraîne généralement une augmentation de l'autre type d'erreur.

La qualité du test d'hypothèse

La même idée peut être exprimée en termes de taux de résultats corrects et donc utilisée pour minimiser les taux d'erreur et améliorer la qualité du test d'hypothèse. Pour réduire la probabilité de commettre une erreur de type I, rendre la valeur alpha (p) plus stricte est assez simple et efficace. Pour diminuer la probabilité de commettre une erreur de type II, qui est étroitement associée à la puissance des analyses, augmenter la taille de l'échantillon du test ou relâcher le niveau alpha pourrait augmenter la puissance des analyses. Une statistique de test est robuste si le taux d'erreur de type I est contrôlé.

La variation de différentes valeurs de seuil (seuil) pourrait également être utilisée pour rendre le test plus spécifique ou plus sensible, ce qui à son tour élève la qualité du test. Par exemple, imaginez un test médical, dans lequel l'expérimentateur pourrait mesurer la concentration d'une certaine protéine dans l'échantillon de sang. L'expérimentateur pourrait ajuster le seuil (ligne verticale noire sur la figure) et les personnes seraient diagnostiquées comme ayant des maladies si un nombre est détecté au-dessus de ce certain seuil. Selon l'image, changer le seuil entraînerait des changements de faux positifs et de faux négatifs, correspondant à un mouvement sur la courbe.

Exemple

Étant donné que dans une expérience réelle, il est impossible d'éviter toutes les erreurs de type I et de type II, il est important de considérer le niveau de risque que l'on est prêt à prendre pour rejeter H 0 ou accepter H 0 à tort . La solution à cette question serait de déclarer la valeur p ou le niveau de signification de la statistique. Par exemple, si la valeur p d'un résultat statistique de test est estimée à 0,0596, alors il y a une probabilité de 5,96 % que nous rejetions à tort H 0 . Ou, si nous disons que la statistique est effectuée au niveau α, comme 0,05, alors nous permettons de rejeter faussement H 0 à 5%. Un niveau de signification α de 0,05 est relativement courant, mais il n'existe pas de règle générale qui s'adapte à tous les scénarios.

Mesure de la vitesse du véhicule

La limite de vitesse d'une autoroute aux États-Unis est de 120 kilomètres par heure. Un appareil est configuré pour mesurer la vitesse des véhicules qui passent. Supposons que l'appareil effectue trois mesures de la vitesse d'un véhicule qui passe, en enregistrant sous forme d'échantillon aléatoire X 1 , X 2 , X 3 . La police de la circulation infligera ou non des amendes aux conducteurs en fonction de la vitesse moyenne . C'est-à-dire que la statistique de test

De plus, nous supposons que les mesures X 1 , X 2 , X 3 sont modélisées comme une distribution normale N(μ,4). Ensuite, devrait suivre N(μ,4/3) et le paramètre représente la vitesse réelle du véhicule qui passe. Dans cette expérience, l'hypothèse nulle H 0 et l'hypothèse alternative H 1 devraient être

H 0 : =120 contre H 1 : 1 >120.

Si nous effectuons le niveau statistique à α=0,05, alors une valeur critique c doit être calculée pour résoudre

Selon la règle de changement d'unités pour la distribution normale. En se référant à la table Z , nous pouvons obtenir

Ici, la région critique. C'est-à-dire que si la vitesse enregistrée d'un véhicule est supérieure à la valeur critique 121,9, le conducteur se verra infliger une amende. Cependant, il y a encore 5% des conducteurs qui reçoivent une fausse amende puisque la vitesse moyenne enregistrée est supérieure à 121,9 mais la vraie vitesse ne dépasse pas 120, ce qui, disons, est une erreur de type I.

L'erreur de type II correspond au cas où la vitesse réelle d'un véhicule est supérieure à 120 kilomètres à l'heure mais le conducteur ne reçoit pas d'amende. Par exemple, si la vitesse réelle d'un véhicule μ=125, la probabilité que le conducteur ne reçoive pas d'amende peut être calculée comme suit

ce qui signifie que si la vitesse réelle d'un véhicule est de 125, la conduite a une probabilité de 0,36 % d'éviter l'amende lorsque la statistique est effectuée au niveau 125 puisque la vitesse moyenne enregistrée est inférieure à 121,9. Si la vitesse réelle est plus proche de 121,9 que de 125, la probabilité d'éviter l'amende sera également plus élevée.

Les compromis entre l'erreur de type I et l'erreur de type II doivent également être pris en compte. C'est-à-dire, dans ce cas, si la police de la circulation ne veut pas imposer de fausses amendes aux conducteurs innocents, le niveau α peut être défini sur une valeur plus petite, comme 0,01. Cependant, si tel est le cas, davantage de conducteurs dont la vitesse réelle est supérieure à 120 kilomètres à l'heure, comme 125, seraient plus susceptibles d'éviter l'amende.

Étymologie

En 1928, Jerzy Neyman (1894-1981) et Egon Pearson (1895-1980), tous deux éminents statisticiens, discutèrent des problèmes associés à « décider si oui ou non un échantillon particulier peut être jugé comme susceptible d'avoir été tiré au hasard d'une certaine population " : et, comme l'a fait remarquer Florence Nightingale David , "il est nécessaire de se rappeler que l'adjectif 'aléatoire' [dans le terme 'échantillon aléatoire'] doit s'appliquer à la méthode de prélèvement de l'échantillon et non à l'échantillon lui-même".

Ils ont identifié « deux sources d'erreur », à savoir :

(a) l'erreur de rejeter une hypothèse qui n'aurait pas dû être rejetée, et
(b) l'erreur de ne pas rejeter une hypothèse qui aurait dû être rejetée.

En 1930, ils ont élaboré sur ces deux sources d'erreur, en remarquant que :

... en testant des hypothèses, deux considérations doivent être gardées à l'esprit, nous devons être en mesure de réduire le risque de rejeter une hypothèse vraie à une valeur aussi basse que souhaitée ; le test doit être conçu de manière à rejeter l'hypothèse testée lorsqu'elle est susceptible d'être fausse.

En 1933, ils constatent que ces "problèmes sont rarement présentés sous une forme telle que l'on puisse discriminer avec certitude l'hypothèse vraie et fausse". Ils ont également noté qu'en décidant de ne pas rejeter ou de rejeter une hypothèse particulière parmi un "ensemble d'hypothèses alternatives", H 1 , H 2 ..., il était facile de faire une erreur :

...[et] ces erreurs seront de deux sortes :

(I) on rejette H 0 [c'est-à-dire l'hypothèse à tester] lorsqu'elle est vraie,
(II) nous ne parvenons pas à rejeter H 0 lorsqu'une hypothèse alternative H A ou H 1 est vraie. (Il existe différentes notations pour l'alternative).

Dans tous les articles co-écrits par Neyman et Pearson, l'expression H 0 signifie toujours "l'hypothèse à tester".

Dans le même article, ils appellent ces deux sources d'erreur, respectivement les erreurs de type I et les erreurs de type II.

Termes connexes

Hypothèse nulle

Il est de pratique courante pour les statisticiens d'effectuer des tests afin de déterminer si une « hypothèse spéculative » concernant les phénomènes observés du monde (ou de ses habitants) peut être appuyée ou non. Les résultats de ces tests déterminent si un ensemble particulier de résultats est raisonnablement en accord (ou en désaccord) avec l'hypothèse spéculée.

Partant du principe qu'il est toujours supposé, par convention statistique , que l'hypothèse spéculée est fausse, et l' hypothèse dite « nulle » que les phénomènes observés se produisent simplement par hasard (et que, par conséquent, l'agent spéculé n'a aucune effet) – le test déterminera si cette hypothèse est vraie ou fausse. C'est pourquoi l'hypothèse à tester est souvent appelée hypothèse nulle (très probablement, inventée par Fisher (1935, p. 19)), car c'est cette hypothèse qui doit être soit annulée, soit non annulée par le test. Lorsque l'hypothèse nulle est annulée, il est possible de conclure que les données soutiennent « l' hypothèse alternative » (qui est l'hypothèse originale).

L'application cohérente par les statisticiens de la convention de Neyman et Pearson consistant à représenter « l'hypothèse à tester » (ou « l'hypothèse à annuler ») avec l'expression H 0 a conduit à des circonstances où beaucoup comprennent le terme « l'hypothèse nulle » comme signifiant « l' hypothèse nulle  » – une déclaration selon laquelle les résultats en question sont le fruit du hasard. Ce n'est pas nécessairement le cas - la restriction clé, selon Fisher (1966), est que " l'hypothèse nulle doit être exacte, c'est-à-dire exempte d'imprécision et d'ambiguïté, car elle doit fournir la base du " problème de distribution ", dont le test de signification est la solution. » En conséquence, en science expérimentale, l'hypothèse nulle est généralement une déclaration selon laquelle un traitement particulier n'a aucun effet ; en science observationnelle, c'est qu'il n'y a pas de différence entre la valeur d'une variable mesurée particulière et celle d'une prédiction expérimentale.

Signification statistique

Si la probabilité d'obtenir un résultat aussi extrême que celui obtenu, en supposant que l'hypothèse nulle était vraie, est inférieure à une probabilité seuil prédéfinie (par exemple, 5 %), alors le résultat est dit statistiquement significatif et l'hypothèse nulle est rejetée.

Le statisticien britannique Sir Ronald Aylmer Fisher (1890-1962) a souligné que « l'hypothèse nulle » :

... n'est jamais prouvé ou établi, mais peut-être réfuté, au cours de l'expérimentation. On peut dire que toute expérience n'existe que pour donner aux faits une chance de réfuter l'hypothèse nulle.

—  Fisher, 1935, p.19

Domaines d'application

Médicament

Dans la pratique de la médecine, les différences entre les applications du dépistage et des tests sont considérables.

Dépistage médical

Le dépistage implique des tests relativement bon marché qui sont administrés à de grandes populations, dont aucun ne présente d'indication clinique de maladie (par exemple, frottis Pap ).

Les tests impliquent des procédures beaucoup plus coûteuses, souvent invasives, qui ne sont administrées qu'à ceux qui manifestent une indication clinique de la maladie et sont le plus souvent appliquées pour confirmer un diagnostic suspecté.

Par exemple, la plupart des États des États-Unis exigent que les nouveau-nés subissent un dépistage de la phénylcétonurie et de l' hypothyroïdie , entre autres troubles congénitaux .

Hypothèse : « Les nouveau-nés ont une phénylcétonurie et une hypothyroïdie »

Hypothèse nulle (H 0 ) : « Les nouveau-nés n'ont pas de phénylcétonurie et d'hypothyroïdie »,

Erreur de type I (faux positif) : Le fait est que les nouveau-nés n'ont pas de phénylcétonurie et d'hypothyroïdie mais nous considérons qu'ils ont les troubles selon les données.

Erreur de type II (faux négatif) : Le fait est que les nouveau-nés ont une phénylcétonurie et une hypothyroïdie mais nous considérons qu'ils n'ont pas les troubles selon les données.

Bien qu'ils affichent un taux élevé de faux positifs, les tests de dépistage sont considérés comme précieux car ils augmentent considérablement la probabilité de détecter ces troubles à un stade beaucoup plus précoce.

Les tests sanguins simples utilisés pour dépister les donneurs de sang potentiels pour le VIH et l' hépatite ont un taux important de faux positifs ; cependant, les médecins utilisent des tests beaucoup plus coûteux et beaucoup plus précis pour déterminer si une personne est réellement infectée par l'un ou l'autre de ces virus.

Peut-être que les faux positifs les plus débattus dans l' examen médical proviennent de la procédure de dépistage du cancer du sein mammographie . Le taux américain de mammographies faussement positives atteint jusqu'à 15 %, le plus élevé au monde. Une conséquence du taux élevé de faux positifs aux États-Unis est que, sur une période de 10 ans, la moitié des femmes américaines dépistées reçoivent une mammographie faussement positive. Les mammographies faussement positives sont coûteuses, avec plus de 100 millions de dollars dépensés chaque année aux États-Unis pour les tests de suivi et le traitement. Ils causent également aux femmes une anxiété inutile. En raison du taux élevé de faux positifs aux États-Unis, jusqu'à 90 à 95 % des femmes qui passent une mammographie positive n'ont pas la maladie. Le taux le plus bas au monde est aux Pays-Bas, 1%. Les taux les plus bas se trouvent généralement en Europe du Nord où les films de mammographie sont lus deux fois et un seuil élevé pour des tests supplémentaires est défini (le seuil élevé diminue la puissance du test).

Le test de dépistage de population idéal serait bon marché, facile à administrer et ne produirait aucun faux négatif, si possible. De tels tests produisent généralement plus de faux positifs, qui peuvent ensuite être triés par des tests plus sophistiqués (et plus coûteux).

Tests médicaux

Les faux négatifs et les faux positifs sont des problèmes importants dans les tests médicaux .

Hypothèse : « Les patients ont la maladie spécifique.

Hypothèse nulle (H 0 ) : « Les patients n'ont pas la maladie spécifique.

Erreur de type I (faux positif) : « Le vrai fait est que les patients n'ont pas de maladie spécifique mais les médecins jugent que les patients étaient malades d'après les rapports de test. »

Les faux positifs peuvent également produire des problèmes graves et contre-intuitifs lorsque la maladie recherchée est rare, comme dans le dépistage. Si un test a un taux de faux positifs d'un sur dix mille, mais qu'un seul échantillon (ou personnes) sur un million est un vrai positif, la plupart des positifs détectés par ce test seront faux. La probabilité qu'un résultat positif observé soit un faux positif peut être calculée en utilisant le théorème de Bayes .

Erreur de type II (faux négatif) : « Le fait est que la maladie est réellement présente, mais les rapports de test fournissent un message faussement rassurant aux patients et aux médecins que la maladie est absente ».

Les faux négatifs produisent des problèmes graves et contre-intuitifs, surtout lorsque la condition recherchée est courante. Si un test avec un taux de faux négatifs de seulement 10 % est utilisé pour tester une population avec un taux d'occurrence réel de 70 %, bon nombre des négatifs détectés par le test seront faux.

Cela conduit parfois à un traitement inapproprié ou inadéquat à la fois du patient et de sa maladie. Un exemple courant consiste à s'appuyer sur des tests d'effort cardiaque pour détecter l'athérosclérose coronarienne, même si les tests d' effort cardiaque sont connus pour détecter uniquement les limitations du débit sanguin des artères coronaires dues à une sténose avancée .

Biométrie

La correspondance biométrique, telle que la reconnaissance des empreintes digitales , la reconnaissance faciale ou la reconnaissance de l'iris , est sensible aux erreurs de type I et de type II.

Hypothèse : « L'entrée n'identifie pas quelqu'un dans la liste de personnes recherchée »

Hypothèse nulle : « L'entrée identifie une personne dans la liste de personnes recherchée »

Erreur de type I (faux taux de rejet) : « Le vrai fait est que la personne est quelqu'un dans la liste recherchée mais le système conclut que la personne n'est pas conforme aux données. »

Erreur de type II (taux de fausses correspondances) : « Le vrai fait est que la personne n'est pas quelqu'un dans la liste recherchée mais le système conclut que la personne est une personne que nous recherchons selon les données. »

La probabilité d'erreurs de type I est appelée "taux de faux rejet" (FRR) ou taux de faux non-correspondance (FNMR), tandis que la probabilité d'erreurs de type II est appelée "taux de fausses acceptations" (FAR) ou taux de fausses correspondances ( RMF).

Si le système est conçu pour apparier rarement les suspects, la probabilité d'erreurs de type II peut être appelée le « taux de fausses alarmes ». D'un autre côté, si le système est utilisé pour la validation (et l'acceptation est la norme), alors le FAR est une mesure de la sécurité du système, tandis que le FRR mesure le niveau de désagrément de l'utilisateur.

Contrôle de sécurité

Articles principaux: détection d'explosifs et détecteur de métaux

Des faux positifs sont régulièrement détectés chaque jour dans les contrôles de sécurité des aéroports , qui sont en fin de compte des systèmes d' inspection visuelle . Les alarmes de sécurité installées sont destinées à empêcher l'introduction d'armes dans les avions ; pourtant, ils sont souvent réglés sur une sensibilité si élevée qu'ils alertent plusieurs fois par jour pour des objets mineurs, tels que des clés, des boucles de ceinture, de la monnaie, des téléphones portables et des punaises dans les chaussures.

Ici, l'hypothèse est : « L'objet est une arme.

L'hypothèse nulle : « L'objet n'est pas une arme.

Erreur de type I (faux positif) : « Le fait est que l'objet n'est pas une arme mais que le système sonne toujours. »

Erreur de type II (faux négatif) « Le fait est que l'objet est une arme mais le système reste silencieux pour le moment. »

Le rapport des faux positifs (identifier un voyageur innocent comme terroriste) aux vrais positifs (détecter un terroriste potentiel) est donc très élevé ; et parce que presque chaque alarme est un faux positif, la valeur prédictive positive de ces tests de dépistage est très faible.

Le coût relatif des faux résultats détermine la probabilité que les créateurs de tests permettent à ces événements de se produire. Comme le coût d'un faux négatif dans ce scénario est extrêmement élevé (ne pas détecter une bombe embarquée dans un avion pourrait entraîner des centaines de morts) tandis que le coût d'un faux positif est relativement faible (une inspection supplémentaire raisonnablement simple) le plus approprié Le test est un test avec une faible spécificité statistique mais une sensibilité statistique élevée (un test qui permet un taux élevé de faux positifs en échange d'un minimum de faux négatifs).

Des ordinateurs

Les notions de faux positifs et de faux négatifs sont largement répandues dans le domaine des ordinateurs et des applications informatiques, notamment la sécurité informatique , le filtrage anti - spam , les logiciels malveillants , la reconnaissance optique de caractères et bien d'autres.

Par exemple, dans le cas du filtrage anti-spam, l'hypothèse est ici que le message est un spam.

Ainsi, hypothèse nulle : « Le message n'est pas un spam.

Erreur de type I (faux positif) : « Les techniques de filtrage ou de blocage du spam classent à tort un message électronique légitime comme spam et, par conséquent, interfèrent avec sa livraison ».

Alors que la plupart des tactiques anti-spam peuvent bloquer ou filtrer un pourcentage élevé d'e-mails indésirables, le faire sans créer de résultats faux positifs significatifs est une tâche beaucoup plus exigeante.

Erreur de type II (faux négatif) : « Le courrier indésirable n'est pas détecté comme du courrier indésirable, mais est classé comme non-spam ». Un faible nombre de faux négatifs est un indicateur de l'efficacité du filtrage anti-spam.

Voir également

Les références

Bibliographie

  • Betz, MA & Gabriel, KR , "Erreurs de type IV et analyse des effets simples", Journal of Educational Statistics , Vol.3, No.2, (Été 1978), pp. 121–144.
  • David, FN, "A Power Function for Tests of Randomness in a Sequence of Alternatives", Biometrika , Vol.34, Nos.3/4, (Décembre 1947), pp. 335-339.
  • Fisher, RA, The Design of Experiments , Oliver & Boyd (Édimbourg), 1935.
  • Gambrill, W., "False Positives on Newborns' Disease Tests Worry Parents", Journée de la santé , (5 juin 2006). [1]
  • Kaiser, HF, "Directional Statistical Decisions", Psychological Review , Vol.67, No.3, (Mai 1960), pp. 160-167.
  • Kimball, AW, "Errors of the Third Kind in Statistical Consulting", Journal of the American Statistical Association , Vol.52, No.278, (Juin 1957), pp. 133-142.
  • Lubin, A., "L'interprétation de l'interaction significative", Mesures éducatives et psychologiques , Vol.21, No.4, (Hiver 1961), pp. 807-817.
  • Marascuilo, LA & Levin, JR, "Appropriate Post Hoc Comparisons for Interaction and Nested Hypotheses in Analysis of Variance Designs: The Elimination of Type-IV Errors", American Educational Research Journal , Vol.7., No.3, (Mai 1970 ), p. 397-421.
  • Mitroff, II & Featheringham, TR, "Sur la résolution de problèmes systémiques et l'erreur du troisième type", Behavioral Science , Vol.19, No.6, (Novembre 1974), pp. 383-393.
  • Mosteller, F., "A k -Sample Slippage Test for an Extreme Population", The Annals of Mathematical Statistics , Vol.19, No.1, (Mars 1948), pp. 58-65.
  • Moulton, RT, "Network Security", Datamation , Vol.29, No.7, (Juillet 1983), pp. 121-127.
  • Raiffa, H., Analyse de la décision : Cours d'introduction sur les choix en situation d'incertitude , Addison-Wesley, (Reading), 1968.

Liens externes

  • Biais et confusion  – présentation de Nigel Paneth, Graduate School of Public Health, University of Pittsburgh