Inférence bayésienne - Bayesian inference

L'inférence bayésienne est une méthode d' inférence statistique dans laquelle le théorème de Bayes est utilisé pour mettre à jour la probabilité d'une hypothèse à mesure que davantage de preuves ou d' informations deviennent disponibles. L'inférence bayésienne est une technique importante en statistique , et en particulier en statistique mathématique . La mise à jour bayésienne est particulièrement importante dans l' analyse dynamique d'une séquence de données . L'inférence bayésienne a trouvé des applications dans un large éventail d'activités, notamment la science , l' ingénierie , la philosophie , la médecine , le sport et le droit . Dans la philosophie de la théorie de la décision , l'inférence bayésienne est étroitement liée à la probabilité subjective, souvent appelée « probabilité bayésienne ».

Introduction à la règle de Bayes

Une visualisation géométrique du théorème de Bayes. Dans le tableau, les valeurs 2, 3, 6 et 9 donnent les poids relatifs de chaque condition et cas correspondant. Les chiffres désignent les cellules du tableau impliquées dans chaque métrique, la probabilité étant la fraction de chaque chiffre qui est ombrée. Cela montre que P(A|B) P(B) = P(B|A) P(A) soit P(A|B) = P(B|A) P(A)/P(B). Un raisonnement similaire peut être utilisé pour montrer que P(¬A|B) =P(B|¬A) P(¬A)/P(B) etc.

Explication formelle

Tableau de contingence
Hypothèse


Preuve
Satisfait l'
hypothèse
H
Viole l'
hypothèse
¬H

Le total
A la preuve
E
P(H|E)·P(E)
= P(E|H)·P(H)
P(¬H|E)·P(E)
= P(E|¬H)·P(¬H)
P(E)
Aucune preuve
¬E
P(H|¬E)·P(¬E)
= P(¬E|H)·P(H)
P(¬H|¬E)·P(¬E)
= P(¬E|¬H)·P(¬H)
P(¬E) =
1−P(E)
Le total    P(H) P(¬H) = 1−P(H) 1

L'inférence bayésienne dérive la probabilité postérieure en conséquence de deux antécédents : une probabilité a priori et une « fonction de vraisemblance » dérivée d'un modèle statistique pour les données observées. L'inférence bayésienne calcule la probabilité postérieure selon le théorème de Bayes :

  • représente toute hypothèse dont la probabilité peut être affectée par les données (appelée preuve ci-dessous). Il existe souvent des hypothèses concurrentes et la tâche consiste à déterminer laquelle est la plus probable.
  • , la probabilité a priori , est l'estimation de la probabilité de l'hypothèse avant que les données , la preuve actuelle, soient observées.
  • , la preuve , correspond à de nouvelles données qui n'ont pas été utilisées dans le calcul de la probabilité a priori.
  • , la probabilité a posteriori , est la probabilité de donné , c'est-à-dire après est observé. C'est ce que nous voulons savoir : la probabilité d'une hypothèse étant donné les preuves observées.
  • est la probabilité d'observer donnée , et s'appelle la vraisemblance . En fonction de avec fixe, il indique la compatibilité de la preuve avec l'hypothèse donnée. La fonction de vraisemblance est fonction de la preuve, , tandis que la probabilité postérieure est fonction de l'hypothèse, .
  • est parfois appelée probabilité marginale ou « preuve modèle ». Ce facteur est le même pour toutes les hypothèses possibles envisagées (comme le montre le fait que l'hypothèse n'apparaît nulle part dans le symbole, contrairement à tous les autres facteurs), donc ce facteur n'entre pas dans la détermination des probabilités relatives de différents hypothèses.

Pour différentes valeurs de , seuls les facteurs et , tous deux dans le numérateur, affectent la valeur de - la probabilité postérieure d'une hypothèse est proportionnelle à sa probabilité antérieure (sa probabilité inhérente) et à la probabilité nouvellement acquise (sa compatibilité avec la nouvelle preuve observée ).

La règle de Bayes peut aussi s'écrire comme suit :

car

et

où est "pas ", la négation logique de .

Un moyen rapide et facile de se souvenir de l'équation serait d'utiliser la règle de multiplication :

Alternatives à la mise à jour bayésienne

La mise à jour bayésienne est largement utilisée et pratique en termes de calcul. Cependant, ce n'est pas la seule règle de mise à jour qui pourrait être considérée comme rationnelle.

Ian Hacking a noté que les arguments traditionnels du « livre néerlandais » ne spécifiaient pas la mise à jour bayésienne : ils laissaient ouverte la possibilité que les règles de mise à jour non bayésiennes puissent éviter les livres néerlandais. Hacking a écrit « Et ni l'argument du livre néerlandais ni aucun autre dans l'arsenal personnaliste de preuves des axiomes de probabilité n'implique l'hypothèse dynamique. Aucun n'implique le bayésianisme. Ainsi, le personnaliste exige que l'hypothèse dynamique soit bayésienne. personnaliste pourrait abandonner le modèle bayésien d'apprentissage par l'expérience. Le sel pourrait perdre de sa saveur.

En effet, il existe des règles de mise à jour non bayésiennes qui évitent également les livres néerlandais (comme discuté dans la littérature sur la « cinématique de probabilité ») suite à la publication de la règle de Richard C. Jeffrey , qui applique la règle de Bayes au cas où la preuve elle-même se voit attribuer une probabilité. Les hypothèses supplémentaires nécessaires pour exiger uniquement une mise à jour bayésienne ont été jugées substantielles, compliquées et insatisfaisantes.

Description formelle de l'inférence bayésienne

Définitions

  • , un point de données en général. Il peut s'agir en fait d'un vecteur de valeurs.
  • , le paramètre de la distribution du point de données, c'est-à-dire . Il peut s'agir d'un vecteur de paramètres.
  • , l' hyperparamètre de la distribution des paramètres, c'est-à-dire . Cela peut être un vecteur d'hyperparamètres.
  • est l'échantillon, un ensemble de points de données observés, c'est-à-dire .
  • , un nouveau point de données dont la distribution doit être prédite.

Inférence bayésienne

  • La distribution a priori est la distribution du ou des paramètres avant qu'aucune donnée ne soit observée, c'est-à-dire . La distribution antérieure pourrait ne pas être facilement déterminée; dans un tel cas, une possibilité peut être d'utiliser le Jeffreys avant d'obtenir une distribution antérieure avant de la mettre à jour avec des observations plus récentes.
  • La distribution d'échantillonnage est la distribution des données observées conditionnée à ses paramètres, c'est-à-dire . C'est ce qu'on appelle aussi la vraisemblance , surtout lorsqu'on la considère en fonction du ou des paramètres, parfois écrits .
  • La vraisemblance marginale (parfois aussi appelée la preuve ) est la distribution des données observées marginalisées sur le(s) paramètre(s), c'est-à-dire .
  • La distribution a posteriori est la distribution du ou des paramètres après prise en compte des données observées. Ceci est déterminé par la règle de Bayes , qui constitue le cœur de l'inférence bayésienne :
.

Ceci est exprimé en mots comme « postérieur est proportionnel aux temps de vraisemblance antérieurs », ou parfois comme « postérieur = temps de vraisemblance antérieurs, par rapport à l'évidence ».

  • En pratique, pour presque tous les modèles bayésiens complexes utilisés en apprentissage automatique, la distribution postérieure n'est pas obtenue sous une forme fermée, principalement parce que l'espace des paramètres pour peut être très élevé, ou le modèle bayésien conserve une certaine structure hiérarchique formulée à partir des observations et paramètre . Dans de telles situations, nous devons recourir à des techniques d'approximation.

prédiction bayésienne

La théorie bayésienne appelle à l'utilisation de la distribution prédictive postérieure pour faire une inférence prédictive , c'est-à-dire pour prédire la distribution d'un nouveau point de données non observé. C'est-à-dire qu'au lieu d'un point fixe comme prédiction, une distribution sur des points possibles est renvoyée. Ce n'est qu'ainsi que toute la distribution postérieure du ou des paramètres est utilisée. Par comparaison, la prédiction dans les statistiques fréquentistes implique souvent de trouver une estimation ponctuelle optimale du ou des paramètres - par exemple, par maximum de vraisemblance ou estimation maximale a posteriori (MAP) - puis de brancher cette estimation dans la formule de distribution d'un point de données . Cela présente l'inconvénient de ne tenir compte d'aucune incertitude dans la valeur du paramètre et, par conséquent, de sous-estimer la variance de la distribution prédictive.

(Dans certains cas, les statistiques fréquentistes peuvent contourner ce problème. Par exemple, les intervalles de confiance et les intervalles de prédiction dans les statistiques fréquentistes lorsqu'ils sont construits à partir d'une distribution normale avec une moyenne et une variance inconnues sont construits à l'aide d'une distribution t de Student . Cela estime correctement la variance, en raison du fait que (1) la moyenne des variables aléatoires normalement distribuées est également normalement distribuée, et (2) la distribution prédictive d'un point de données normalement distribué avec une moyenne et une variance inconnues, utilisant des priors conjugués ou non informatifs, a un t- de Student Dans les statistiques bayésiennes, cependant, la distribution prédictive postérieure peut toujours être déterminée exactement, ou du moins à un niveau de précision arbitraire lorsque des méthodes numériques sont utilisées.

Les deux types de distributions prédictives ont la forme d'une distribution de probabilité composée (tout comme la vraisemblance marginale ). En fait, si la distribution a priori est une distribution a priori conjuguée , telle que les distributions a priori et postérieure proviennent de la même famille, on peut voir que les distributions prédictives a priori et postérieures proviennent également de la même famille de distributions composées. La seule différence est que la distribution prédictive postérieure utilise les valeurs mises à jour des hyperparamètres (en appliquant les règles de mise à jour bayésiennes données dans l' article antérieur conjugué ), tandis que la distribution prédictive antérieure utilise les valeurs des hyperparamètres qui apparaissent dans la distribution antérieure.

Inférence sur des possibilités exclusives et exhaustives

Si la preuve est utilisée simultanément pour mettre à jour la croyance sur un ensemble de propositions exclusives et exhaustives, l'inférence bayésienne peut être considérée comme agissant sur cette distribution de croyance dans son ensemble.

Formulation générale

Diagramme illustrant l'espace des événements dans la formulation générale de l'inférence bayésienne. Bien que ce diagramme montre des modèles et des événements discrets, le cas continu peut être visualisé de la même manière en utilisant des densités de probabilité.

Supposons qu'un processus génère des événements indépendants et distribués de manière identique , mais que la distribution de probabilité est inconnue. Laissez l'espace événementiel représenter l'état actuel de croyance pour ce processus. Chaque modèle est représenté par événement . Les probabilités conditionnelles sont spécifiées pour définir les modèles. est le degré de croyance en . Avant la première étape d'inférence, se trouve un ensemble de probabilités a priori initiales . Ceux-ci doivent être égaux à 1, mais sont par ailleurs arbitraires.

Supposons que l'on observe que le processus génère . Pour chacun , le prior est mis à jour au postérieur . Du théorème de Bayes :

Après observation d'autres preuves, cette procédure peut être répétée.

Diagramme de Venn pour les ensembles fondamentaux fréquemment utilisés dans l'inférence bayésienne et les calculs

Observations multiples

Pour une séquence d' observations indépendantes et distribuées de manière identique , on peut montrer par induction que l' application répétée de ce qui précède équivaut à


Formulation paramétrique

En paramétrant l'espace des modèles, la croyance en tous les modèles peut être mise à jour en une seule étape. La distribution de la croyance sur l'espace modèle peut alors être considérée comme une distribution de la croyance sur l'espace des paramètres. Les distributions de cette section sont exprimées en continu, représentées par des densités de probabilité, car c'est la situation habituelle. La technique est cependant également applicable aux distributions discrètes.

Laissez le vecteur couvrir l'espace des paramètres. Laissez la distribution préalable initiale sur soit , où est un ensemble de paramètres à lui - même avant ou hyperparam'etres . Soit une séquence d' observations d'événements indépendantes et identiquement distribuées , où toutes sont distribuées comme pour certaines . Le théorème de Bayes est appliqué pour trouver la distribution postérieure sur :

Propriétés mathématiques

Interprétation du facteur

. Autrement dit, si le modèle était vrai, la preuve serait plus probable que ne le prédit l'état actuel de la croyance. L'inverse s'applique pour une diminution de la croyance. Si la croyance ne change pas, . Autrement dit, la preuve est indépendante du modèle. Si le modèle était vrai, la preuve serait exactement aussi probable que prédit par l'état actuel de la croyance.

La règle de Cromwell

Si alors . Si , alors . Cela peut être interprété comme signifiant que les convictions dures sont insensibles aux contre-preuves.

Le premier découle directement du théorème de Bayes. Ce dernier peut être dérivé en appliquant la première règle à l'événement "pas " à la place de " ", donnant "si , alors ", dont le résultat suit immédiatement.

Comportement asymptotique de postérieur

Considérez le comportement d'une distribution de croyances car elle est mise à jour un grand nombre de fois avec des essais indépendants et distribués de manière identique . Pour des probabilités a priori suffisamment belles, le théorème de Bernstein-von Mises donne que dans la limite d'essais infinis, la loi postérieure converge vers une distribution gaussienne indépendante de la loi a priori initiale sous certaines conditions d'abord esquissées et rigoureusement prouvées par Joseph L. Doob en 1948, à savoir si la variable aléatoire considérée a un espace de probabilité fini . Les résultats plus généraux ont été obtenus plus tard par le statisticien David A. Freedman qui a publié dans deux articles de recherche fondateurs en 1963 et 1965 quand et dans quelles circonstances le comportement asymptotique de postérieur est garanti. Son article de 1963 traite, comme Doob (1949), le cas fini et parvient à une conclusion satisfaisante. Cependant, si la variable aléatoire a un espace de probabilité infini mais dénombrable (c'est-à-dire correspondant à un dé avec un nombre infini de faces), l'article de 1965 démontre que pour un sous-ensemble dense de priors, le théorème de Bernstein-von Mises n'est pas applicable. Dans ce cas, il n'y a presque sûrement pas de convergence asymptotique. Plus tard dans les années 1980 et 1990, Freedman et Persi Diaconis ont continué à travailler sur le cas des espaces de probabilité dénombrables infinis. Pour résumer, il peut y avoir des essais insuffisants pour supprimer les effets du choix initial, et en particulier pour les grands systèmes (mais finis), la convergence peut être très lente.

Priorités conjuguées

Sous forme paramétrée, la distribution a priori est souvent supposée provenir d'une famille de distributions appelées a priori conjuguées . L'utilité d'un a priori conjugué est que la distribution a posteriori correspondante sera dans la même famille, et le calcul peut être exprimé sous forme fermée .

Estimations des paramètres et prédictions

Il est souvent souhaitable d'utiliser une distribution a posteriori pour estimer un paramètre ou une variable. Plusieurs méthodes d'estimation bayésienne sélectionnent des mesures de tendance centrale à partir de la distribution a posteriori.

Pour les problèmes unidimensionnels, il existe une médiane unique pour les problèmes continus pratiques. La médiane postérieure est intéressante en tant qu'estimateur robuste .

S'il existe une moyenne finie pour la distribution postérieure, alors la moyenne postérieure est une méthode d'estimation.

Prendre une valeur avec la plus grande probabilité définit des estimations maximales a posteriori (MAP) :

Il existe des exemples où aucun maximum n'est atteint, auquel cas l'ensemble des estimations MAP est vide .

Il existe d'autres méthodes d'estimation qui minimisent le risque postérieur (perte postérieure attendue) par rapport à une fonction de perte , et celles-ci sont intéressantes pour la théorie statistique de la décision utilisant la distribution d'échantillonnage ("statistiques fréquentistes").

La distribution prédictive postérieure d'une nouvelle observation (qui est indépendante des observations précédentes) est déterminée par

Exemples

Probabilité d'une hypothèse

Tableau de contingence
bol

Biscuit
# 1
H 1
#2
H 2

Le total
Plaine, E 30 20 50
Choc, E dix 20 30
Le total 40 40 80
P  ( H 1 | E ) = 30 / 50 = 0,6

Supposons qu'il y ait deux bols pleins de biscuits. Le bol n°1 contient 10 biscuits aux pépites de chocolat et 30 biscuits nature, tandis que le bol n°2 en contient 20 de chaque. Notre ami Fred choisit un bol au hasard, puis choisit un cookie au hasard. Nous pouvons supposer qu'il n'y a aucune raison de croire que Fred traite un bol différemment d'un autre, de même pour les cookies. Le cookie s'avère être un simple. Quelle est la probabilité que Fred l'ait choisi dans le bol n°1 ?

Intuitivement, il semble clair que la réponse devrait être plus de la moitié, car il y a plus de biscuits simples dans le bol #1. La réponse précise est donnée par le théorème de Bayes. Soit correspondant au bol #1, et au bol #2. Il est donné que les bols sont identiques du point de vue de Fred, donc , et les deux doivent totaliser 1, donc les deux sont égaux à 0,5. L'événement est l'observation d'un simple cookie. D'après le contenu des bols, nous le savons et la formule de Bayes donne alors

Avant d'observer le cookie, la probabilité que nous avons attribuée à Fred d'avoir choisi le bol n°1 était la probabilité a priori, , qui était de 0,5. Après avoir observé le cookie, nous devons réviser la probabilité à , qui est de 0,6.

Faire une prédiction

Exemple de résultats pour l'exemple d'archéologie. Cette simulation a été générée en utilisant c=15.2.

Un archéologue travaille sur un site que l'on pense être de la période médiévale, entre le XIe siècle et le XVIe siècle. Cependant, on ne sait pas exactement quand, à cette période, le site était habité. Des fragments de poterie sont retrouvés, dont certains sont émaillés et d'autres décorés. On s'attend à ce que si le site était habité au début de la période médiévale, alors 1% de la poterie serait émaillée et 50% de sa surface décorée, alors que s'il avait été habité à la fin de la période médiévale, 81% seraient émaillés et 5% de sa superficie décorée. Dans quelle mesure l'archéologue peut-il être sûr de la date d'occupation au moment où des fragments sont exhumés ?

Le degré de croyance dans la variable continue (siècle) doit être calculé, avec l'ensemble discret d'événements comme preuve. En supposant une variation linéaire de l'émail et de la décoration avec le temps, et que ces variables soient indépendantes,

Supposons un a priori uniforme de , et que les essais soient indépendants et distribués de manière identique . Lorsqu'un nouveau fragment de type est découvert, le théorème de Bayes est appliqué pour mettre à jour le degré de croyance pour chacun :

Une simulation informatique de l'évolution de la croyance au fur et à mesure que 50 fragments sont déterrés est montrée sur le graphique. Dans la simulation, le site était habité vers 1420, soit . En calculant la superficie sous la partie pertinente du graphique pour 50 essais, l'archéologue peut dire qu'il n'y a pratiquement aucune chance que le site ait été habité aux XIe et XIIe siècles, environ 1% de chance qu'il ait été habité au XIIIe siècle, 63 % de chance au XIVe siècle et 36 % au XVe siècle. Le théorème de Bernstein-von Mises affirme ici la convergence asymptotique vers la "vraie" distribution car l' espace de probabilité correspondant à l'ensemble discret d'événements est fini (voir la section ci-dessus sur le comportement asymptotique de la postérieure).

En statistique fréquentiste et en théorie de la décision

Une justification théorique décisionnelle de l'utilisation de l'inférence bayésienne a été donnée par Abraham Wald , qui a prouvé que chaque procédure bayésienne unique est admissible . A l'inverse, toute procédure statistique admissible est soit une procédure bayésienne, soit une limite de procédures bayésiennes.

Wald a qualifié les procédures admissibles de procédures bayésiennes (et les limites des procédures bayésiennes), faisant du formalisme bayésien une technique centrale dans des domaines d' inférence fréquentistes tels que l' estimation des paramètres , les tests d'hypothèses et le calcul des intervalles de confiance . Par exemple:

  • « Sous certaines conditions, toutes les procédures admissibles sont soit des procédures bayésiennes, soit des limites de procédures bayésiennes (dans divers sens). Ces résultats remarquables, du moins dans leur forme originelle, sont dus essentiellement à Wald. plus facile à analyser que la recevabilité."
  • « En théorie de la décision, une méthode assez générale pour prouver l'admissibilité consiste à exhiber une procédure comme une solution bayésienne unique.
  • "Dans les premiers chapitres de ce travail, les distributions a priori à support fini et les procédures de Bayes correspondantes ont été utilisées pour établir certains des principaux théorèmes relatifs à la comparaison des expériences. Les procédures de Bayes par rapport aux distributions a priori plus générales ont joué un rôle très important dans le développement des statistiques, y compris sa théorie asymptotique. "Il existe de nombreux problèmes où un coup d'œil sur les distributions postérieures, pour des a priori appropriés, donne des informations immédiatement intéressantes. De plus, cette technique peut difficilement être évitée dans l'analyse séquentielle."
  • "Un fait utile est que toute règle de décision de Bayes obtenue en prenant un a priori propre sur l'ensemble de l'espace des paramètres doit être admissible"
  • "Un domaine d'investigation important dans le développement d'idées d'admissibilité a été celui des procédures conventionnelles de la théorie de l'échantillonnage, et de nombreux résultats intéressants ont été obtenus."

Sélection du modèle

La méthodologie bayésienne joue également un rôle dans la sélection de modèles où l'objectif est de sélectionner un modèle parmi un ensemble de modèles concurrents qui représente le plus fidèlement le processus sous-jacent qui a généré les données observées. Dans la comparaison de modèles bayésiens, le modèle avec la probabilité postérieure la plus élevée compte tenu des données est sélectionné. La probabilité a posteriori d'un modèle dépend de la preuve, ou vraisemblance marginale , qui reflète la probabilité que les données soient générées par le modèle, et de la croyance a priori du modèle. Lorsque deux modèles concurrents sont a priori considérés comme équiprobables, le rapport de leurs probabilités postérieures correspond au facteur de Bayes . Étant donné que la comparaison de modèles bayésiens vise à sélectionner le modèle avec la probabilité postérieure la plus élevée, cette méthodologie est également appelée règle de sélection maximale a posteriori (MAP) ou règle de probabilité MAP.

Programmation probabiliste

Bien que conceptuellement simples, les méthodes bayésiennes peuvent être mathématiquement et numériquement difficiles. Les langages de programmation probabilistes (PPL) implémentent des fonctions pour construire facilement des modèles bayésiens avec des méthodes d'inférence automatique efficaces. Cela aide à séparer la construction du modèle de l'inférence, permettant aux praticiens de se concentrer sur leurs problèmes spécifiques et laissant les PPL gérer les détails de calcul pour eux.

Applications

Applications informatiques

L'inférence bayésienne a des applications dans l' intelligence artificielle et les systèmes experts . Les techniques d'inférence bayésienne sont un élément fondamental des techniques de reconnaissance de formes informatisées depuis la fin des années 1950. Il existe également un lien de plus en plus important entre les méthodes bayésiennes et les techniques de Monte Carlo basées sur la simulation , car les modèles complexes ne peuvent pas être traités sous forme fermée par une analyse bayésienne, tandis qu'une structure de modèle graphique peut permettre des algorithmes de simulation efficaces comme l' échantillonnage de Gibbs et d'autres Metropolis. –Schémas de l'algorithme de Hastings . Récemment, l'inférence bayésienne a gagné en popularité parmi la communauté phylogénétique pour ces raisons ; de nombreuses applications permettent d'estimer simultanément de nombreux paramètres démographiques et évolutifs.

Appliquée à la classification statistique , l' inférence bayésienne a été utilisée pour développer des algorithmes permettant d' identifier les courriers indésirables . Les applications qui utilisent l'inférence bayésienne pour le filtrage du spam incluent CRM114 , DSPAM , Bogofilter , SpamAssassin , SpamBayes , Mozilla , XEAMS et autres. La classification des spams est traitée plus en détail dans l'article sur le classificateur naïf de Bayes .

L'inférence inductive de Solomonoff est la théorie de la prédiction basée sur des observations ; par exemple, prédire le prochain symbole sur la base d'une série donnée de symboles. La seule hypothèse est que l'environnement suit une distribution de probabilité inconnue mais calculable. Il s'agit d'un cadre inductif formel qui combine deux principes d'inférence inductive bien étudiés : les statistiques bayésiennes et le rasoir d'Occam . La probabilité a priori universelle de Solomonoff de tout préfixe p d'une séquence calculable x est la somme des probabilités de tous les programmes (pour un ordinateur universel) qui calculent quelque chose à partir de p . Étant donné un certain p et toute distribution de probabilité calculable mais inconnue à partir de laquelle x est échantillonné, la loi a priori universelle et le théorème de Bayes peuvent être utilisés pour prédire les parties encore invisibles de x de manière optimale.

Bioinformatique et applications médicales

L'inférence bayésienne a été appliquée dans différentes applications bioinformatiques, y compris l'analyse différentielle de l'expression génique. L'inférence bayésienne est également utilisée dans un modèle général de risque de cancer, appelé CIRI (Indice de risque individualisé continu), où des mesures en série sont incorporées pour mettre à jour un modèle bayésien qui est principalement construit à partir de connaissances antérieures.

Dans la salle d'audience

L'inférence bayésienne peut être utilisée par les jurés pour accumuler de manière cohérente les preuves pour et contre un défendeur et pour voir si, dans l'ensemble, elles répondent à leur seuil personnel de « hors de tout doute raisonnable ». Le théorème de Bayes est appliqué successivement à toutes les preuves présentées, le postérieur d'un stade devenant le antérieur du suivant. L'avantage d'une approche bayésienne est qu'elle donne au juré un mécanisme rationnel et impartial pour combiner les preuves. Il peut être approprié d'expliquer le théorème de Bayes aux jurés sous forme de cotes , car les cotes des paris sont plus largement comprises que les probabilités. Alternativement, une approche logarithmique , remplaçant la multiplication par l'addition, pourrait être plus facile à gérer pour un jury.

Addition de preuves.

Si l'existence du crime ne fait pas de doute, seule l'identité du coupable, il a été suggéré que le prieur devrait être uniforme sur la population admissible. Par exemple, si 1 000 personnes avaient pu commettre le crime, la probabilité préalable de culpabilité serait de 1/1000.

L'utilisation du théorème de Bayes par les jurés est controversée. Au Royaume-Uni, un témoin expert de la défense a expliqué le théorème de Bayes au jury dans R v Adams . Le jury a déclaré coupable, mais l'affaire a été portée en appel au motif qu'aucun moyen d'accumuler des preuves n'avait été fourni aux jurés qui ne souhaitaient pas utiliser le théorème de Bayes. La Cour d'appel a confirmé la condamnation, mais elle a également émis l'avis que « Introduire le théorème de Bayes, ou toute autre méthode similaire, dans un procès pénal plonge le jury dans des domaines de théorie et de complexité inappropriés et inutiles, les détournant de leur tâche propre. ."

Gardner-Medwin soutient que le critère sur lequel un verdict dans un procès pénal devrait être basé n'est pas la probabilité de culpabilité, mais plutôt la probabilité de la preuve, étant donné que l'accusé est innocent (semblable à une valeur p fréquentiste ). Il soutient que si la probabilité postérieure de culpabilité doit être calculée par le théorème de Bayes, la probabilité antérieure de culpabilité doit être connue. Cela dépendra de l'incidence du crime, qui est un élément de preuve inhabituel à considérer dans un procès pénal. Considérez les trois propositions suivantes :

A Les faits et témoignages connus auraient pu survenir si le prévenu est coupable
B Les faits et témoignages connus auraient pu survenir si l'accusé était innocent
C Le défendeur est coupable.

Gardner-Medwin soutient que le jury doit croire à la fois A et non B afin de condamner. A et non-B implique la vérité de C, mais l'inverse n'est pas vrai. Il est possible que B et C soient tous les deux vrais, mais dans ce cas, il soutient qu'un jury devrait acquitter, même s'ils savent qu'ils laisseront des coupables en liberté. Voir aussi le paradoxe de Lindley .

Épistémologie bayésienne

L'épistémologie bayésienne est un mouvement qui prône l'inférence bayésienne comme moyen de justifier les règles de la logique inductive.

Karl Popper et David Miller ont rejeté l'idée du rationalisme bayésien, c'est-à-dire utilisant la règle de Bayes pour faire des inférences épistémologiques : elle est sujette au même cercle vicieux que toute autre épistémologie justificationniste , car elle présuppose ce qu'elle tente de justifier. Selon ce point de vue, une interprétation rationnelle de l'inférence bayésienne la verrait simplement comme une version probabiliste de la falsification , rejetant la croyance, communément admise par les bayésiens, qu'une forte probabilité obtenue par une série de mises à jour bayésiennes prouverait l'hypothèse au-delà de tout doute raisonnable, ou même avec une probabilité supérieure à 0.

Autre

inférence bayésienne et bayésienne

Le problème considéré par Bayes dans la proposition 9 de son essai, « Un essai vers la résolution d'un problème dans la doctrine des chances », est la distribution postérieure du paramètre a (le taux de réussite) de la distribution binomiale .

Histoire

Le terme bayésien fait référence à Thomas Bayes (1702-1761), qui a prouvé que des limites probabilistes pouvaient être placées sur un événement inconnu. Cependant, c'est Pierre-Simon Laplace (1749-1827) qui a introduit (en tant que Principe VI) ce qu'on appelle maintenant le théorème de Bayes et l'a utilisé pour résoudre des problèmes de mécanique céleste , de statistiques médicales, de fiabilité et de jurisprudence . L'inférence bayésienne ancienne, qui utilisait des a priori uniformes suivant le principe de raison insuffisante de Laplace , était appelée « probabilité inverse » (parce qu'elle infère à rebours des observations aux paramètres, ou des effets aux causes). Après les années 1920, la « probabilité inverse » a été largement supplantée par un ensemble de méthodes appelées statistiques fréquentistes .

Au XXe siècle, les idées de Laplace se sont développées davantage dans deux directions différentes, donnant naissance à des courants objectifs et subjectifs dans la pratique bayésienne. Dans le courant objectif ou « non informatif », l'analyse statistique ne dépend que du modèle supposé, des données analysées, et de la méthode d'attribution du prior, qui diffère d'un praticien bayésien objectif à l'autre. Dans le courant subjectif ou « informatif », la spécification de l'a priori dépend de la croyance (c'est-à-dire des propositions sur lesquelles l'analyse est prête à agir), qui peut résumer des informations provenant d'experts, d'études antérieures, etc.

Dans les années 1980, il y a eu une croissance spectaculaire de la recherche et des applications des méthodes bayésiennes, principalement attribuées à la découverte des méthodes de Monte Carlo à chaînes de Markov , qui ont éliminé de nombreux problèmes de calcul, et à un intérêt croissant pour les applications complexes non standard. Malgré la croissance de la recherche bayésienne, la plupart des enseignements de premier cycle sont toujours basés sur des statistiques fréquentistes. Néanmoins, les méthodes bayésiennes sont largement acceptées et utilisées, comme par exemple dans le domaine de l'apprentissage automatique .

Voir également

Les références

Citations

Sources

Lectures complémentaires

  • Pour un rapport complet sur l'histoire des statistiques bayésiennes et les débats avec les approches fréquentistes, lire Vallverdu, Jordi (2016). Bayésiens contre fréquentistes Un débat philosophique sur le raisonnement statistique . New York : Springer. ISBN 978-3-662-48638-2.

Élémentaire

Les livres suivants sont classés par ordre croissant de sophistication probabiliste :

Intermédiaire ou avancé

Liens externes