Inférence bayésienne en phylogénie - Bayesian inference in phylogeny

Inférence bayésienne en phylogénie
Classification	Biologie de l'évolution
Sous-classement	Phylogénétique moléculaire
Critères de recherche optimaux	Inférence bayésienne
	v; t; e;

L'inférence bayésienne de la phylogénie combine les informations de la probabilité a priori et de la vraisemblance des données pour créer ce qu'on appelle la probabilité postérieure des arbres, qui est la probabilité que l'arbre soit correct compte tenu des données, du modèle a priori et du modèle de vraisemblance. L'inférence bayésienne a été introduite dans la phylogénétique moléculaire dans les années 1990 par trois groupes indépendants : Bruce Rannala et Ziheng Yang à Berkeley, Bob Mau à Madison et Shuying Li à l'Université de l'Iowa, les deux derniers étant des doctorants à l'époque. L'approche est devenue très populaire depuis la sortie du logiciel MrBayes en 2001, et est maintenant l'une des méthodes les plus populaires en phylogénétique moléculaire.

Inférence bayésienne du fond et des bases de la phylogénie

Théorème de Bayes

Métaphore illustrant les étapes de la méthode MCMC

L'inférence bayésienne fait référence à une méthode probabiliste développée par le révérend Thomas Bayes basée sur le théorème de Bayes . Publié à titre posthume en 1763, ce fut la première expression de probabilité inverse et la base de l'inférence bayésienne. Indépendamment, ignorant les travaux de Bayes, Pierre-Simon Laplace a développé le théorème de Bayes en 1774.

L'inférence bayésienne ou la méthode de probabilité inverse était l'approche standard dans la pensée statistique jusqu'au début des années 1900 avant que RA Fisher ne développe ce qui est maintenant connu sous le nom d'inférence classique/fréquentiste/fisherienne. Des difficultés de calcul et des objections philosophiques ont empêché l'adoption généralisée de l'approche bayésienne jusqu'aux années 1990, lorsque les algorithmes de Markov Chain Monte Carlo (MCMC) ont révolutionné le calcul bayésien.

L'approche bayésienne de la reconstruction phylogénétique combine la probabilité a priori d'un arbre P(A) avec la probabilité des données (B) pour produire une distribution de probabilité a posteriori sur les arbres P(A|B). La probabilité a posteriori d'un arbre sera la probabilité que l'arbre soit correct, étant donné l'a priori, les données et l'exactitude du modèle de vraisemblance.

Les méthodes MCMC peuvent être décrites en trois étapes : tout d'abord, en utilisant un mécanisme stochastique, un nouvel état pour la chaîne de Markov est proposé. Deuxièmement, la probabilité que ce nouvel état soit correct est calculée. Troisièmement, une nouvelle variable aléatoire (0,1) est proposée. Si cette nouvelle valeur est inférieure à la probabilité d'acceptation, le nouvel état est accepté et l'état de la chaîne est mis à jour. Ce processus est exécuté des milliers ou des millions de fois. Le nombre de fois où un seul arbre est visité au cours de la chaîne est une approximation de sa probabilité postérieure. Certains des algorithmes les plus couramment utilisés dans les méthodes MCMC comprennent les algorithmes Metropolis-Hastings, le Metropolis-Coupling MCMC (MC³) et l'algorithme LOCAL de Larget et Simon.

Algorithme de Metropolis–Hastings

L'une des méthodes MCMC les plus couramment utilisées est l' algorithme Metropolis-Hastings , une version modifiée de l'algorithme Metropolis original. C'est une méthode largement utilisée pour échantillonner au hasard à partir de probabilités de distribution complexes et multidimensionnelles. L'algorithme Metropolis est décrit dans les étapes suivantes :

Un arbre initial, T _i , est sélectionné au hasard.
Un arbre voisin, T _j , est sélectionné dans la collection d'arbres.
Le rapport R des probabilités (ou fonctions de densité de probabilité) de T _j et T _i est calculé comme suit : R = f(T _j )/f(T _i )
Si R 1, T _j est accepté comme arbre courant.
Si R < 1, T _j est accepté comme arbre courant avec la probabilité R, sinon T _i est conservé.
A ce stade, le processus est répété à partir de l'étape 2 N fois.

L'algorithme continue de fonctionner jusqu'à ce qu'il atteigne une distribution d'équilibre. Il suppose également que la probabilité de proposer un nouvel arbre T _j lorsque nous sommes à l'ancien état de l'arbre T _i , est la même probabilité de proposer T _i lorsque nous sommes à T _j . Lorsque ce n'est pas le cas, des corrections Hastings sont appliquées. Le but de l'algorithme de Metropolis-Hastings est de produire une collection d'états avec une distribution déterminée jusqu'à ce que le processus de Markov atteigne une distribution stationnaire. L'algorithme a deux composants :

Une transition potentielle d'un état à un autre (i → j) en utilisant une fonction de probabilité de transition q _i,j
Mouvement de la chaîne vers l'état j avec probabilité α _i,j et reste dans i avec probabilité 1 – α _i,j .

MCMC couplé à Metropolis

L'algorithme MCMC couplé à Metropolis (MC³) a été proposé pour résoudre un problème pratique de la chaîne de Markov se déplaçant à travers les pics lorsque la distribution cible a plusieurs pics locaux, séparés par des vallées basses, sont connus pour exister dans l'espace arborescent. C'est le cas lors de la recherche d'arbre heuristique sous des critères de parcimonie maximale (MP), de vraisemblance maximale (ML) et d'évolution minimale (ME), et on peut s'attendre à la même chose pour la recherche d'arbre stochastique en utilisant MCMC. Ce problème se traduira par des échantillons ne se rapprochant pas correctement de la densité postérieure. Le (MC³) améliore le mélange des chaînes de Markov en présence de multiples pics locaux dans la densité postérieure. Il exécute plusieurs (m) chaînes en parallèle, chacune pour n itérations et avec différentes distributions stationnaires , , où la première est la densité cible, tandis que , sont choisies pour améliorer le mélange. Par exemple, on peut choisir un chauffage incrémental de la forme : $\pi _{j}(.)\$ $j=1,2,\ldots ,m\$ $\pi _{1}=\pi \$ ${\style d'affichage \pi _{j}\ }$ $j=2,3,\ldots ,m\$

\pi _{j}(\theta )=\pi (\theta )^{1/[1+\lambda (j-1)]},\ \ \lambda >0,

de sorte que la première chaîne est la chaîne froide avec la densité cible correcte, tandis que les chaînes sont des chaînes chauffées. Notez que l'augmentation de la densité à la puissance avec a pour effet d'aplatir la distribution, semblable au chauffage d'un métal. Dans une telle distribution, il est plus facile de traverser entre les pics (séparés par des vallées) que dans la distribution d'origine. Après chaque itération, un échange d'états entre deux chaînes choisies au hasard est proposé au travers d'une étape de type Metropolis. Soit l'état actuel de la chaîne , . Un échange entre les états des chaînes et est accepté avec probabilité : ${\style d'affichage 2,3,\ldots ,m}$ ${\style d'affichage \pi (.)}$ ${\style d'affichage 1/T\ }$ ${\style d'affichage T>1\ }$ $\theta ^{(j)}\$ ${\style d'affichage j\ }$ $j=1,2,\ldots ,m\$ ${\style d'affichage i\ }$ ${\style d'affichage j\ }$

\alpha ={\frac {\pi _{i}(\theta ^{(j)})\pi _{j}(\theta ^{(i)})}{\pi _{i} (\theta ^{(i)})\pi _{j}(\theta ^{(j)})}}\

En fin de cycle, seules les sorties de la chaîne du froid sont utilisées, tandis que celles des chaînes chaudes sont rejetées. Heuristiquement, les chaînes chaudes visiteront les pics locaux assez facilement, et l'échange d'états entre les chaînes permettra à la chaîne du froid de sauter occasionnellement des vallées, conduisant à un meilleur mélange. Cependant, s'il est instable, les swaps proposés seront rarement acceptés. C'est la raison pour laquelle on utilise plusieurs chaînes qui ne diffèrent que de façon incrémentale. $\pi _{i}(\theta )/\pi _{j}(\theta )\$

Un inconvénient évident de l'algorithme est que les chaînes sont exécutées et qu'une seule chaîne est utilisée pour l'inférence. Pour cette raison, est idéalement adapté à une implémentation sur des machines parallèles, car chaque chaîne nécessitera en général la même quantité de calculs par itération. ${\style d'affichage m\ }$ $\mathrm {MC} ^{3}\$

Algorithme LOCAL de Larget et Simon

Les algorithmes LOCAL offrent un avantage informatique par rapport aux méthodes précédentes et démontrent qu'une approche bayésienne est capable d'évaluer l'incertitude informatiquement pratique dans des arbres plus grands. L'algorithme LOCAL est une amélioration de l'algorithme GLOBAL présenté dans Mau, Newton et Larget (1999) dans lequel toutes les longueurs de branches sont modifiées à chaque cycle. Les algorithmes LOCAL modifient l'arbre en sélectionnant aléatoirement une branche interne de l'arbre. Les nœuds aux extrémités de cette branche sont reliés chacun à deux autres branches. Un de chaque paire est choisi au hasard. Imaginez prendre ces trois bords sélectionnés et les enfiler comme une corde à linge de gauche à droite, où la direction (gauche/droite) est également sélectionnée au hasard. Les deux extrémités de la première branche sélectionnée auront un sous-arbre suspendu comme un vêtement enfilé à la ligne. L'algorithme procède en multipliant les trois branches sélectionnées par un montant aléatoire commun, semblable à l'étirement ou au rétrécissement de la corde à linge. Enfin, le plus à gauche des deux sous-arbres suspendus est déconnecté et rattaché à la corde à linge à un endroit choisi uniformément au hasard. Ce serait l'arbre candidat.

Supposons que nous avons commencé en sélectionnant la branche interne avec une longueur qui sépare les taxons et du reste. Supposons aussi que nous ayons sélectionné (au hasard) des branches avec des longueurs et de chaque côté, et que nous ayons orienté ces branches. Soit , la longueur actuelle de la corde à linge. Nous sélectionnons la nouvelle longueur à , où est une variable aléatoire uniforme sur . Ensuite, pour l'algorithme LOCAL, la probabilité d'acceptation peut être calculée comme suit : ${\style d'affichage t_{8}\ }$ ${\style d'affichage A\ }$ ${\style d'affichage B\ }$ ${\style d'affichage t_{1}\ }$ ${\style d'affichage t_{9}\ }$ $m=t_{1}+t_{8}+t_{9}\$ $m^{\star }=m\exp(\lambda (U_{1}-0.5))\$ $U_{1}\$ ${\style d'affichage (0,1)\ }$

{\frac {h(y)}{h(x)}}\times {\frac {{m^{\star }}^{3}}{m^{3}}}\

Évaluation de la convergence

Pour estimer une longueur de branche d'un arbre à 2 taxons sous JC, dans lequel les sites sont invariables et variables, supposez une distribution antérieure exponentielle avec un taux . La densité est . Les probabilités des modèles de site possibles sont : ${\style d'affichage t}$ ${\style d'affichage n_{1}}$ ${\style d'affichage n_{2}}$ ${\style d'affichage \lambda \ }$ $p(t)=\lambda e^{-\lambda t}\$

1/4\gauche(1/4+3/4e^{-4/3t}\droit)\

pour les sites non variés, et

1/4\left(1/4-1/4e^{-4/3t}\right)\

Ainsi, la distribution postérieure non normalisée est :

h(t)=\left(1/4\right)^{n_{1}+n_{2}}\left(1/4+3/4{e^{-4/3t}}^ {n_{1}}\droit)\

ou, alternativement,

h(t)=\left(1/4-1/4{e^{-4/3t}}^{n_{2}}\right)(\lambda e^{-\lambda t}) \

Mettre à jour la longueur de branche en choisissant une nouvelle valeur uniformément au hasard à partir d'une fenêtre de demi-largeur centrée sur la valeur courante : ${\style d'affichage avec\ }$

{\style d'affichage t^{\star }=|t+U|\ }

où est uniformément distribué entre et . La probabilité d'acceptation est : ${\style d'affichage U\ }$ ${\style d'affichage -w\ }$ ${\style d'affichage avec\ }$

h(t^{\star })/h(t)\

Exemple : , . Nous comparerons les résultats pour deux valeurs de , et . Dans chaque cas, nous commencerons par une longueur initiale de et mettrons à jour les durées de longueur . ${\style d'affichage n_{1}=70\ }$ ${\style d'affichage n_{2}=30\ }$ ${\style d'affichage avec\ }$ ${\style d'affichage w=0.1\ }$ ${\style d'affichage w=0,5\ }$ ${\style d'affichage 5\ }$ ${\style d'affichage 2000\ }$

Parcimonie maximale et vraisemblance maximale

Relations phylogénétiques du tigre, valeurs bootstrap indiquées dans les branches.

Exemple d' attraction de branche longue . Les branches plus longues (A et C) semblent être plus étroitement liées.

Il existe de nombreuses approches pour reconstruire les arbres phylogénétiques, chacune avec des avantages et des inconvénients, et il n'y a pas de réponse simple à « quelle est la meilleure méthode ? ». La parcimonie maximale (MP) et le maximum de vraisemblance (ML) sont des méthodes traditionnelles largement utilisées pour l'estimation des phylogénies et les deux utilisent directement les informations sur les caractères, comme le font les méthodes bayésiennes.

La parcimonie maximale récupère un ou plusieurs arbres optimaux sur la base d'une matrice de caractères discrets pour un certain groupe de taxons et ne nécessite pas de modèle de changement évolutif. MP donne l'explication la plus simple pour un ensemble de données donné, en reconstruisant un arbre phylogénétique qui inclut le moins de changements possible dans les séquences. Le support des branches de l'arbre est représenté par le pourcentage de bootstrap . Pour la même raison qu'il a été largement utilisé, sa simplicité, MP a également fait l'objet de critiques et a été relégué au second plan par les méthodes ML et bayésiennes. MP présente plusieurs problèmes et limitations. Comme l'a montré Felsenstein (1978), MP pourrait être statistiquement incohérent, ce qui signifie qu'à mesure que de plus en plus de données (par exemple la longueur de séquence) sont accumulées, les résultats peuvent converger vers un arbre incorrect et conduire à une attraction de longue branche , un phénomène phylogénétique où les taxons avec une longue les branches (nombreux changements d'état des caractères) ont tendance à apparaître plus étroitement liées dans la phylogénie qu'elles ne le sont réellement. Pour les données morphologiques, des études de simulation récentes suggèrent que la parcimonie peut être moins précise que les arbres construits à l'aide d'approches bayésiennes, potentiellement en raison d'une surprécision, bien que cela ait été contesté. Des études utilisant de nouvelles méthodes de simulation ont démontré que les différences entre les méthodes d'inférence résultent de la stratégie de recherche et de la méthode de consensus employées, plutôt que de l'optimisation utilisée.

Comme dans la parcimonie maximale, le maximum de vraisemblance évaluera les arbres alternatifs. Cependant, il considère la probabilité de chaque arbre expliquant les données données sur la base d'un modèle d'évolution. Dans ce cas, l'arbre avec la plus grande probabilité d'expliquer les données est choisi par rapport aux autres. En d'autres termes, il compare la façon dont différents arbres prédisent les données observées. L'introduction d'un modèle d'évolution dans les analyses ML présente un avantage sur MP car la probabilité de substitutions de nucléotides et les taux de ces substitutions sont pris en compte, expliquant les relations phylogénétiques des taxons de manière plus réaliste. Une considération importante de cette méthode est la longueur des branches, que la parcimonie ignore, les changements étant plus susceptibles de se produire le long des branches longues que des branches courtes. Cette approche pourrait éliminer l'attraction des branches longues et expliquer la plus grande cohérence de ML par rapport à MP. Bien que considéré par beaucoup comme la meilleure approche pour déduire des phylogénies d'un point de vue théorique, l'apprentissage automatique est gourmand en calculs et il est presque impossible d'explorer tous les arbres car il y en a trop. L'inférence bayésienne intègre également un modèle d'évolution et les principaux avantages par rapport à MP et ML sont qu'elle est plus efficace du point de vue informatique que les méthodes traditionnelles, qu'elle quantifie et traite la source d'incertitude et qu'elle est capable d'incorporer des modèles d'évolution complexes.

Pièges et controverses

Valeurs bootstrap vs probabilités postérieures. Il a été observé que les valeurs de support du bootstrap, calculées selon la parcimonie ou le maximum de vraisemblance, ont tendance à être inférieures aux probabilités postérieures obtenues par inférence bayésienne. Cela conduit à un certain nombre de questions telles que : Les probabilités postérieures conduisent-elles à un excès de confiance dans les résultats ? Les valeurs bootstrap sont-elles plus robustes que les probabilités postérieures ?
Controverse sur l'utilisation des probabilités antérieures. L'utilisation de probabilités a priori pour l'analyse bayésienne a été considérée par beaucoup comme un avantage car elle permet d'incorporer des informations provenant de sources autres que les données analysées. Cependant, lorsque de telles informations externes font défaut, on est obligé d'utiliser un a priori même s'il est impossible d'utiliser une distribution statistique pour représenter une ignorance totale. Il est également préoccupant que les probabilités a posteriori bayésiennes puissent refléter des opinions subjectives lorsque l'a priori est arbitraire et subjectif.
Choix du modèle. Les résultats de l'analyse bayésienne d'une phylogénie sont directement corrélés au modèle d'évolution choisi, il est donc important de choisir un modèle qui correspond aux données observées, sinon les inférences dans la phylogénie seront erronées. De nombreux scientifiques ont soulevé des questions sur l'interprétation de l'inférence bayésienne lorsque le modèle est inconnu ou incorrect. Par exemple, un modèle trop simplifié pourrait donner des probabilités postérieures plus élevées.

Logiciel MRBAYES

MrBayes est un outil logiciel gratuit qui effectue l'inférence bayésienne de la phylogénie. Il a été écrit à l'origine par John P. Huelsenbeck et Frederik Ronquist en 2001. À mesure que les méthodes bayésiennes gagnaient en popularité, MrBayes est devenu l'un des logiciels de choix pour de nombreux phylogénéticiens moléculaires. Il est proposé pour les systèmes d'exploitation Macintosh, Windows et UNIX et possède une interface de ligne de commande. Le programme utilise l'algorithme MCMC standard ainsi que la variante MCMC couplée à Metropolis. MrBayes lit des matrices de séquences alignées (ADN ou acides aminés) au format NEXUS standard .

MrBayes utilise MCMC pour approximer les probabilités postérieures des arbres. L'utilisateur peut modifier les hypothèses du modèle de substitution, les a priori et les détails de l'analyse MC³. Il permet également à l'utilisateur de supprimer et d'ajouter des taxons et des caractères à l'analyse. Le programme utilise le modèle le plus standard de substitution d'ADN, le 4x4 également appelé JC69, qui suppose que les changements entre les nucléotides se produisent avec une probabilité égale. Il implémente également un certain nombre de modèles 20x20 de substitution d'acides aminés et de modèles de codon de substitution d'ADN. Il propose différentes méthodes pour assouplir l'hypothèse de taux de substitutions égaux entre les sites nucléotidiques. MrBayes est également capable de déduire des états ancestraux en tenant compte de l'incertitude de l'arbre phylogénétique et des paramètres du modèle.

MrBayes 3 était une version complètement réorganisée et restructurée de l'original MrBayes. La principale nouveauté était la capacité du logiciel à s'adapter à l'hétérogénéité des ensembles de données. Ce nouveau cadre permet à l'utilisateur de mélanger des modèles et de tirer parti de l'efficacité de l'analyse MCMC bayésienne lorsqu'il traite différents types de données (par exemple, protéines, nucléotides et morphologiques). Il utilise par défaut le Metropolis-Coupling MCMC.

MrBayes 3.2 est sorti en 2012 La nouvelle version permet aux utilisateurs d'exécuter plusieurs analyses en parallèle. Il fournit également des calculs de probabilité plus rapides et permet de déléguer ces calculs à des unités de traitement graphique (GPU). La version 3.2 fournit des options de sorties plus larges compatibles avec FigTree et d'autres visualiseurs d'arbres.

Liste des logiciels de phylogénétique

Ce tableau comprend certains des logiciels phylogénétiques les plus couramment utilisés pour déduire des phylogénies dans un cadre bayésien. Certains d'entre eux n'utilisent pas exclusivement des méthodes bayésiennes.

Nom	La description	Méthode	Auteur	Lien de site Web
Mr Bayes	Inférence phylogénétique	Un programme pour l'inférence bayésienne et le choix de modèles à travers un large éventail de modèles phylogénétiques et évolutifs.	Zangh, Huelsenbeck, Der Mark, Ronquist & Teslenko	https://nbisweden.github.io/MrBayes/
BÊTE	Arbres d'échantillonnage de l'analyse évolutive bayésienne	Inférence bayésienne, horloge moléculaire relaxée, histoire démographique	AJ Drummond, A. Rambaut & MA Suchard	https://beast.community
BÊTE 2	Une plateforme logicielle pour l'analyse évolutive bayésienne	Inférence bayésienne, packages , modèles multiples	R Bouckaert, J Heled, D Kühnert, T Vaughan, CH Wu, D Xie, MA Suchard, A Rambaut, AJ Drummond.	http://www.beast2.org
PhyloBayes / PhyloBayes MPI	Échantillonneur Bayesian Monte Carlo Markov Chain (MCMC) pour la reconstruction phylogénétique.	Méthodes non paramétriques pour modéliser la variation entre les sites des propensions aux nucléotides ou aux acides aminés.	N. Lartillot, N. Rodrigue, D. Stubbs, J. Richer	http://www.atgc-montpellier.fr/phylobayes/
Bali-Phy	Inférence bayésienne simultanée de l'alignement et de la phylogénie	Inférence bayésienne, alignement ainsi que recherche arborescente	Suchard MA, Redelings BD	http://www.bali-phy.org
BUCKy	Concordance bayésienne des arbres de gènes	Concordance bayésienne utilisant un consensus glouton modifié de quatuors non enracinés	C. Ané, B. Larget, DA Baum, SD Smith, A. Rokas et B. Larget, SK Kotha, CN Dewey, C. Ané	http://www.stat.wisc.edu/~ane/bucky/
BATWING	Analyse bayésienne d'arbres avec génération de nœuds internes	Inférence bayésienne, histoire démographique, répartition de la population	IJ Wilson, D. Weale, D. Balding	http://www.maths.abdn.ac.uk/˜ijw
Bayes phylogénie	Inférence bayésienne d'arbres à l'aide des méthodes de Markov Chain Monte Carlo	Inférence bayésienne, modèles multiples, modèle de mélange (partitionnement automatique)	M. Pagel, A. Meade	http://www.evolution.rdg.ac.uk/BayesPhy.html
Plateforme de flux de travail Armadillo	Plateforme de workflow dédiée à l'analyse phylogénétique et bioinformatique générale	Wrapper GUI autour de MrBayes	E. Lord, M. Leclercq, A. Boc, AB Diallo et V. Makarenkov	https://github.com/armadilloUQAM/armadillo2/
Généreux (plugin MrBayes)	Geneious fournit des outils de recherche sur le génome et le protéome	Wrapper GUI autour de MrBayes	AJ Drummond, M. Suchard, V. Lefort et al.	http://www.geneious.com
TOPALI	Inférence phylogénétique	Wrapper GUI autour de MrBayes	I.Milne, D.Lindner, et al.	http://www.topali.org

Applications

L'inférence bayésienne a été largement utilisée par les phylogénéticiens moléculaires pour un grand nombre d'applications. Certains d'entre eux incluent :

Chronogramme obtenu à partir de l'analyse de l'horloge moléculaire à l'aide de BEAST. Le diagramme circulaire dans chaque nœud indique les distributions ancestrales possibles déduites de l'analyse MCMC binaire bayésienne (BBM)

Inférence des phylogénies.
Inférence et évaluation de l'incertitude des phylogénies.
Inférence de l'évolution de l'état du caractère ancestral.
Inférence des aires ancestrales.
Analyse de datation moléculaire.
Modélisation de la dynamique de la diversification et de l'extinction des espèces
Élucider les modèles de dispersion des agents pathogènes.

Languages

In other projects