Arbre phylogénétique - Phylogenetic tree

Bacteria Archaea Eucaryota Aquifex Thermotoga Cytophaga Bacteroides Bacteroides-Cytophaga Planctomyces Cyanobacteria Proteobacteria Spirochetes Gram-positive bacteria Green filantous bacteria Pyrodicticum Thermoproteus Thermococcus celer Methanococcus Methanobacterium Methanosarcina Halophiles Entamoebae Slime mold Animal Fungus Plant Ciliate Flagellate Trichomonad Microsporidia Diplomonad
Un arbre phylogénétique basé sur des gènes d' ARNr , montrant les trois domaines de vie : bactéries , archées et eucaryotes . La branche noire au bas de l'arbre phylogénétique relie les trois branches des organismes vivants au dernier ancêtre commun universel . En l'absence d'exogroupe, la racine est spéculative.
Un arbre de vie hautement résolu et généré automatiquement , basé sur des génomes entièrement séquencés.

Un arbre phylogénétique (également phylogénétique ou arbre évolutif ) est un diagramme de branchement ou un arbre montrant les relations évolutives entre diverses espèces biologiques ou d'autres entités basées sur des similitudes et des différences dans leurs caractéristiques physiques ou génétiques. Toute vie sur Terre fait partie d'un seul arbre phylogénétique, indiquant une ascendance commune .

Dans un arbre phylogénétique enraciné , chaque nœud avec des descendants représente l' ancêtre commun le plus récent inféré de ces descendants, et les longueurs de bord dans certains arbres peuvent être interprétées comme des estimations de temps. Chaque nœud est appelé une unité taxonomique. Les nœuds internes sont généralement appelés unités taxonomiques hypothétiques, car ils ne peuvent pas être observés directement. Les arbres sont utiles dans les domaines de la biologie tels que la bioinformatique , la systématique et la phylogénétique . Les arbres non enracinés illustrent uniquement la parenté des nœuds feuilles et ne nécessitent pas que la racine ancestrale soit connue ou déduite.

Histoire

L'idée d'un « arbre de vie » est née de notions anciennes d'une progression en forme d'échelle des formes de vie inférieures aux formes de vie supérieures (comme dans la Grande Chaîne de l'Être ). Les premières représentations d'arbres phylogénétiques « ramifiés » comprennent un « tableau paléontologique » montrant les relations géologiques entre les plantes et les animaux dans le livre Elementary Geology , d' Edward Hitchcock (première édition : 1840).

Charles Darwin (1859) a également produit l'une des premières illustrations et a popularisé de manière cruciale la notion d' "arbre" évolutif dans son livre fondateur L'origine des espèces . Plus d'un siècle plus tard, les biologistes évolutionnistes utilisent encore des diagrammes en arbre pour décrire l' évolution, car de tels diagrammes transmettent efficacement le concept selon lequel la spéciation se produit par le biais de la division adaptative et semi- aléatoire des lignées. Au fil du temps, la classification des espèces est devenue moins statique et plus dynamique.

Le terme phylogénétique , ou phylogénie , dérive des deux anciens grecs mots de ( la phûlon ), ce qui signifie « la race, la lignée », et γένεσις ( Génesis ), ce qui signifie « origine, la source ».

Propriétés

Arbre enraciné

Arbre phylogénétique enraciné optimisé pour les personnes aveugles. Le point le plus bas de l'arbre est la racine, qui symbolise l'ancêtre universel commun à tous les êtres vivants. L'arbre se divise en trois groupes principaux : les bactéries (branche gauche, lettres a à i), les archées (branche médiane, lettres j à p) et les eucaryotes (branche droite, lettres q à z). Chaque lettre correspond à un groupe d'organismes, listés sous cette description. Ces lettres et la description doivent être converties en police braille et imprimées à l'aide d'une imprimante braille. La figure peut être imprimée en 3D en copiant le fichier png et en utilisant Cura ou un autre logiciel pour générer le Gcode pour l'impression 3D.

Un arbre phylogénétique enraciné (voir deux graphiques en haut) est un arbre dirigé avec un nœud unique - la racine - correspondant à l' ancêtre commun le plus récent (généralement imputé ) de toutes les entités situées aux feuilles de l'arbre. Le nœud racine n'a pas de nœud parent, mais sert de parent à tous les autres nœuds de l'arborescence. La racine est donc un nœud de degré 2, tandis que les autres nœuds internes ont un degré minimum de 3 (où « degré » désigne ici le nombre total de fronts entrants et sortants).

La méthode la plus courante pour enraciner les arbres est l'utilisation d'un groupe externe non controversé - suffisamment proche pour permettre l'inférence à partir des données de traits ou du séquençage moléculaire, mais suffisamment éloigné pour être un groupe externe clair.

Arbre sans racines

Un arbre phylogénétique non enraciné pour la myosine , une superfamille de protéines .

Les arbres non enracinés illustrent la parenté des nœuds feuilles sans faire d'hypothèses sur l'ascendance. Ils n'exigent pas que la racine ancestrale soit connue ou déduite. Les arbres non enracinés peuvent toujours être générés à partir d'arbres enracinés en omettant simplement la racine. En revanche, déduire la racine d'un arbre non enraciné nécessite certains moyens d'identifier l'ascendance. Cela se fait normalement en incluant un groupe externe dans les données d'entrée de sorte que la racine se situe nécessairement entre le groupe externe et le reste des taxons dans l'arbre, ou en introduisant des hypothèses supplémentaires sur les taux relatifs d'évolution sur chaque branche, comme une application de l' hypothèse de l' horloge moléculaire .

Bifurquer contre multifurquer

Les arbres enracinés et non enracinés peuvent être bifurquants ou multifurquants. Un arbre bifurquant enraciné a exactement deux descendants issus de chaque nœud intérieur (c'est-à-dire qu'il forme un arbre binaire ), et un arbre bifurquant non enraciné prend la forme d'un arbre binaire non enraciné , un arbre libre avec exactement trois voisins à chaque nœud interne. En revanche, un arbre multifurcateur enraciné peut avoir plus de deux enfants à certains nœuds et un arbre multifurcateur non enraciné peut avoir plus de trois voisins à certains nœuds.

Étiqueté contre non étiqueté

Les arbres enracinés et non enracinés peuvent être étiquetés ou non. Un arbre étiqueté a des valeurs spécifiques attribuées à ses feuilles, tandis qu'un arbre non étiqueté, parfois appelé forme d'arbre, définit une topologie uniquement. Certains arbres basés sur des séquences construits à partir d'un petit locus génomique, comme Phylotree, présentent des nœuds internes étiquetés avec des haplotypes ancestraux inférés.

Dénombrement des arbres

Augmentation du nombre total d'arbres phylogénétiques en fonction du nombre de feuilles étiquetées : arbres binaires non enracinés (losanges bleus), arbres binaires enracinés (cercles rouges), et arbres multifurquants ou binaires enracinés (vert : triangles). L'échelle de l'axe Y est logarithmique .

Le nombre d'arbres possibles pour un nombre donné de nœuds feuilles dépend du type spécifique d'arbre, mais il y a toujours plus d'arbres étiquetés que non étiquetés, plus d'arbres multifurquants que bifurquants et plus enracinés que non enracinés. La dernière distinction est la plus pertinente sur le plan biologique ; il survient parce qu'il y a beaucoup d'endroits sur un arbre non enraciné pour mettre la racine. Pour les arbres étiquetés bifurquants, le nombre total d'arbres enracinés est :

pour , représente le nombre de nœuds feuilles.

Pour les arbres étiquetés bifurquants, le nombre total d'arbres non enracinés est :

pour .

Parmi les arbres bifurquants étiquetés, le nombre d'arbres non enracinés avec des feuilles est égal au nombre d'arbres enracinés avec des feuilles.

Le nombre d'arbres enracinés croît rapidement en fonction du nombre de pointes. Pour 10 conseils, il y a plus que possible d'arbres bifurquants, et le nombre d'arbres multifurquants augmente plus rapidement, avec env. 7 fois plus de ces derniers que de premiers.

Compter les arbres.

Feuilles étiquetées

Arbres binaires non racinés

Arbres à racines binaires
Arbres à
racines multiples
Tous les
arbres enracinés possibles
1 1 1 0 1
2 1 1 0 1
3 1 3 1 4
4 3 15 11 26
5 15 105 131 236
6 105 945 1 807 2 752
7 945 10 395 28 813 39 208
8 10 395 135 135 524 897 660 032
9 135 135 2 027 025 10 791 887 12 818 912
dix 2 027 025 34 459 425 247 678 399 282 137 824

Types d'arbres spéciaux

Dendrogramme de la phylogénie de certaines races de chiens

Dendrogramme

Un dendrogramme est un nom général pour un arbre, qu'il soit phylogénétique ou non, et donc aussi pour la représentation schématique d'un arbre phylogénétique.

Cladogramme

Un cladogramme ne représente qu'un motif de ramification ; c'est-à-dire que ses longueurs de branches ne représentent pas le temps ou la quantité relative de changement de caractère, et ses nœuds internes ne représentent pas les ancêtres.

Un chronogramme de lépidoptères . Dans ce type d'arbre phylogénétique, la longueur des branches est proportionnelle au temps géologique.

Phylogramme

Un phylogramme est un arbre phylogénétique qui a des longueurs de branches proportionnelles à la quantité de changement de caractère.

Un chronogramme est un arbre phylogénétique qui représente explicitement le temps à travers la longueur de ses branches.

Dahlgrenogramme

Un Dahlgrenogram est un diagramme représentant une coupe transversale d'un arbre phylogénétique

Réseau phylogénétique

Un réseau phylogénétique n'est pas à proprement parler un arbre, mais plutôt un graphe plus général , ou un graphe orienté acyclique dans le cas des réseaux enracinés. Ils sont utilisés pour surmonter certaines des limitations inhérentes aux arbres.

Schéma de broche

Un diagramme en fuseau, montrant l'évolution des vertébrés au niveau de la classe, la largeur des fuseaux indiquant le nombre de familles. Les diagrammes de broche sont souvent utilisés dans la taxonomie évolutionniste .

Un diagramme en fuseau, ou diagramme en bulle, est souvent appelé romérogramme, d'après sa popularisation par le paléontologue américain Alfred Romer . Il représente la diversité taxonomique (largeur horizontale) par rapport au temps géologique (axe vertical) afin de refléter la variation de l'abondance de divers taxons à travers le temps. Cependant, un diagramme de fuseau n'est pas un arbre évolutif : les fuseaux taxonomiques masquent les relations réelles du taxon parent au taxon fille et ont l'inconvénient d'impliquer la paraphylie du groupe parental. Ce type de schéma n'est plus utilisé sous la forme initialement proposée.

Corail de vie

Le corail de la vie

Darwin a également mentionné que le corail peut être une métaphore plus appropriée que l' arbre . En effet, les coraux phylogénétiques sont utiles pour représenter la vie passée et présente, et ils présentent certains avantages par rapport aux arbres (anastomoses autorisées, etc.).

Construction

Les arbres phylogénétiques composés d'un nombre non trivial de séquences d'entrée sont construits à l'aide de méthodes de phylogénétique computationnelle . Les méthodes de matrice de distance telles que la jointure par les voisins ou l' UPGMA , qui calculent la distance génétique à partir d'alignements de séquences multiples , sont les plus simples à mettre en œuvre, mais n'invoquent pas de modèle évolutif. De nombreuses méthodes d'alignement de séquences telles que ClustalW créent également des arbres en utilisant les algorithmes les plus simples (c'est-à-dire ceux basés sur la distance) de construction d'arbres. La parcimonie maximale est une autre méthode simple d'estimation des arbres phylogénétiques, mais elle implique un modèle implicite d'évolution (c'est-à-dire la parcimonie). Des méthodes plus avancées utilisent le critère d'optimalité du maximum de vraisemblance , souvent dans un cadre bayésien , et appliquent un modèle d'évolution explicite à l'estimation d'arbres phylogénétiques. L'identification de l'arbre optimal à l'aide de plusieurs de ces techniques est NP-difficile , de sorte que des méthodes de recherche et d' optimisation heuristiques sont utilisées en combinaison avec des fonctions de notation d'arbre pour identifier un arbre raisonnablement bon qui correspond aux données.

Les méthodes d'arboriculture peuvent être évaluées sur la base de plusieurs critères :

  • efficacité (combien de temps faut-il pour calculer la réponse, de combien de mémoire a-t-il besoin ?)
  • le pouvoir (fait-il bon usage des données, ou est-ce que l'information est gaspillée ?)
  • cohérence (va-t-il converger vers la même réponse à plusieurs reprises, si à chaque fois on donne des données différentes pour le même problème de modèle ?)
  • robustesse (résiste-t-il bien aux violations des hypothèses du modèle sous-jacent ?)
  • falsifiabilité (nous alerte-t-il lorsqu'il n'est pas bon à utiliser, c'est-à-dire lorsque des hypothèses sont violées ?)

Les techniques de construction d'arbres ont également attiré l'attention des mathématiciens. Les arbres peuvent également être construits en utilisant la théorie T .

Formats de fichiers

Les arbres peuvent être codés dans un certain nombre de formats différents, qui doivent tous représenter la structure imbriquée d'un arbre. Ils peuvent ou non coder des longueurs de branches et d'autres caractéristiques. Les formats standardisés sont essentiels pour distribuer et partager des arborescences sans dépendre d'une sortie graphique difficile à importer dans un logiciel existant. Les formats couramment utilisés sont

Limites de l'analyse phylogénétique

Bien que les arbres phylogénétiques produits sur la base de gènes séquencés ou de données génomiques dans différentes espèces puissent fournir des informations évolutives, ces analyses ont des limites importantes. Plus important encore, les arbres qu'ils génèrent ne sont pas nécessairement corrects - ils ne représentent pas nécessairement avec précision l'histoire évolutive des taxons inclus. Comme pour tout résultat scientifique, ils sont sujets à falsification par une étude plus approfondie (par exemple, collecte de données supplémentaires, analyse des données existantes avec des méthodes améliorées). Les données sur lesquelles elles sont basées peuvent être bruitées ; l'analyse peut être confondue par la recombinaison génétique , le transfert horizontal de gènes , l' hybridation entre des espèces qui n'étaient pas les plus proches voisines de l'arbre avant l'hybridation, l' évolution convergente et les séquences conservées .

En outre, il existe des problèmes pour fonder une analyse sur un seul type de caractère, tel qu'un seul gène ou une seule protéine ou uniquement sur une analyse morphologique, car ces arbres construits à partir d'une autre source de données non liée diffèrent souvent du premier, et donc un grand soin est nécessaire en inférant les relations phylogénétiques entre les espèces. Cela est particulièrement vrai pour le matériel génétique soumis à un transfert latéral de gènes et à une recombinaison , où différents blocs d' haplotypes peuvent avoir des histoires différentes. Dans ces types d'analyse, l'arbre de sortie d'une analyse phylogénétique d'un seul gène est une estimation de la phylogénie du gène (c'est-à-dire un arbre génique) et non de la phylogénie des taxons (c'est-à-dire l'arbre des espèces) à partir duquel ces caractères ont été échantillonnés, bien que idéalement, les deux devraient être très proches. Pour cette raison, les études phylogénétiques graves utilisent généralement une combinaison de gènes qui proviennent de différentes sources génomiques (par exemple, de mitochondrial ou plaste par rapport à des génomes nucléaires), ou des gènes qui seraient appelées à évoluer sous différents régimes sélectifs, de sorte que homoplasie (faux homologie ) serait peu susceptible de résulter de la sélection naturelle.

Lorsque des espèces éteintes sont incluses en tant que nœuds terminaux dans une analyse (plutôt que, par exemple, pour contraindre les nœuds internes), elles sont considérées comme ne représentant pas les ancêtres directs d'une espèce existante. Les espèces éteintes ne contiennent généralement pas d' ADN de haute qualité .

La gamme de matériaux d'ADN utiles s'est élargie avec les progrès des technologies d'extraction et de séquençage. Le développement de technologies capables d'inférer des séquences à partir de fragments plus petits ou à partir de modèles spatiaux de produits de dégradation de l'ADN élargirait encore la gamme d'ADN considérée comme utile.

Les arbres phylogénétiques peuvent également être déduits d'une gamme d'autres types de données, y compris la morphologie, la présence ou l'absence de types particuliers de gènes, les événements d'insertion et de suppression - et toute autre observation censée contenir un signal évolutif.

Les réseaux phylogénétiques sont utilisés lorsque les arbres bifurquants ne conviennent pas, en raison de ces complications qui suggèrent une histoire évolutive plus réticulée des organismes échantillonnés.

Voir également

Les références

Lectures complémentaires

  • Schuh, RT et AVZ Brower. 2009. Systématique biologique : principes et applications (2e éd.) ISBN  978-0-8014-4799-0
  • Manuel Lima , The Book of Trees: Visualizing Branches of Knowledge , 2014, Princeton Architectural Press, New York.
  • MEGA , un logiciel gratuit pour dessiner des arbres phylogénétiques.
  • Gontier, N. 2011. "Représenter l'arbre de vie: les racines philosophiques et historiques des diagrammes d'arbres évolutifs." Évolution, Éducation, Sensibilisation 4: 515-538.

Liens externes

Images

Général