Séquençage de troisième génération - Third-generation sequencing

Le séquençage de troisième génération (également connu sous le nom de séquençage à longue lecture ) est une classe de méthodes de séquençage de l' ADN actuellement en cours de développement.

Les technologies de séquençage de troisième génération ont la capacité de produire des lectures sensiblement plus longues que le séquençage de deuxième génération. Un tel avantage a des implications critiques à la fois pour la science du génome et l'étude de la biologie en général. Cependant, les données de séquençage de troisième génération ont des taux d'erreur beaucoup plus élevés que les technologies précédentes, ce qui peut compliquer l'assemblage du génome en aval et l'analyse des données résultantes. Ces technologies font l'objet d'un développement actif et l'on s'attend à ce que des améliorations soient apportées aux taux d'erreur élevés. Pour les applications plus tolérantes aux taux d'erreur, telles que l'appel de variante structurelle, le séquençage de troisième génération s'est avéré surpasser les méthodes existantes.

Technologies actuelles

Les technologies de séquençage avec une approche différente de celle des plates-formes de deuxième génération ont été décrites pour la première fois comme « troisième génération » en 2008-2009.

Plusieurs sociétés sont actuellement au cœur du développement de la technologie de séquençage de troisième génération, à savoir Pacific Biosciences , Oxford Nanopore Technology , Quantapore (CA-USA) et Stratos (WA-USA). Ces entreprises adoptent des approches fondamentalement différentes pour le séquençage de molécules d'ADN uniques.

PacBio a développé la plate-forme de séquençage du séquençage en temps réel de molécule unique (SMRT) , basée sur les propriétés des guides d'ondes en mode zéro . Les signaux sont sous forme d'émission de lumière fluorescente de chaque nucléotide incorporé par une ADN polymérase liée au fond du puits zL.

La technologie d'Oxford Nanopore consiste à faire passer une molécule d'ADN à travers une structure de pores à l'échelle nanométrique, puis à mesurer les changements du champ électrique entourant le pore ; tandis que Quantapore a une approche nanopore propriétaire différente. Stratos Genomics espace les bases d'ADN avec des inserts polymères, " Xpandomers ", pour contourner le défi signal sur bruit de la lecture de l'ADN ss nanopore.

L' approche de fluorescence à molécule unique d' Helicos est également remarquable , mais la société a fait faillite à l' automne 2015 .

Avantages

Lectures plus longues

Par rapport à la génération actuelle de technologies de séquençage, le séquençage de troisième génération présente l'avantage évident de produire des lectures beaucoup plus longues. On s'attend à ce que ces longueurs de lecture plus longues atténuent les nombreux défis informatiques entourant l'assemblage du génome, la reconstruction de la transcription et la métagénomique, entre autres domaines importants de la biologie et de la médecine modernes.

Il est bien connu que les génomes eucaryotes, y compris les primates et les humains, sont complexes et comportent un grand nombre de régions répétées longtemps. Les lectures courtes à partir du séquençage de deuxième génération doivent recourir à des stratégies approximatives afin d'inférer des séquences sur de longues distances pour l'assemblage et l'appel de variantes génétiques. Les lectures de fin de paire ont été exploitées par le séquençage de deuxième génération pour lutter contre ces limitations. Cependant, les longueurs exactes des fragments des extrémités des paires sont souvent inconnues et doivent également être approchées. En permettant de longues lectures, les technologies de séquençage de troisième génération présentent des avantages évidents.

Épigénétique

Les marqueurs épigénétiques sont des modifications stables et potentiellement héritables de la molécule d'ADN qui ne sont pas dans sa séquence. Un exemple est la méthylation de l'ADN sur les sites CpG, qui s'est avérée influencer l'expression des gènes. Les modifications des histones sont un autre exemple. La génération actuelle de technologies de séquençage repose sur des techniques de laboratoire telles que le séquençage ChIP pour la détection de marqueurs épigénétiques. Ces techniques impliquent le marquage du brin d'ADN, la rupture et le filtrage des fragments contenant des marqueurs, suivis d'un séquençage. Le séquençage de troisième génération peut permettre la détection directe de ces marqueurs en raison de leur signal distinctif des quatre autres bases nucléotidiques.

Portabilité et vitesse

Séquenceur de gènes portable MinION, Oxford Nanopore Technologies

D'autres avantages importants des technologies de séquençage de troisième génération incluent la portabilité et la vitesse de séquençage. Étant donné qu'un prétraitement minimal des échantillons est requis par rapport au séquençage de deuxième génération, des équipements plus petits pourraient être conçus. Oxford Nanopore Technology a récemment commercialisé le séquenceur MinION . Cette machine de séquençage a à peu près la taille d'une clé USB ordinaire et peut être utilisée facilement en se connectant à un ordinateur portable. De plus, comme le processus de séquençage n'est pas parallélisé entre les régions du génome, les données pourraient être collectées et analysées en temps réel. Ces avantages du séquençage de troisième génération peuvent être bien adaptés aux milieux hospitaliers où une collecte et une analyse rapides et sur site des données sont requises.

Défis

Le séquençage de troisième génération, tel qu'il existe actuellement, fait face à des défis importants concernant principalement l'identification précise des bases nucléotidiques ; les taux d'erreur sont encore beaucoup plus élevés par rapport au séquençage de deuxième génération. Ceci est généralement dû à l'instabilité de la machinerie moléculaire impliquée. Par exemple, dans la technologie de séquençage moléculaire unique et en temps réel de PacBio, la molécule d'ADN polymérase est de plus en plus endommagée au fur et à mesure que le processus de séquençage se produit. De plus, comme le processus se déroule rapidement, les signaux émis par les bases individuelles peuvent être brouillés par les signaux des bases voisines. Cela pose un nouveau défi de calcul pour déchiffrer les signaux et par conséquent déduire la séquence. Des méthodes telles que les modèles de Markov cachés , par exemple, ont été utilisées à cette fin avec un certain succès.

En moyenne, différents individus de la population humaine partagent environ 99,9% de leurs gènes. En d'autres termes, environ une seule base sur mille différerait entre deux personnes. Les taux d'erreur élevés impliqués avec le séquençage de troisième génération sont inévitablement problématiques dans le but de caractériser les différences individuelles qui existent entre les membres d'une même espèce.

Assemblage du génome

L'assemblage du génome est la reconstruction de séquences d'ADN génomiques entières. Cela se fait généralement avec deux approches fondamentalement différentes.

Alignement de référence

Lorsqu'un génome de référence est disponible, comme c'est le cas chez l'humain, les reads nouvellement séquencés pourraient simplement être alignés sur le génome de référence afin de caractériser ses propriétés. Un tel assemblage basé sur des références est rapide et facile, mais présente l'inconvénient de « cacher » de nouvelles séquences et des variantes à grand nombre de copies. De plus, les génomes de référence n'existent pas encore pour la plupart des organismes.

Assemblage de novo

L' assemblage de novo est l'approche alternative d'assemblage du génome pour l'alignement de référence. Il fait référence à la reconstruction de séquences génomiques entières entièrement à partir de lectures de séquences brutes. Cette méthode serait choisie lorsqu'il n'y a pas de génome de référence, lorsque l'espèce de l'organisme donné est inconnue comme en métagénomique , ou lorsqu'il existe des variantes génétiques d'intérêt qui peuvent ne pas être détectées par l'alignement du génome de référence.

Compte tenu des lectures courtes produites par la génération actuelle de technologies de séquençage, l'assemblage de novo est un problème informatique majeur. Il est normalement abordé par un processus itératif de recherche et de connexion de lectures de séquences avec des chevauchements sensibles. Diverses techniques de calcul et statistiques, telles que les graphiques de de bruijn et les graphiques de consensus de mise en page par chevauchement, ont été utilisées pour résoudre ce problème. Néanmoins, en raison de la nature hautement répétitive des génomes eucaryotes, la reconstruction précise et complète des séquences du génome dans l'assemblage de novo reste difficile. Les lectures de fin de paire ont été posées comme une solution possible, bien que les longueurs exactes des fragments soient souvent inconnues et doivent être approchées.

L'assemblage hybride - l'utilisation de lectures à partir de plates-formes de séquençage de 3e génération avec des lectures courtes à partir de plates-formes de 2e génération - peut être utilisé pour résoudre les ambiguïtés qui existent dans les génomes précédemment assemblés à l'aide du séquençage de deuxième génération. Les lectures courtes de deuxième génération ont également été utilisées pour corriger les erreurs qui existent dans les lectures longues de troisième génération.

Assemblage hybride

Les longues longueurs de lecture offertes par le séquençage de troisième génération peuvent atténuer bon nombre des défis auxquels sont actuellement confrontés les assemblages de génomes de novo. Par exemple, si une région répétitive entière peut être séquencée sans ambiguïté en une seule lecture, aucune inférence de calcul ne serait requise. Des méthodes de calcul ont été proposées pour atténuer le problème des taux d'erreur élevés. Par exemple, dans une étude, il a été démontré que l'assemblage de novo d'un génome microbien utilisant le séquençage PacBio seul était supérieur à celui du séquençage de deuxième génération.

Le séquençage de troisième génération peut également être utilisé conjointement avec le séquençage de deuxième génération. Cette approche est souvent appelée séquençage hybride. Par exemple, les longues lectures du séquençage de troisième génération peuvent être utilisées pour résoudre les ambiguïtés qui existent dans les génomes précédemment assemblés à l'aide du séquençage de deuxième génération. D'autre part, des lectures courtes de deuxième génération ont été utilisées pour corriger les erreurs qui existent dans les lectures longues de troisième génération. En général, il a été démontré que cette approche hybride améliore considérablement les assemblages de génomes de novo.

Marqueurs épigénétiques

La méthylation de l'ADN (DNAm) - la modification covalente de l' ADN au niveau des sites CpG résultant en des groupes méthyle attachés - est le composant le mieux compris de la machinerie épigénétique . Les modifications de l'ADN et l'expression des gènes qui en résulte peuvent varier selon les types de cellules, le développement temporel, avec l'ascendance génétique, peut changer en raison de stimuli environnementaux et sont héréditaires. Après la découverte de l'ADNm, les chercheurs ont également trouvé sa corrélation avec des maladies comme le cancer et l' autisme . Dans ce contexte d'étiologie de la maladie, l'ADNm est une voie de recherche importante.

Avantages

Les méthodes actuelles les plus courantes pour examiner l'état de méthylation nécessitent un test qui fragmente l'ADN avant le séquençage standard de deuxième génération sur la plate-forme Illumina . En raison de la longueur de lecture courte, les informations concernant les modèles plus longs de méthylation sont perdues. Les technologies de séquençage de troisième génération offrent la possibilité de séquencer en temps réel une seule molécule de lectures plus longues et de détecter la modification de l'ADN sans le test susmentionné.

La technologie PacBio SMRT et Oxford Nanopore peuvent utiliser de l'ADN non modifié pour détecter la méthylation.

Le MinION d' Oxford Nanopore Technologies a été utilisé pour détecter l'ADNm. Lorsque chaque brin d'ADN passe à travers un pore, il produit des signaux électriques qui se sont révélés sensibles aux changements épigénétiques des nucléotides, et un modèle de Markov caché (HMM) a été utilisé pour analyser les données MinION afin de détecter l' ADN 5-méthylcytosine (5mC) modification. Le modèle a été formé à l'aide d' ADN d' E. coli méthylé synthétiquement et les signaux résultants mesurés par la technologie des nanopores. Ensuite, le modèle entraîné a été utilisé pour détecter 5mC dans les lectures génomiques MinION à partir d'une lignée cellulaire humaine qui avait déjà un méthylome de référence. Le classificateur a une précision de 82 % dans les sites singletons échantillonnés au hasard, ce qui augmente à 95 % lorsque des seuils plus stricts sont appliqués.

D'autres méthodes traitent différents types de modifications de l'ADN à l'aide de la plate-forme MinION. Stoiber et al. examiné la 4-méthylcytosine (4mC) et la 6-méthyladénine (6mA), ainsi que 5mC, et a également créé un logiciel pour visualiser directement les données brutes de MinION d'une manière conviviale. Ici, ils ont découvert que dans E. coli , qui possède un méthylome connu , des fenêtres d'événements de 5 paires de bases de long peuvent être utilisées pour diviser et analyser statistiquement les signaux électriques MinION bruts. Un test simple de Mann-Whitney U peut détecter des portions modifiées de la séquence d' E. coli , ainsi que diviser davantage les modifications en régions 4mC, 6mA ou 5mC.

Il semble probable qu'à l'avenir, les données brutes de MinION seront utilisées pour détecter de nombreuses marques épigénétiques différentes dans l'ADN.

Le séquençage PacBio a également été utilisé pour détecter la méthylation de l'ADN. Dans cette plate-forme, la largeur d'impulsion - la largeur d'une impulsion lumineuse fluorescente - correspond à une base spécifique. En 2010, il a été montré que la distance entre les impulsions dans les échantillons de contrôle et méthylés est différente, et qu'il existe une largeur d'impulsion « signature » ​​pour chaque type de méthylation. En 2012, à l'aide de la plateforme PacBio, les sites de liaison des ADN méthyltransférases ont été caractérisés. La détection de la N6-méthylation chez C Elegans a été montrée en 2015. La méthylation de l'ADN sur la N 6 -adénine à l'aide de la plateforme PacBio dans des cellules souches embryonnaires de souris a été montrée en 2016.

D'autres formes de modifications de l'ADN - à partir de métaux lourds, d'oxydation ou de dommages causés par les UV - sont également des pistes de recherche possibles en utilisant le séquençage de troisième génération Oxford Nanopore et PacBio.

Désavantages

Le traitement des données brutes - telles que la normalisation au signal médian - était nécessaire sur les données brutes MinION, réduisant la capacité en temps réel de la technologie. La cohérence des signaux électriques est toujours un problème, ce qui rend difficile l'appel précis d'un nucléotide. MinION a un faible débit ; étant donné que plusieurs lectures qui se chevauchent sont difficiles à obtenir, cela entraîne en outre des problèmes de précision de la détection de modification d'ADN en aval. Le modèle de Markov caché et les méthodes statistiques utilisées avec les données brutes MinION nécessitent des observations répétées des modifications de l'ADN pour la détection, ce qui signifie que les nucléotides modifiés individuels doivent être systématiquement présents dans plusieurs copies du génome, par exemple dans plusieurs cellules ou plasmides de l'échantillon.

Pour la plate-forme PacBio également, en fonction de la méthylation que vous vous attendez à trouver, les besoins de couverture peuvent varier. En mars 2017, d'autres facteurs épigénétiques tels que les modifications des histones n'avaient pas été découverts à l'aide des technologies de troisième génération. Des modèles de méthylation plus longs sont souvent perdus car des contigs plus petits doivent encore être assemblés.

Transcriptomique

La transcriptomique est l'étude du transcriptome , généralement en caractérisant les abondances relatives des molécules d'ARN messager du tissu à l'étude. Selon le dogme central de la biologie moléculaire , l'information génétique passe des molécules d'ADN double brin aux molécules d'ARNm simple brin où elles peuvent être facilement traduites en molécules de protéines fonctionnelles. En étudiant le transcriptome, on peut obtenir des informations précieuses sur la régulation des expressions géniques.

Alors que les niveaux d'expression au niveau du gène peuvent être représentés plus ou moins précisément par le séquençage de deuxième génération, les informations au niveau du transcrit restent toujours un défi important. En conséquence, le rôle de l'épissage alternatif en biologie moléculaire reste largement insaisissable. Les technologies de séquençage de troisième génération offrent des perspectives prometteuses pour résoudre ce problème en permettant le séquençage des molécules d'ARNm sur toute leur longueur.

Épissage alternatif

L'épissage alternatif (AS) est le processus par lequel un seul gène peut donner lieu à plusieurs transcrits d'ARNm distincts et, par conséquent, à différentes traductions de protéines. Certaines preuves suggèrent que la SA est un phénomène omniprésent et peut jouer un rôle clé dans la détermination des phénotypes des organismes, en particulier chez les eucaryotes complexes; tous les eucaryotes contiennent des gènes constitués d'introns qui peuvent subir une SA. En particulier, il a été estimé que la SA apparaît dans 95 % de tous les gènes multi-exons humains. La SA a un potentiel indéniable pour influencer une myriade de processus biologiques. L'avancement des connaissances dans ce domaine a des implications cruciales pour l'étude de la biologie en général.

Reconstitution de la transcription

La génération actuelle de technologies de séquençage ne produit que de courtes lectures, ce qui limite considérablement la capacité de détecter des transcriptions distinctes ; les lectures courtes doivent faire l'objet d'une ingénierie inverse dans les transcriptions originales qui auraient pu donner lieu aux observations de lecture résultantes. Cette tâche est encore compliquée par les niveaux d'expression très variables entre les transcrits et, par conséquent, les couvertures de lecture variables à travers la séquence du gène. De plus, les exons peuvent être partagés entre les transcrits individuels, rendant les inférences non ambiguës essentiellement impossibles. Les méthodes de calcul existantes font des inférences basées sur l'accumulation de lectures courtes à divers emplacements de séquence, souvent en faisant des hypothèses simplificatrices. Cufflinks adopte une approche parcimonieuse, cherchant à expliquer toutes les lectures avec le moins de transcriptions possible. D'autre part, StringTie tente d'estimer simultanément les abondances de transcrits tout en assemblant les lectures. Ces méthodes, bien que raisonnables, peuvent ne pas toujours identifier les vraies transcriptions.

Une étude publiée en 2008 a examiné 25 différents protocoles de reconstruction de transcription existants. Ses preuves suggèrent que les méthodes existantes sont généralement faibles dans l'assemblage des transcrits, bien que la capacité de détecter des exons individuels soit relativement intacte. Selon les estimations, la sensibilité moyenne pour détecter les exons dans les 25 protocoles est de 80 % pour les gènes de Caenorhabditis elegans . En comparaison, la sensibilité d'identification du transcrit diminue à 65 %. Pour l'homme, l'étude a rapporté une sensibilité de détection d'exons d'une moyenne de 69 % et une sensibilité de détection de transcrits d'à peine 33 % en moyenne. En d'autres termes, pour l'homme, les méthodes existantes sont capables d'identifier moins de la moitié de tous les transcrits existants.

Les technologies de séquençage de troisième génération ont montré des perspectives prometteuses pour résoudre le problème de la détection des transcrits ainsi que l'estimation de l'abondance des ARNm au niveau des transcrits. Alors que les taux d'erreur restent élevés, les technologies de séquençage de troisième génération ont la capacité de produire des longueurs de lecture beaucoup plus longues. Pacific Bioscience a introduit la plateforme iso-seq, proposant de séquencer les molécules d'ARNm sur toute leur longueur. Il est prévu qu'Oxford Nanopore propose des technologies similaires. Le problème avec des taux d'erreur plus élevés peut être atténué par des lectures courtes supplémentaires de haute qualité. Cette approche a été précédemment testée et rapportée pour réduire le taux d'erreur de plus de 3 fois.

Métagénomique

La métagénomique est l'analyse du matériel génétique récupéré directement à partir d'échantillons environnementaux.

Avantages

Le principal avantage des technologies de séquençage de troisième génération en métagénomique est leur vitesse de séquençage par rapport aux techniques de deuxième génération. La vitesse du séquençage est importante, par exemple dans le cadre clinique (c'est-à-dire l' identification des agents pathogènes ), pour permettre un diagnostic efficace et des actions cliniques opportunes.

Le MinION d'Oxford Nanopore a été utilisé en 2015 pour la détection métagénomique en temps réel d'agents pathogènes dans des échantillons cliniques complexes à fort bruit de fond. La première lecture du virus Ebola (EBV) a été séquencée 44 secondes après l'acquisition des données. Il y avait une cartographie uniforme des lectures sur le génome ; au moins une lecture mappée à > 88 % du génome. Les lectures relativement longues ont permis le séquençage d'un génome viral presque complet avec une grande précision (97 à 99 % d'identité) directement à partir d'un échantillon clinique primaire.

Un marqueur phylogénétique courant pour les études de diversité des communautés microbiennes est le gène de l'ARN ribosomique 16S . Les plateformes SMRT de MinION et de PacBio ont été utilisées pour séquencer ce gène. Dans ce contexte, le taux d'erreur de PacBio était comparable à celui des lectures plus courtes de 454 et des plates-formes de séquençage MiSeq d'Illumina.

Désavantages

Le taux d'erreur élevé de MinION (~10-40 %) a empêché l'identification des marqueurs de résistance aux antimicrobiens , pour lesquels la résolution d'un seul nucléotide est nécessaire. Pour la même raison, les agents pathogènes eucaryotes n'ont pas été identifiés. La facilité de contamination par transfert lors de la réutilisation de la même Flow Cell (les protocoles de lavage standard ne fonctionnent pas) est également un problème. Les codes-barres uniques peuvent permettre plus de multiplexage. De plus, il est très difficile d' effectuer une identification précise des espèces pour les bactéries , les champignons et les parasites , car ils partagent une plus grande partie du génome, et certains ne diffèrent que de <5%.

Le coût de séquençage par base est encore nettement supérieur à celui de MiSeq. Cependant, la perspective de compléter les bases de données de référence avec des séquences complètes d'organismes en dessous de la limite de détection de l' approche de Sanger ; cela pourrait grandement aider à l'identification d'organismes en métagénomique.

Les références