Séquençage ADN - DNA sequencing

Le séquençage de l'ADN est le processus de détermination de la séquence d'acide nucléique – l'ordre des nucléotides dans l' ADN . Il comprend toute méthode ou technologie utilisée pour déterminer l'ordre des quatre bases : adénine , guanine , cytosine et thymine . L'avènement des méthodes de séquençage rapide de l'ADN a considérablement accéléré la recherche et les découvertes biologiques et médicales.

La connaissance des séquences d'ADN est devenue indispensable pour la recherche biologique fondamentale, et dans de nombreux domaines appliqués tels que le diagnostic médical , la biotechnologie , la biologie médico - légale , la virologie et la systématique biologique . La comparaison de séquences d'ADN saines et mutées peut diagnostiquer différentes maladies, y compris divers cancers, caractériser le répertoire d'anticorps et peut être utilisée pour guider le traitement du patient. Disposer d'un moyen rapide de séquencer l'ADN permet d'administrer des soins médicaux plus rapides et plus individualisés, et d'identifier et de cataloguer davantage d'organismes.

La vitesse rapide de séquençage atteinte avec la technologie moderne de séquençage de l'ADN a joué un rôle déterminant dans le séquençage de séquences d'ADN complètes, ou génomes , de nombreux types et espèces de vie, y compris le génome humain et d'autres séquences d'ADN complètes de nombreux animaux, végétaux et microbiens. espèce.

Un exemple des résultats du séquençage automatisé de l'ADN à terminaison de chaîne.

Les premières séquences d'ADN ont été obtenues au début des années 1970 par des chercheurs universitaires utilisant des méthodes laborieuses basées sur la chromatographie bidimensionnelle . Suite au développement de méthodes de séquençage basées sur la fluorescence avec un séquenceur d' ADN, le séquençage d'ADN est devenu plus facile et des ordres de grandeur plus rapides.

Applications

Le séquençage de l'ADN peut être utilisé pour déterminer la séquence de gènes individuels , de régions génétiques plus vastes (c'est-à-dire des groupes de gènes ou d' opérons ), de chromosomes complets ou de génomes entiers de tout organisme. Le séquençage de l'ADN est également le moyen le plus efficace de séquencer indirectement l' ARN ou les protéines (via leurs cadres de lecture ouverts ). En fait, le séquençage de l'ADN est devenu une technologie clé dans de nombreux domaines de la biologie et d'autres sciences telles que la médecine, la médecine légale et l' anthropologie .

Biologie moléculaire

Le séquençage est utilisé en biologie moléculaire pour étudier les génomes et les protéines qu'ils codent. Les informations obtenues à l'aide du séquençage permettent aux chercheurs d'identifier les changements dans les gènes, les associations avec les maladies et les phénotypes, et d'identifier les cibles médicamenteuses potentielles.

Biologie de l'évolution

L'ADN étant une macromolécule informative en termes de transmission d'une génération à l'autre, le séquençage de l'ADN est utilisé en biologie évolutive pour étudier comment différents organismes sont liés et comment ils ont évolué. En février 2021, des scientifiques ont signalé, pour la première fois, le séquençage d' ADN à partir de restes d'animaux , un mammouth en l'occurrence, vieux de plus d'un million d'années, le plus ancien ADN séquencé à ce jour.

Métagénomique

Le domaine de la métagénomique implique l'identification d'organismes présents dans un plan d'eau, des eaux usées , de la saleté, des débris filtrés de l'air ou des échantillons d'écouvillonnage d'organismes. Savoir quels organismes sont présents dans un environnement particulier est essentiel pour la recherche en écologie , épidémiologie , microbiologie et autres domaines. Le séquençage permet aux chercheurs de déterminer quels types de microbes peuvent être présents dans un microbiome , par exemple.

Virologie

Comme la plupart des virus sont trop petits pour être vus au microscope optique, le séquençage est l'un des principaux outils en virologie pour identifier et étudier le virus. Les génomes viraux peuvent être basés sur l'ADN ou l'ARN. Les virus à ARN sont plus sensibles au temps pour le séquençage du génome, car ils se dégradent plus rapidement dans les échantillons cliniques. Le séquençage traditionnel de Sanger et le séquençage de nouvelle génération sont utilisés pour séquencer les virus dans la recherche fondamentale et clinique, ainsi que pour le diagnostic des infections virales émergentes, l'épidémiologie moléculaire des agents pathogènes viraux et les tests de résistance aux médicaments. Il existe plus de 2,3 millions de séquences virales uniques dans GenBank . Récemment, NGS a dépassé Sanger traditionnel en tant qu'approche la plus populaire pour générer des génomes viraux.

Au cours de l' épidémie de grippe aviaire de 1990 , le séquençage viral a déterminé que le sous-type de grippe provenait d'un réassortiment entre les cailles et la volaille. Cela a conduit à une législation à Hong Kong interdisant la vente de cailles vivantes et de volaille ensemble sur le marché. Le séquençage viral peut également être utilisé pour estimer quand une épidémie virale a commencé en utilisant une technique d' horloge moléculaire .

Médicament

Les techniciens médicaux peuvent séquencer des gènes (ou, théoriquement, des génomes complets) de patients afin de déterminer s'il existe un risque de maladies génétiques. Il s'agit d'une forme de test génétique , même si certains tests génétiques peuvent ne pas impliquer de séquençage de l'ADN.

Le séquençage de l'ADN est également de plus en plus utilisé pour diagnostiquer et traiter les maladies rares. À mesure que de plus en plus de gènes responsables de maladies génétiques rares sont identifiés, les diagnostics moléculaires pour les patients deviennent de plus en plus courants. Le séquençage de l'ADN permet aux cliniciens d'identifier les maladies génétiques, d'améliorer la gestion des maladies, de fournir des conseils en matière de reproduction et des thérapies plus efficaces.

En outre, le séquençage de l'ADN peut être utile pour déterminer une bactérie spécifique, pour permettre des traitements antibiotiques plus précis , réduisant ainsi le risque de créer une résistance aux antimicrobiens dans les populations bactériennes.

Enquête médico-légale

Le séquençage de l'ADN peut être utilisé avec les méthodes de profilage de l'ADN pour l'identification médico-légale et les tests de paternité . Les tests ADN ont énormément évolué au cours des dernières décennies pour finalement lier une empreinte ADN à ce qui fait l'objet d'une enquête. Les modèles d'ADN dans les empreintes digitales, la salive, les follicules pileux, etc. séparent de manière unique chaque organisme vivant d'un autre. Tester l'ADN est une technique qui permet de détecter des génomes spécifiques dans un brin d'ADN pour produire un modèle unique et individualisé.

Les quatre bases canoniques

La structure canonique de l'ADN a quatre bases : la thymine (T), l' adénine (A), la cytosine (C) et la guanine (G). Le séquençage de l'ADN est la détermination de l'ordre physique de ces bases dans une molécule d'ADN. Cependant, il existe de nombreuses autres bases qui peuvent être présentes dans une molécule. Dans certains virus (en particulier les bactériophages ), la cytosine peut être remplacée par l'hydroxy méthyle ou l'hydroxy méthyl glucose cytosine. Dans l'ADN de mammifère, des bases variantes avec des groupes méthyle ou phosphosulfate peuvent être trouvées. Selon la technique de séquençage, une modification particulière, par exemple, le 5mC ( 5 méthyl cytosine ) courante chez l'homme, peut ou non être détectée.

Histoire

Découverte de la structure et de la fonction de l'ADN

L'acide désoxyribonucléique ( ADN ) a été découvert et isolé pour la première fois par Friedrich Miescher en 1869, mais il est resté sous-étudié pendant de nombreuses décennies parce que les protéines, plutôt que l'ADN, étaient censées maintenir le modèle génétique à la vie. Cette situation a changé après 1944 à la suite de certaines expériences d' Oswald Avery , Colin MacLeod et Maclyn McCarty démontrant que l'ADN purifié pouvait transformer une souche de bactérie en une autre. C'était la première fois que l'ADN se révélait capable de transformer les propriétés des cellules.

En 1953, James Watson et Francis Crick ont présenté leur modèle d'ADN à double hélice , basé sur des structures de rayons X cristallisées étudiées par Rosalind Franklin . Selon le modèle, l'ADN est composé de deux brins de nucléotides enroulés l'un autour de l'autre, liés entre eux par des liaisons hydrogène et fonctionnant dans des directions opposées. Chaque brin est composé de quatre nucléotides complémentaires – adénine (A), cytosine (C), guanine (G) et thymine (T) – avec un A sur un brin toujours apparié avec T sur l'autre, et C toujours apparié avec G. Ils ont proposé qu'une telle structure permette à chaque brin d'être utilisé pour reconstruire l'autre, une idée centrale pour la transmission d'informations héréditaires entre les générations.

Frederick Sanger , un pionnier du séquençage. Sanger est l'un des rares scientifiques à avoir reçu deux prix Nobel, l'un pour le séquençage des protéines et l'autre pour le séquençage de l'ADN.

Les bases du séquençage des protéines ont été posées pour la première fois par les travaux de Frederick Sanger qui, en 1955, avait achevé le séquençage de tous les acides aminés de l' insuline , une petite protéine sécrétée par le pancréas. Cela a fourni la première preuve concluante que les protéines étaient des entités chimiques avec un motif moléculaire spécifique plutôt qu'un mélange aléatoire de matières en suspension dans un fluide. Le succès de Sanger dans le séquençage de l'insuline a stimulé les cristallographes aux rayons X, dont Watson et Crick, qui essayaient maintenant de comprendre comment l'ADN dirigeait la formation de protéines dans une cellule. Peu de temps après avoir assisté à une série de conférences données par Frederick Sanger en octobre 1954, Crick a commencé à développer une théorie selon laquelle l'arrangement des nucléotides dans l'ADN déterminait la séquence des acides aminés dans les protéines, ce qui à son tour aidait à déterminer la fonction d'une protéine. Il a publié cette théorie en 1958.

Séquençage d'ARN

Le séquençage d'ARN était l'une des premières formes de séquençage de nucléotides. Le point de repère majeur du séquençage de l'ARN est la séquence du premier gène complet et du génome complet du bactériophage MS2 , identifié et publié par Walter Fiers et ses collaborateurs à l' Université de Gand ( Gand , Belgique ), en 1972 et 1976. Séquençage traditionnel de l'ARN les méthodes nécessitent la création d'une molécule d' ADNc qui doit être séquencée.

Premières méthodes de séquençage de l'ADN

La première méthode de détermination des séquences d'ADN impliquait une stratégie d'extension d'amorce spécifique à l'emplacement établie par Ray Wu à l'Université Cornell en 1970. La catalyse de l'ADN polymérase et le marquage spécifique des nucléotides, qui figurent tous deux en bonne place dans les schémas de séquençage actuels, ont été utilisés pour séquencer les extrémités cohésives. de l'ADN du phage lambda. Entre 1970 et 1973, Wu, R Padmanabhan et leurs collègues ont démontré que cette méthode peut être utilisée pour déterminer n'importe quelle séquence d'ADN à l'aide d'amorces synthétiques spécifiques à l'emplacement. Frederick Sanger a ensuite adopté cette stratégie d'extension d'amorce pour développer des méthodes de séquençage d'ADN plus rapides au MRC Center , Cambridge , Royaume-Uni et a publié une méthode pour le « séquençage d'ADN avec des inhibiteurs de terminaison de chaîne » en 1977. Walter Gilbert et Allan Maxam à Harvard ont également développé méthodes de séquençage, dont une pour le « séquençage de l'ADN par dégradation chimique ». En 1973, Gilbert et Maxam ont rapporté la séquence de 24 paires de bases en utilisant une méthode connue sous le nom d'analyse des points errants. Les progrès du séquençage ont été facilités par le développement simultané de la technologie de l' ADN recombinant , permettant d'isoler des échantillons d'ADN à partir de sources autres que des virus.

Séquençage de génomes complets

Le génome de 5 386 pb du bactériophage φX174 . Chaque bloc de couleur représente un gène.

Le premier génome d'ADN complet à être séquencé était celui du bactériophage φX174 en 1977. Les scientifiques du Medical Research Council ont déchiffré la séquence d'ADN complète du virus d'Epstein-Barr en 1984, trouvant qu'il contenait 172 282 nucléotides. L'achèvement de la séquence a marqué un tournant important dans le séquençage de l'ADN car il a été réalisé sans aucune connaissance préalable du profil génétique du virus.

Une méthode non radioactive pour transférer les molécules d'ADN de mélanges réactionnels de séquençage sur une matrice d'immobilisation pendant l' électrophorèse a été développée par Herbert Pohl et ses collaborateurs au début des années 1980. Suivie de la commercialisation du séquenceur d'ADN "Direct-Blotting-Electrophoresis-System GATC 1500" par GATC Biotech , qui a été intensivement utilisé dans le cadre du programme de séquençage du génome de l'UE, la séquence complète d'ADN de la levure Saccharomyces cerevisiae chromosome II. Le laboratoire de Leroy E. Hood au California Institute of Technology a annoncé la première machine de séquençage d'ADN semi-automatisée en 1986. Cela a été suivi par la commercialisation par Applied Biosystems de la première machine de séquençage entièrement automatisée, l'ABI 370, en 1987 et par Dupont's Genesis 2000 qui a utilisé une nouvelle technique de marquage fluorescent permettant d'identifier les quatre didésoxynucléotides sur une seule voie. En 1990, les National Institutes of Health (NIH) des États-Unis avaient commencé des essais de séquençage à grande échelle sur Mycoplasma capricolum , Escherichia coli , Caenorhabditis elegans et Saccharomyces cerevisiae à un coût de 0,75 $ US par base. Pendant ce temps, le séquençage de séquences d' ADNc humain appelées étiquettes de séquences exprimées a commencé dans le laboratoire de Craig Venter , une tentative de capturer la fraction codante du génome humain . En 1995, Venter, Hamilton Smith et leurs collègues de l'Institute for Genomic Research (TIGR) ont publié le premier génome complet d'un organisme vivant en liberté, la bactérie Haemophilus influenzae . Le chromosome circulaire contient 1 830 137 bases et sa publication dans la revue Science a marqué la première utilisation publiée du séquençage par fusil de chasse du génome entier, éliminant ainsi le besoin d'efforts de cartographie initiaux.

En 2001, des méthodes de séquençage par fusil de chasse avaient été utilisées pour produire une ébauche de séquence du génome humain.

Méthodes de séquençage à haut débit (HTS)

Histoire de la technologie de séquençage 

Plusieurs nouvelles méthodes de séquençage de l'ADN ont été développées entre le milieu et la fin des années 1990 et ont été mises en œuvre dans des séquenceurs d'ADN commerciaux d' ici l'an 2000. Ensemble, elles ont été appelées méthodes de séquençage de « prochaine génération » ou de « deuxième génération » (NGS), afin pour les distinguer des méthodes précédentes, y compris le séquençage de Sanger . Contrairement à la première génération de séquençage, la technologie NGS se caractérise généralement par sa grande évolutivité, permettant de séquencer l'ensemble du génome en une seule fois. Habituellement, cela est accompli en fragmentant le génome en petits morceaux, en échantillonnant au hasard un fragment et en le séquençant à l'aide de l'une des nombreuses technologies, telles que celles décrites ci-dessous. Un génome entier est possible car plusieurs fragments sont séquencés à la fois (ce qui lui donne le nom de séquençage « massivement parallèle ») dans un processus automatisé.

La technologie NGS a énormément permis aux chercheurs de rechercher des informations sur la santé, aux anthropologues d'enquêter sur les origines humaines, et catalyse le mouvement de la « médecine personnalisée ». Cependant, cela a également ouvert la porte à plus de marge d'erreur. Il existe de nombreux outils logiciels pour effectuer l'analyse informatique des données NGS, souvent compilées sur des plateformes en ligne telles que CSI NGS Portal, chacune avec son propre algorithme. Même les paramètres d'un progiciel peuvent modifier le résultat de l'analyse. En outre, les grandes quantités de données produites par le séquençage de l'ADN ont également nécessité le développement de nouvelles méthodes et programmes pour l'analyse des séquences. Plusieurs efforts pour développer des normes dans le domaine NGS ont été tentés pour relever ces défis, dont la plupart ont été des efforts à petite échelle provenant de laboratoires individuels. Plus récemment, un effort important, organisé et financé par la FDA a abouti à la norme BioCompute .

Le 26 octobre 1990, Roger Tsien , Pepi Ross, Margaret Fahnestock et Allan J Johnston ont déposé un brevet décrivant le séquençage par étapes ("base par base") avec des bloqueurs 3' amovibles sur des puces à ADN (blots et molécules d'ADN simples). En 1996, Pål Nyrén et son élève Mostafa Ronaghi au Royal Institute of Technology de Stockholm publient leur méthode de pyroséquençage .

Le 1er avril 1997, Pascal Mayer  [ fr ] et Laurent Farinelli ont déposé auprès de l'Organisation Mondiale de la Propriété Intellectuelle des brevets décrivant le séquençage de colonies d'ADN. Les méthodes de préparation d'échantillons d'ADN et de mise en réseau aléatoire de surface par polymérase en chaîne (PCR) décrites dans ce brevet, couplées à la méthode de séquençage « base par base » de Roger Tsien et al., sont désormais mises en œuvre dans le système Hi-Seq d' Illumina . séquenceurs du génome.

En 1998, Phil Green et Brent Ewing de l'Université de Washington ont décrit leur score de qualité phred pour l'analyse des données de séquenceur, une technique d'analyse historique qui a été largement adoptée et qui reste la mesure la plus courante pour évaluer la précision d'une plate-forme de séquençage.

Lynx Therapeutics a publié et commercialisé le séquençage de signature massivement parallèle (MPSS) en 2000. Cette méthode incorporait une technologie de séquençage à base de billes parallélisée, à médiation par adaptateur/ligature et a servi de première méthode de séquençage de « nouvelle génération » disponible dans le commerce, bien qu'aucune Des séquenceurs d'ADN ont été vendus à des laboratoires indépendants.

Méthodes de base

Séquençage Maxam-Gilbert

Allan Maxam et Walter Gilbert ont publié une méthode de séquençage de l'ADN en 1977 basée sur la modification chimique de l'ADN et le clivage ultérieur à des bases spécifiques. Également connue sous le nom de séquençage chimique, cette méthode a permis d'utiliser des échantillons purifiés d'ADN double brin sans autre clonage. L'utilisation de cette méthode de marquage radioactif et sa complexité technique ont découragé une utilisation intensive après que des améliorations dans les méthodes de Sanger aient été apportées.

Le séquençage Maxam-Gilbert nécessite un marquage radioactif à une extrémité 5' de l'ADN et la purification du fragment d'ADN à séquencer. Le traitement chimique génère alors des cassures à une faible proportion d'une ou deux des quatre bases nucléotidiques dans chacune des quatre réactions (G, A+G, C, C+T). La concentration des produits chimiques modificateurs est contrôlée pour introduire en moyenne une modification par molécule d'ADN. Ainsi, une série de fragments marqués est générée, de l'extrémité radiomarquée au premier site "coupé" dans chaque molécule. Les fragments dans les quatre réactions sont soumis à une électrophorèse côte à côte dans des gels d'acrylamide dénaturants pour une séparation par taille. Pour visualiser les fragments, le gel est exposé à un film radiographique pour autoradiographie, produisant une série de bandes sombres correspondant chacune à un fragment d'ADN radiomarqué, à partir duquel la séquence peut être déduite.

Méthodes de terminaison de chaîne

La méthode de terminaison de chaîne développée par Frederick Sanger et ses collègues en 1977 est rapidement devenue la méthode de choix, en raison de sa relative facilité et fiabilité. Lorsqu'elle a été inventée, la méthode du terminateur de chaîne utilisait moins de produits chimiques toxiques et des quantités inférieures de radioactivité que la méthode de Maxam et Gilbert. En raison de sa facilité relative, la méthode de Sanger a été rapidement automatisée et a été la méthode utilisée dans la première génération de séquenceurs d'ADN .

Le séquençage de Sanger est la méthode qui a prévalu des années 1980 jusqu'au milieu des années 2000. Au cours de cette période, de grands progrès ont été réalisés dans la technique, tels que le marquage fluorescent, l'électrophorèse capillaire et l'automatisation générale. Ces développements ont permis un séquençage beaucoup plus efficace, conduisant à des coûts inférieurs. La méthode Sanger, sous forme de production de masse, est la technologie qui a produit le premier génome humain en 2001, inaugurant l'ère de la génomique . Cependant, plus tard dans la décennie, des approches radicalement différentes ont atteint le marché, ramenant le coût par génome de 100 millions de dollars en 2001 à 10 000 dollars en 2011.

Séquençage à grande échelle et de novo séquençage

L'ADN génomique est fragmenté en morceaux aléatoires et cloné en tant que bibliothèque bactérienne. L'ADN de clones bactériens individuels est séquencé et la séquence est assemblée en utilisant des régions d'ADN qui se chevauchent.(cliquer pour agrandir)

Le séquençage à grande échelle vise souvent à séquencer de très longs morceaux d'ADN, tels que des chromosomes entiers , bien que le séquençage à grande échelle puisse également être utilisé pour générer un très grand nombre de séquences courtes, telles que celles trouvées dans la présentation sur phage . Pour les cibles plus longues telles que les chromosomes, les approches courantes consistent à couper (avec des enzymes de restriction ) ou à cisailler (avec des forces mécaniques) de gros fragments d'ADN en fragments d'ADN plus courts. L'ADN fragmenté peut ensuite être cloné dans un vecteur d'ADN et amplifié dans un hôte bactérien tel que Escherichia coli . De courts fragments d'ADN purifiés à partir de colonies bactériennes individuelles sont séquencés individuellement et assemblés électroniquement en une longue séquence contiguë. Des études ont montré que l'ajout d'une étape de sélection de taille pour collecter des fragments d'ADN de taille uniforme peut améliorer l'efficacité du séquençage et la précision de l'assemblage du génome. Dans ces études, le dimensionnement automatisé s'est avéré plus reproductible et précis que le dimensionnement manuel du gel.

Le terme « séquençage de novo » fait spécifiquement référence aux méthodes utilisées pour déterminer la séquence d'ADN sans séquence connue auparavant. De novo se traduit du latin par « depuis le début ». Les lacunes dans la séquence assemblée peuvent être comblées par la marche d'amorce . Les différentes stratégies ont des compromis différents en termes de vitesse et de précision ; les méthodes de fusil de chasse sont souvent utilisées pour le séquençage de grands génomes, mais son assemblage est complexe et difficile, en particulier avec des répétitions de séquences causant souvent des lacunes dans l'assemblage du génome.

La plupart des approches de séquençage utilisent une étape de clonage in vitro pour amplifier des molécules d'ADN individuelles, car leurs méthodes de détection moléculaire ne sont pas suffisamment sensibles pour le séquençage d'une seule molécule. La PCR en émulsion isole les molécules d'ADN individuelles ainsi que les billes enduites d'un apprêt dans des gouttelettes aqueuses au sein d'une phase huileuse. Une réaction en chaîne par polymérase (PCR) recouvre ensuite chaque bille de copies clonales de la molécule d'ADN suivie d'une immobilisation pour un séquençage ultérieur. La PCR en émulsion est utilisée dans les méthodes développées par Marguilis et al. (commercialisé par 454 Life Sciences ), Shendure et Porreca et al. (également connu sous le nom de « séquençage polony ») et le séquençage SOLiD , (développé par Agencourt , plus tard Applied Biosystems , maintenant Life Technologies ). La PCR en émulsion est également utilisée dans les plateformes GemCode et Chromium développées par 10x Genomics .

Séquençage au fusil de chasse

Le séquençage Shotgun est une méthode de séquençage conçue pour l'analyse de séquences d'ADN de plus de 1000 paires de bases, jusqu'à et y compris des chromosomes entiers. Cette méthode nécessite que l'ADN cible soit divisé en fragments aléatoires. Après le séquençage de fragments individuels, les séquences peuvent être réassemblées sur la base de leurs régions de chevauchement.

Méthodes à haut débit

De multiples lectures de séquences fragmentées doivent être assemblées sur la base de leurs zones de chevauchement.

Le séquençage à haut débit, qui comprend les méthodes de séquençage « à lecture courte » de nouvelle génération et « à lecture longue » de troisième génération, s'applique au séquençage de l'exome, au séquençage du génome, au reséquençage du génome, au profilage du transcriptome ( RNA-Seq ), aux interactions ADN-protéine ( ChIP-séquençage ) et caractérisation de l' épigénome . Le reséquençage est nécessaire, car le génome d'un seul individu d'une espèce n'indiquera pas toutes les variations du génome parmi les autres individus de la même espèce.

La forte demande de séquençage à faible coût a entraîné le développement de technologies de séquençage à haut débit qui parallélisent le processus de séquençage, produisant des milliers ou des millions de séquences simultanément. Les technologies de séquençage à haut débit sont destinées à réduire le coût du séquençage de l'ADN au-delà de ce qui est possible avec les méthodes standard de colorant-terminateur. Dans le séquençage à ultra-haut débit, jusqu'à 500 000 opérations de séquençage par synthèse peuvent être exécutées en parallèle. De telles technologies ont permis de séquencer un génome humain entier en une journée seulement. En 2019, les entreprises leaders dans le développement de produits de séquençage à haut débit comprenaient Illumina , Qiagen et ThermoFisher Scientific .

Comparaison des méthodes de séquençage à haut débit
Méthode Longueur de lecture Précision (lecture unique non consensuelle) Lectures par exécution Temps par course Coût pour 1 milliard de bases (en US$) Avantages Désavantages
Séquençage en temps réel d'une molécule unique (Pacific Biosciences) 30 000 pb ( N50 );

longueur de lecture maximale > 100 000 bases

87 % de précision de lecture brute 4 000 000 par cellule SMRT Sequel 2, 100 à 200 gigabases 30 minutes à 20 heures 7,2 $ à 43,3 $ Rapide. Détecte 4mC, 5mC, 6mA. Débit modéré. L'équipement peut être très coûteux.
Semi-conducteur ionique (séquençage Ion Torrent) jusqu'à 600 pb 99,6% jusqu'à 80 millions 2 heures 66,8 $ à 950 $ Matériel moins cher. Rapide. Erreurs homopolymères.
Pyroséquençage (454) 700 pb 99,9% 1 million 24 heures 10 000 $ Taille de lecture longue. Rapide. Les courses sont chères. Erreurs homopolymères.
Séquençage par synthèse (Illumina) MiniSeq, NextSeq : 75-300 pb ;

MiSeq : 50-600 pb ;

HiSeq 2500 : 50 à 500 pb ;

HiSeq 3/4000 : 50 à 300 pb ;

HiSeq X : 300 pb

99,9% (Phred30) MiniSeq/MiSeq : 1 à 25 millions ;

NextSeq : 130-00 millions ;

HiSeq 2500 : 300 millions – 2 milliards ;

HiSeq 3/4000 2,5 milliards ;

HiSeq X : 3 milliards

1 à 11 jours, selon le séquenceur et la durée de lecture spécifiée 5 $ à 150 $ Potentiel de rendement de séquence élevé, selon le modèle de séquenceur et l'application souhaitée. L'équipement peut être très coûteux. Nécessite des concentrations élevées d'ADN.
Synthèse d'ancre de sonde combinatoire (cPAS-BGI/MGI) BGISEQ-50 : 35-50 pb ;

MGISEQ 200 : 50-200 pb ;

BGISEQ-500, MGISEQ-2000 : 50-300 pb

99,9% (Phred30) BGISEQ-50 : 160 M ;

MGISEQ 200 : 300 M ;

BGISEQ-500 : 1 300 M par cellule d'écoulement ;

MGISEQ-2000 : Flow Cell 375M FCS, Flow Cell 1500M FCL par Flow Cell.

1 à 9 jours selon l'instrument, la longueur de lecture et le nombre de Flow Cells exécutées à la fois. 5 $ à 120 $
Séquençage par ligature (séquençage SOLiD) 50+35 ou 50+50 pb 99,9% 1,2 à 1,4 milliard 1 à 2 semaines 60-130 $ Faible coût par base. Plus lent que les autres méthodes. A des problèmes de séquençage des séquences palindromiques.
Séquençage des nanopores Dépendant de la préparation de la bibliothèque, pas de l'appareil, l'utilisateur choisit donc la longueur de lecture (jusqu'à 2 272 580 pb signalés). ~92-97% lecture unique dépend de la longueur de lecture sélectionnée par l'utilisateur données diffusées en temps réel. Choisissez 1 min à 48 h 7 à 100 $ Les lectures individuelles les plus longues. Communauté d'utilisateurs accessible. Portable (taille de la paume). Débit inférieur à celui des autres machines, précision de lecture unique dans les années 90.
Séquençage GenapSys Environ 150 pb en single-end 99,9% (Phred30) 1 à 16 millions Environ 24 heures 667 $ Instrument à faible coût (10 000 $)
Terminaison de la chaîne (séquençage Sanger) 400 à 900 pb 99,9% N / A 20 minutes à 3 heures 2 400 000 $ Utile pour de nombreuses applications. Plus cher et peu pratique pour les grands projets de séquençage. Cette méthode nécessite également l'étape fastidieuse de clonage de plasmide ou PCR.

Méthodes de séquençage à lecture longue

Séquençage de molécule unique en temps réel (SMRT)

Le séquençage SMRT est basé sur l'approche de séquençage par synthèse. L'ADN est synthétisé dans des guides d'ondes en mode zéro (ZMW) - de petits conteneurs en forme de puits avec les outils de capture situés au fond du puits. Le séquençage est effectué à l'aide de polymérase non modifiée (attachée au fond ZMW) et de nucléotides marqués par fluorescence circulant librement dans la solution. Les puits sont construits de manière à ce que seule la fluorescence apparaissant au fond du puits soit détectée. Le marqueur fluorescent est détaché du nucléotide lors de son incorporation dans le brin d'ADN, laissant un brin d'ADN non modifié. Selon Pacific Biosciences (PacBio), le développeur de la technologie SMRT, cette méthodologie permet la détection de modifications nucléotidiques (telles que la méthylation de la cytosine). Cela passe par l'observation de la cinétique de la polymérase. Cette approche permet des lectures de 20 000 nucléotides ou plus, avec des longueurs de lecture moyennes de 5 kilobases. En 2015, Pacific Biosciences a annoncé le lancement d'un nouvel instrument de séquençage appelé Sequel System, avec 1 million de ZMW contre 150 000 ZMW dans l'instrument PacBio RS II. Le séquençage SMRT est appelé séquençage « de troisième génération » ou « à lecture longue ».

Séquençage d'ADN nanopore

L'ADN traversant le nanopore modifie son courant ionique. Ce changement dépend de la forme, de la taille et de la longueur de la séquence d'ADN. Chaque type de nucléotide bloque le flux d'ions à travers le pore pendant une période de temps différente. La méthode ne nécessite pas de nucléotides modifiés et est réalisée en temps réel. Le séquençage Nanopore est appelé séquençage « de troisième génération » ou « à lecture longue », avec le séquençage SMRT.

Les premières recherches industrielles sur cette méthode étaient basées sur une technique appelée « séquençage d'exonucléases », où la lecture des signaux électriques se produisait sous forme de nucléotides passés par les pores d' alpha(α)-hémolysine liés de manière covalente avec la cyclodextrine . Cependant, la méthode commerciale ultérieure, le « séquençage des brins », séquence les bases d'ADN dans un brin intact.

Deux domaines principaux du séquençage des nanopores en cours de développement sont le séquençage des nanopores à l'état solide et le séquençage des nanopores à base de protéines. Le séquençage des nanopores de protéines utilise des complexes de protéines membranaires tels que l'-hémolysine, MspA ( Mycobacterium smegmatis Porin A) ou CssG, qui sont très prometteurs compte tenu de leur capacité à distinguer les nucléotides individuels et les groupes de nucléotides. En revanche, le séquençage des nanopores à l'état solide utilise des matériaux synthétiques tels que le nitrure de silicium et l'oxyde d'aluminium et il est préféré pour sa capacité mécanique supérieure et sa stabilité thermique et chimique. La méthode de fabrication est essentielle pour ce type de séquençage étant donné que le réseau de nanopores peut contenir des centaines de pores de diamètres inférieurs à huit nanomètres.

Le concept est né de l'idée que les molécules d'ADN ou d'ARN simple brin peuvent être entraînées par électrophorèse dans une séquence linéaire stricte à travers un pore biologique pouvant mesurer moins de huit nanomètres, et peuvent être détectées étant donné que les molécules libèrent un courant ionique tout en se déplaçant à travers le pore. Le pore contient une région de détection capable de reconnaître différentes bases, chaque base générant divers signaux spécifiques dans le temps correspondant à la séquence de bases lorsqu'elles traversent le pore qui sont ensuite évalués. Un contrôle précis du transport de l'ADN à travers le pore est crucial pour le succès. Diverses enzymes telles que les exonucléases et les polymérases ont été utilisées pour modérer ce processus en les positionnant près de l'entrée du pore.

Méthodes de séquençage à lecture courte

Séquençage de signature massivement parallèle (MPSS)

La première des technologies de séquençage à haut débit, le séquençage de signature massivement parallèle (ou MPSS), a été développée dans les années 1990 chez Lynx Therapeutics, une société fondée en 1992 par Sydney Brenner et Sam Eletr . MPSS était une méthode à base de billes qui utilisait une approche complexe de ligature d'adaptateur suivie d'un décodage d'adaptateur, en lisant la séquence par incréments de quatre nucléotides. Cette méthode la rendait sensible à un biais spécifique à la séquence ou à la perte de séquences spécifiques. En raison de la complexité de la technologie, le MPSS n'a été réalisé qu'en interne par Lynx Therapeutics et aucune machine de séquençage d'ADN n'a été vendue à des laboratoires indépendants. Lynx Therapeutics a fusionné avec Solexa (plus tard acquis par Illumina ) en 2004, conduisant au développement du séquençage par synthèse, une approche plus simple acquise auprès de Manteia Predictive Medicine , qui a rendu le MPSS obsolète. Cependant, les propriétés essentielles de la sortie MPSS étaient typiques des types de données à haut débit ultérieurs, y compris des centaines de milliers de courtes séquences d'ADN. Dans le cas du MPSS, ceux-ci étaient généralement utilisés pour le séquençage de l' ADNc afin de mesurer les niveaux d' expression génique .

Séquençage Polony

La méthode de séquençage polony , développée dans le laboratoire de George M. Church à Harvard, a été parmi les premiers systèmes de séquençage à haut débit et a été utilisée pour séquencer un génome complet d' E. coli en 2005. Elle combinait une bibliothèque de balises appariées in vitro avec PCR en émulsion, un microscope automatisé et une chimie de séquençage basée sur la ligature pour séquencer un génome d' E. coli avec une précision de > 99,9999 % et un coût d'environ 1/9 de celui du séquençage Sanger. La technologie a été concédée sous licence à Agencourt Biosciences, puis déployée dans Agencourt Personal Genomics et finalement intégrée à la plate-forme Applied Biosystems SOLiD. Applied Biosystems a ensuite été racheté par Life Technologies , qui fait maintenant partie de Thermo Fisher Scientific .

454 pyroséquençage

Une version parallélisée du pyroséquençage a été développée par 454 Life Sciences , qui a depuis été rachetée par Roche Diagnostics . La méthode amplifie l'ADN à l'intérieur des gouttelettes d'eau dans une solution huileuse (PCR en émulsion), chaque gouttelette contenant une seule matrice d'ADN attachée à une seule bille revêtue d'une amorce qui forme ensuite une colonie clonale. La machine de séquençage contient de nombreux puits de volume picolitre contenant chacun une seule bille et des enzymes de séquençage. Le pyroséquençage utilise la luciférase pour générer de la lumière pour la détection des nucléotides individuels ajoutés à l'ADN naissant, et les données combinées sont utilisées pour générer des lectures de séquence . Cette technologie offre une longueur de lecture et un prix par base intermédiaires par rapport au séquençage Sanger d'un côté et Solexa et SOLiD de l'autre.

Séquençage Illumina (Solexa)

Solexa , qui fait maintenant partie d' Illumina , a été fondée par Shankar Balasubramanian et David Klenerman en 1998, et a développé une méthode de séquençage basée sur la technologie des colorants-terminateurs réversibles et des polymérases modifiées. Le concept de chimie terminée réversible a été inventé par Bruno Canard et Simon Sarfati à l'Institut Pasteur de Paris. Il a été développé en interne chez Solexa par les personnes nommées sur les brevets concernés. En 2004, Solexa acquiert la société Manteia Predictive Medicine afin de se doter d'une technologie de séquençage massivement parallèle inventée en 1997 par Pascal Mayer  [ fr ] et Laurent Farinelli. Il est basé sur des « clusters d'ADN » ou « colonies d'ADN », ce qui implique l'amplification clonale d'ADN sur une surface. La technologie de cluster a été co-acquise avec Lynx Therapeutics of California. Solexa Ltd. a ensuite fusionné avec Lynx pour former Solexa Inc.

Un séquenceur Illumina HiSeq 2500
Cellule à circulation Illumina NovaSeq 6000

Dans cette méthode, les molécules d'ADN et les amorces sont d'abord fixées sur une lame ou une cellule à écoulement et amplifiées avec de la polymérase de sorte que des colonies d'ADN clonal locales, appelées plus tard « clusters d'ADN », se forment. Pour déterminer la séquence, quatre types de bases de terminaison réversibles (bases RT) sont ajoutés et les nucléotides non incorporés sont éliminés par lavage. Une caméra prend des images des nucléotides marqués par fluorescence . Ensuite, le colorant, ainsi que le bloqueur terminal 3', sont chimiquement retirés de l'ADN, ce qui permet au cycle suivant de commencer. Contrairement au pyroséquençage, les chaînes d'ADN sont étendues un nucléotide à la fois et l'acquisition d'images peut être effectuée à un moment retardé, ce qui permet de capturer de très grands réseaux de colonies d'ADN par des images séquentielles prises à partir d'une seule caméra.

Un séquenceur Illumina MiSeq

Le découplage de la réaction enzymatique et de la capture d'image permet un débit optimal et une capacité de séquençage théoriquement illimitée. Avec une configuration optimale, le débit de l'instrument finalement atteignable est ainsi dicté uniquement par le taux de conversion analogique-numérique de la caméra, multiplié par le nombre de caméras et divisé par le nombre de pixels par colonie d'ADN nécessaires pour les visualiser de manière optimale (environ 10 pixels/colonie). En 2012, avec des caméras fonctionnant à des taux de conversion A/D supérieurs à 10 MHz et des systèmes optiques, fluidiques et enzymatiques disponibles, le débit peut être des multiples de 1 million de nucléotides/seconde, correspondant approximativement à 1 équivalent de génome humain à 1x couverture par heure et par instrument, et 1 génome humain re-séquencé (à environ 30x) par jour et par instrument (équipé d'une seule caméra).

Synthèse d'ancre de sonde combinatoire (cPAS)

Cette méthode est une modification améliorée de la technologie de ligature d'ancrage de sonde combinatoire (cPAL) décrite par Complete Genomics, qui fait depuis partie de la société chinoise de génomique BGI en 2013. Les deux sociétés ont affiné la technologie pour permettre des lectures plus longues, des réductions de temps de réaction et délai d'obtention des résultats plus rapide. De plus, les données sont désormais générées sous forme de lectures complètes contiguës au format de fichier FASTQ standard et peuvent être utilisées telles quelles dans la plupart des pipelines d'analyse bioinformatique basés sur des lectures courtes.

Les deux technologies qui constituent la base de cette technologie de séquençage à haut débit sont les nanobilles d'ADN (DNB) et les matrices à motifs pour la fixation des nanobilles à une surface solide. Les nanobilles d'ADN sont simplement formées en dénaturant des bibliothèques ligaturées à l'adaptateur double brin et en ligaturant le brin avant uniquement à un oligonucléotide d'attelle pour former un cercle d'ADNsb. Des copies fidèles des cercles contenant l'insert d'ADN sont produites à l'aide d'une amplification par cercle roulant qui génère environ 300 à 500 copies. Le long brin d'ADNsb se replie sur lui-même pour produire une structure de nanobille tridimensionnelle d'environ 220 nm de diamètre. La création de DNB remplace la nécessité de générer des copies PCR de la bibliothèque sur la Flow Cell et, en tant que telle, peut supprimer de grandes proportions de lectures en double, de ligatures adaptateur-adaptateur et d'erreurs induites par PCR.

Un séquenceur BGI MGISEQ-2000RS

Le réseau à motifs de points chargés positivement est fabriqué par des techniques de photolithographie et de gravure suivies d'une modification chimique pour générer une cellule d'écoulement de séquençage. Chaque point sur la Flow Cell a un diamètre d'environ 250 nm, est séparé de 700 nm (centre à centre) et permet de fixer facilement un seul DNB chargé négativement à la Flow Cell et ainsi de réduire le sous ou le sur-regroupement sur la Flow Cell.

Le séquençage est ensuite effectué par addition d'une sonde oligonucléotidique qui se fixe en combinaison à des sites spécifiques au sein du DNB. La sonde agit comme une ancre qui permet ensuite à l'un des quatre nucléotides marqués et inactivés de manière réversible de se lier après avoir traversé la cellule d'écoulement. Les nucléotides non liés sont éliminés avant l'excitation laser des marqueurs attachés, puis émettent une fluorescence et le signal est capturé par des caméras qui est converti en une sortie numérique pour l'appel de base. La base attachée a son terminateur et son étiquette clivés chimiquement à la fin du cycle. Le cycle est répété avec un autre flux de nucléotides libres et marqués à travers la cellule d'écoulement pour permettre au nucléotide suivant de se lier et de capturer son signal. Ce processus est effectué un certain nombre de fois (généralement 50 à 300 fois) pour déterminer la séquence du morceau d'ADN inséré à un taux d'environ 40 millions de nucléotides par seconde à partir de 2018.

Séquençage SOLiD

Préparation de la bibliothèque pour la plateforme SOLiD
Schéma de codage à deux bases. Dans le codage à deux bases, chaque paire de bases unique à l'extrémité 3' de la sonde se voit attribuer une des quatre couleurs possibles. Par exemple, "AA" est affecté au bleu, "AC" est affecté au vert, et ainsi de suite pour les 16 paires uniques. Pendant le séquençage, chaque base du modèle est séquencée deux fois et les données résultantes sont décodées selon ce schéma.

La technologie SOLiD d' Applied Biosystems (maintenant une marque de Life Technologies ) utilise le séquençage par ligature . Ici, un pool de tous les oligonucléotides possibles d'une longueur fixe est marqué en fonction de la position séquencée. Les oligonucléotides sont annelés et ligaturés ; la ligature préférentielle par l' ADN ligase pour l'appariement des séquences résulte en un signal informatif du nucléotide à cette position. Chaque base du modèle est séquencée deux fois et les données résultantes sont décodées selon le schéma de codage à 2 bases utilisé dans cette méthode. Avant le séquençage, l'ADN est amplifié par PCR en émulsion. Les billes résultantes, chacune contenant des copies uniques de la même molécule d'ADN, sont déposées sur une lame de verre. Le résultat est des séquences de quantités et de longueurs comparables au séquençage Illumina. Il a été rapporté que cette méthode de séquençage par ligature posait des problèmes de séquençage des séquences palindromiques.

Séquençage de semi-conducteurs Ion Torrent

Ion Torrent Systems Inc. (maintenant détenue par Life Technologies ) a développé un système basé sur l'utilisation de la chimie de séquençage standard, mais avec un nouveau système de détection à base de semi-conducteurs. Cette méthode de séquençage est basée sur la détection des ions hydrogène libérés lors de la polymérisation de l' ADN , contrairement aux méthodes optiques utilisées dans d'autres systèmes de séquençage. Un micropuits contenant un brin d'ADN matrice à séquencer est inondé d'un seul type de nucléotide . Si le nucléotide introduit est complémentaire du nucléotide matrice principal, il est incorporé dans le brin complémentaire en croissance. Cela provoque la libération d'un ion hydrogène qui déclenche un capteur d'ions hypersensible, ce qui indique qu'une réaction s'est produite. Si des répétitions homopolymères sont présentes dans la séquence matrice, plusieurs nucléotides seront incorporés dans un seul cycle. Cela conduit à un nombre correspondant d'hydrogènes libérés et à un signal électronique proportionnellement plus élevé.

Séquençage du modèle TAGGCT avec IonTorrent, PacBioRS et GridION

Séquençage de nanobilles d'ADN

Le séquençage de nanobilles d'ADN est un type de technologie de séquençage à haut débit utilisée pour déterminer la séquence génomique entière d'un organisme. La société Complete Genomics utilise cette technologie pour séquencer des échantillons soumis par des chercheurs indépendants. La méthode utilise la réplication en cercle tournant pour amplifier de petits fragments d'ADN génomique en nanobilles d'ADN. Un séquençage non chaîné par ligation est ensuite utilisé pour déterminer la séquence nucléotidique. Cette méthode de séquençage d'ADN permet de séquencer un grand nombre de nanobilles d'ADN par cycle et à faible coût de réactif par rapport à d'autres plates-formes de séquençage à haut débit. Cependant, seules de courtes séquences d'ADN sont déterminées à partir de chaque nanobille d'ADN, ce qui rend difficile le mappage des lectures courtes sur un génome de référence . Cette technologie a été utilisée pour plusieurs projets de séquençage du génome et devrait être utilisée pour d'autres.

Séquençage de molécule unique par héliscope

Le séquençage héliscope est une méthode de séquençage d'une molécule unique développée par Helicos Biosciences . Il utilise des fragments d'ADN avec des adaptateurs de queue poly-A ajoutés qui sont attachés à la surface de la cellule d'écoulement. Les étapes suivantes impliquent un séquençage basé sur l'extension avec des lavages cycliques de la cellule d'écoulement avec des nucléotides marqués par fluorescence (un type de nucléotide à la fois, comme avec la méthode de Sanger). Les lectures sont effectuées par le séquenceur Heliscope. Les reads sont courts, 35 pb en moyenne. Ce qui a rendu cette technologie particulièrement innovante, c'est qu'elle était la première de sa catégorie à séquencer l'ADN non amplifié, évitant ainsi toute erreur de lecture associée aux étapes d'amplification. En 2009, un génome humain a été séquencé à l'aide de l'héliscope, mais en 2012, la société a fait faillite.

Systèmes microfluidiques

Il existe deux principaux systèmes microfluidiques qui sont utilisés pour séquencer l'ADN ; microfluidique à base de gouttelettes et microfluidique numérique . Les dispositifs microfluidiques résolvent bon nombre des limitations actuelles des réseaux de séquençage actuels.

Abate et al. ont étudié l'utilisation de dispositifs microfluidiques à base de gouttelettes pour le séquençage de l'ADN. Ces dispositifs ont la capacité de former et de traiter des gouttelettes de la taille d'un picolitre à une vitesse de milliers par seconde. Les dispositifs ont été créés à partir de polydiméthylsiloxane (PDMS) et ont utilisé le transfert d'énergie de résonance de Forster, des tests FRET pour lire les séquences d'ADN englobées dans les gouttelettes. Chaque position sur la matrice testée pour une séquence spécifique de 15 bases.

Fair et al. utilisé des dispositifs microfluidiques numériques pour étudier le pyroséquençage de l' ADN . Les avantages significatifs incluent la portabilité de l'appareil, le volume de réactif, la vitesse d'analyse, les capacités de fabrication en série et le débit élevé. Cette étude a fourni une preuve de concept montrant que les appareils numériques peuvent être utilisés pour le pyroséquençage ; l'étude comprenait l'utilisation de la synthèse, qui implique l'extension des enzymes et l'ajout de nucléotides marqués.

Boles et al. a également étudié le pyroséquençage sur des dispositifs microfluidiques numériques. Ils ont utilisé un appareil électro-mouillant pour créer, mélanger et diviser les gouttelettes. Le séquençage utilise un protocole à trois enzymes et des matrices d'ADN ancrées avec des billes magnétiques. L'appareil a été testé à l'aide de deux protocoles et a donné une précision de 100 % basée sur les niveaux bruts de pyrogramme. Les avantages de ces dispositifs microfluidiques numériques incluent la taille, le coût et les niveaux réalisables d'intégration fonctionnelle.

La recherche sur le séquençage de l'ADN, utilisant la microfluidique, a également la capacité d'être appliquée au séquençage de l'ARN , en utilisant des techniques microfluidiques de gouttelettes similaires, telles que la méthode inDrops. Cela montre que bon nombre de ces techniques de séquençage de l'ADN pourront être appliquées davantage et être utilisées pour mieux comprendre les génomes et les transcriptomes.

Méthodes en développement

Les méthodes de séquençage de l'ADN actuellement en cours de développement comprennent la lecture de la séquence lorsqu'un brin d'ADN transite à travers les nanopores (une méthode qui est maintenant commerciale mais les générations suivantes telles que les nanopores à l'état solide sont encore en développement) et les techniques basées sur la microscopie, telles que la microscopie à force atomique ou la microscopie électronique à transmission qui sont utilisées pour identifier les positions de nucléotides individuels dans de longs fragments d'ADN (> 5 000 pb) par marquage des nucléotides avec des éléments plus lourds (par exemple, des halogènes) pour une détection et un enregistrement visuels. Les technologies de troisième génération visent à augmenter le débit et à réduire le temps de résultat et le coût en éliminant le besoin de réactifs excessifs et en exploitant la processivité de l'ADN polymérase.

Courants tunnels Séquençage de l'ADN

Une autre approche utilise des mesures des courants d'effet tunnel électrique à travers l'ADN simple brin lorsqu'il se déplace dans un canal. En fonction de sa structure électronique, chaque base affecte le courant tunnel différemment, permettant la différenciation entre les différentes bases.

L'utilisation de courants tunnel a le potentiel de séquencer des ordres de grandeur plus rapidement que les méthodes de courant ionique et le séquençage de plusieurs oligomères d'ADN et de micro-ARN a déjà été réalisé.

Séquençage par hybridation

Le séquençage par hybridation est une méthode non enzymatique qui utilise une puce à ADN . Un seul pool d'ADN dont la séquence doit être déterminée est marqué par fluorescence et hybride à une puce contenant des séquences connues. Des signaux d'hybridation forts provenant d'un point donné sur la puce identifient sa séquence dans l'ADN en cours de séquençage.

Cette méthode de séquençage utilise les caractéristiques de liaison d'une bibliothèque de courtes molécules d'ADN simple brin (oligonucléotides), également appelées sondes d'ADN, pour reconstruire une séquence d'ADN cible. Les hybrides non spécifiques sont éliminés par lavage et l'ADN cible est élué. Les hybrides sont réarrangés de telle sorte que la séquence d'ADN puisse être reconstruite. L'avantage de ce type de séquençage est sa capacité à capturer un grand nombre de cibles avec une couverture homogène. Un grand nombre de produits chimiques et d'ADN de départ est généralement nécessaire. Cependant, avec l'avènement de l'hybridation en solution, beaucoup moins d'équipements et de produits chimiques sont nécessaires.

Séquençage avec spectrométrie de masse

La spectrométrie de masse peut être utilisée pour déterminer des séquences d'ADN. La spectrométrie de masse à temps de vol à ionisation par désorption laser assistée par matrice, ou MALDI-TOF MS , a été spécifiquement étudiée comme méthode alternative à l'électrophorèse sur gel pour la visualisation de fragments d'ADN. Avec cette méthode, les fragments d'ADN générés par les réactions de séquençage de terminaison de chaîne sont comparés en masse plutôt qu'en taille. La masse de chaque nucléotide est différente des autres et cette différence est détectable par spectrométrie de masse. Les mutations d'un seul nucléotide dans un fragment peuvent être plus facilement détectées avec la SEP que par électrophorèse sur gel seule. MALDI-TOF MS peut détecter plus facilement les différences entre les fragments d'ARN, de sorte que les chercheurs peuvent indirectement séquencer l'ADN avec des méthodes basées sur la MS en le convertissant d'abord en ARN.

La résolution plus élevée des fragments d'ADN permise par les méthodes basées sur la SM est particulièrement intéressante pour les chercheurs en science médico-légale, car ils peuvent souhaiter trouver des polymorphismes mononucléotidiques dans des échantillons d'ADN humain pour identifier des individus. Ces échantillons peuvent être fortement dégradés, de sorte que les chercheurs en médecine légale préfèrent souvent l'ADN mitochondrial pour sa plus grande stabilité et ses applications pour les études de lignées. Des méthodes de séquençage basées sur la MS ont été utilisées pour comparer les séquences d'ADN mitochondrial humain à partir d'échantillons dans une base de données du Federal Bureau of Investigation et d'os trouvés dans des fosses communes de soldats de la Première Guerre mondiale.

Les méthodes de terminaison de chaîne précoce et TOF MS ont démontré des longueurs de lecture allant jusqu'à 100 paires de bases. Les chercheurs n'ont pas pu dépasser cette taille moyenne de lecture ; comme le séquençage de terminaison de chaîne seul, le séquençage d'ADN basé sur MS peut ne pas convenir aux grands projets de séquençage de novo . Malgré cela, une étude récente a utilisé les lectures de séquences courtes et la spectroscopie de masse pour comparer les polymorphismes d'un seul nucléotide dans les souches pathogènes de Streptococcus .

Séquençage microfluidique de Sanger

Dans le séquençage microfluidique de Sanger, l'ensemble de l'amplification par thermocyclage des fragments d'ADN ainsi que leur séparation par électrophorèse se fait sur une seule plaque de verre (environ 10 cm de diamètre) réduisant ainsi l'utilisation des réactifs ainsi que le coût. Dans certains cas, les chercheurs ont montré qu'ils peuvent augmenter le débit du séquençage conventionnel grâce à l'utilisation de micropuces. Des recherches devront encore être menées pour que cette utilisation de la technologie soit efficace.

Techniques basées sur la microscopie

Cette approche visualise directement la séquence des molécules d'ADN en utilisant la microscopie électronique. La première identification de paires de bases d'ADN dans des molécules d'ADN intactes en incorporant par voie enzymatique des bases modifiées, qui contiennent des atomes de numéro atomique accru, la visualisation directe et l'identification de bases marquées individuellement dans une molécule d'ADN synthétique de 3 272 paires de bases et un génome viral de 7 249 paires de bases a été démontré.

Séquençage RNAP

Cette méthode est basée sur l'utilisation de l' ARN polymérase (RNAP), qui est attachée à une bille de polystyrène . Une extrémité de l'ADN à séquencer est attachée à une autre bille, les deux billes étant placées dans des pièges optiques. Le mouvement RNAP pendant la transcription rapproche les billes et leur distance relative change, qui peut ensuite être enregistrée à une résolution d'un seul nucléotide. La séquence est déduite sur la base des quatre lectures avec des concentrations réduites de chacun des quatre types de nucléotides, de manière similaire à la méthode de Sanger. Une comparaison est effectuée entre les régions et des informations de séquence sont déduites en comparant les régions de séquence connues aux régions de séquence inconnues.

Séquençage de virus in vitro à haut débit

Une méthode a été développée pour analyser des ensembles complets d' interactions protéiques en utilisant une combinaison de 454 pyroséquençage et une méthode d' affichage d'ARNm de virus in vitro . Plus précisément, cette méthode lie de manière covalente les protéines d'intérêt aux ARNm qui les codent, puis détecte les morceaux d'ARNm à l'aide de PCR de transcription inverse . L'ARNm peut ensuite être amplifié et séquencé. La méthode combinée a été intitulée IVV-HiTSeq et peut être effectuée dans des conditions sans cellules, bien que ses résultats puissent ne pas être représentatifs des conditions in vivo .

La préparation des échantillons

Le succès de tout protocole de séquençage d'ADN repose sur l'extraction et la préparation d'échantillons d'ADN ou d'ARN à partir du matériel biologique d'intérêt.

  • Une extraction d'ADN réussie donnera un échantillon d'ADN avec de longs brins non dégradés.
  • Une extraction d'ARN réussie produira un échantillon d'ARN qui devrait être converti en ADN complémentaire (ADNc) à l'aide de la transcriptase inverse, une ADN polymérase qui synthétise un ADN complémentaire basé sur des brins d'ARN existants à la manière d'une PCR. L'ADN complémentaire peut alors être traité de la même manière que l'ADN génomique.

Selon la technologie de séquençage à utiliser, les échantillons résultant de l'extraction d'ADN ou d'ARN nécessitent une préparation supplémentaire. Pour le séquençage de Sanger, des procédures de clonage ou de PCR sont nécessaires avant le séquençage. Dans le cas des méthodes de séquençage de nouvelle génération, la préparation de la bibliothèque est nécessaire avant le traitement. L'évaluation de la qualité et de la quantité d'acides nucléiques à la fois après l'extraction et après la préparation de la bibliothèque identifie les échantillons dégradés, fragmentés et de faible pureté et fournit des données de séquençage de haute qualité.

La nature à haut débit des technologies actuelles de séquençage d'ADN/ARN a posé un défi pour la méthode de préparation d'échantillons à étendre. Plusieurs instruments de manipulation de liquides sont utilisés pour la préparation d'un plus grand nombre d'échantillons avec un temps de manipulation total inférieur :

entreprise Manipulateurs liquides / Automatisation lower_mark_USD upper_mark_USD atterrissage_url
Opentrons OpenTrons OT-2 5 750 $ 20 000 $ https://www.opentrons.com/
Gilson Gilson Pipetmax 20 000 $ 40 000 $ https://gb.gilson.com/GBSV/system-pipetmax.html
Néotec Neotec EzMate 25 000 $ 45 000 $ http://neotec.co.il/pipetting-device/
Formulatrice Mante Formulatrice 40 000 $ 60 000 $ https://formulatrix.com/liquid-handling-systems/mantis-liquid-handler/
Robotique Hudson Hudson Robotique SOLO 40 000 $ 50 000 $ https://hudsonrobotics.com/products/applications/automated-solutions-next-generation-sequencing-ngs/
Hamilton Hamilton Microlab NIMBUS 40 000 $ 80 000 $ https://www.hamiltoncompany.com/automated-liquid-handling/platforms/microlab-nimbus#specifications
TTP Labtech TTP Labtech Mosquito HV Génomique 45 000 $ 80 000 $ https://www.sptlabtech.com/products/liquid-handling/mosquito-hv-genomics/
Beckman Coulter Biomek 4000 50 000 $ 65 000 $ https://www.mybeckman.uk/liquid-handlers/biomek-4000/b22640
Hamilton Hamilton Genomic STARlet 50 000 $ 100 000 $ https://www.hamiltoncompany.com/automated-liquid-handling/assay-ready-workstations/genomic-starlet
Eppendorf Eppendorf epMotion 5075t 95 000 $ 110 000 $ https://www.eppendorf.com/epmotion/
Beckman Coulter Beckman Coulter Biomek i5 100 000 $ 150 000 $ https://www.beckman.com/liquid-handlers/biomek-i5
Hamilton ÉTOILE NGS de Hamilton 100 000 $ 200 000 $ http://www.hamiltonrobotics.com/
PerkinElmer Station de travail PerkinElmer Sciclone G3 NGS et NGSx 150 000 $ 220 000 $ https://www.perkinelmer.com/uk/product/sciclone-g3-ngs-workstation-cls145321
Agilent Agilent Bravo NGS 170 000 $ 290 000 $ https://www.agilent.com/en/products/automated-liquid-handling/automated-liquid-handling-applications/bravo-ngs
Beckman Coulter Beckman Coulter Biomek i7 200 000 $ 250 000 $ https://www.beckman.com/liquid-handlers/biomek-i7
Labcyte Écho 525 Beckman Coulter Labcyte Echo 525 260 000 $ 300 000 $ https://www.labcyte.com/products/liquid-handling/echo-525-liquid-handler
Técan Técan NGS 270 000 $ 350 000 $ https://lifesciences.tecan.com/ngs-sample-preparation

Initiatives de développement

Coût total du séquençage d'un génome humain au fil du temps tel que calculé par le NHGRI .

En octobre 2006, la Fondation X Prize a lancé une initiative visant à promouvoir le développement de technologies de séquençage complet du génome , appelée Archon X Prize , dans l'intention d'attribuer 10 millions de dollars à « la première équipe capable de construire un appareil et de l'utiliser pour séquencer 100 génomes humains. dans les 10 jours ou moins, avec une précision de pas plus d'une erreur sur 100 000 bases séquencées, avec des séquences couvrant avec précision au moins 98 % du génome, et à un coût récurrent ne dépassant pas 10 000 $ (US) par génome. »

Chaque année, le National Human Genome Research Institute , ou NHGRI, promeut des subventions pour de nouvelles recherches et développements en génomique . Les bourses 2010 et les candidats 2011 incluent des travaux continus sur les méthodologies de séquençage microfluidique, polony et à base lourde.

Défis informatiques

Les technologies de séquençage décrites ici produisent des données brutes qui doivent être assemblées en séquences plus longues telles que des génomes complets ( assemblage de séquences ). Il existe de nombreux défis informatiques pour y parvenir, tels que l'évaluation des données de séquence brutes qui est effectuée par des programmes et des algorithmes tels que Phred et Phrap . D'autres défis doivent faire face aux séquences répétitives qui empêchent souvent les assemblages complets du génome car elles se produisent à de nombreux endroits du génome. En conséquence, de nombreuses séquences peuvent ne pas être attribuées à des chromosomes particuliers . La production de données de séquence brutes n'est que le début de son analyse bioinformatique détaillée . Pourtant, de nouvelles méthodes de séquençage et de correction des erreurs de séquençage ont été développées.

Lire le rognage

Parfois, les lectures brutes produites par le séquenceur ne sont correctes et précises que dans une fraction de leur longueur. L'utilisation de l'intégralité de la lecture peut introduire des artefacts dans les analyses en aval telles que l'assemblage du génome, l'appel SNP ou l'estimation de l'expression génique. Deux classes de programmes de rognage ont été introduites, basées sur les classes d'algorithmes basées sur les fenêtres ou sur la somme en cours. Il s'agit d'une liste partielle des algorithmes de rognage actuellement disponibles, spécifiant la classe d'algorithmes à laquelle ils appartiennent :

Lire les algorithmes de rognage
Nom de l'algorithme Type d'algorithme Relier
Couper adapter Somme courante Couper adapter
ConDeTri Basé sur une fenêtre ConDeTri
ERNE-FILTRE Somme courante ERNE-FILTRE
Tondeuse de qualité FASTX Basé sur une fenêtre Tondeuse de qualité FASTX
PRINSEQ Basé sur une fenêtre PRINSEQ
Trimmomatique Basé sur une fenêtre Trimmomatique
SolexaQA Basé sur une fenêtre SolexaQA
SolexaQA-BWA Somme courante SolexaQA-BWA
Faucille Basé sur une fenêtre Faucille

Questions éthiques

La génétique humaine a été incluse dans le domaine de la bioéthique depuis le début des années 1970 et la croissance de l'utilisation du séquençage de l'ADN (en particulier le séquençage à haut débit) a introduit un certain nombre de problèmes éthiques. Un problème clé est la propriété de l'ADN d'un individu et les données produites lorsque cet ADN est séquencé. En ce qui concerne la molécule d'ADN elle-même, la principale affaire juridique sur ce sujet, Moore v. Regents de l'Université de Californie (1990) a statué que les individus n'avaient aucun droit de propriété sur les cellules jetées ou les bénéfices réalisés en utilisant ces cellules (par exemple, en tant que lignée cellulaire ). Cependant, les individus ont le droit d'obtenir un consentement éclairé concernant le retrait et l'utilisation des cellules. Concernant les données produites par le séquençage de l'ADN, Moore ne donne à l'individu aucun droit sur les informations dérivées de son ADN.

À mesure que le séquençage de l'ADN se généralise, le stockage, la sécurité et le partage des données génomiques sont également devenus plus importants. Par exemple, une préoccupation est que les assureurs peuvent utiliser les données génomiques d'un individu pour modifier leur devis, en fonction de la santé future perçue de l'individu en fonction de son ADN. En mai 2008, le Genetic Information Nondiscrimination Act (GINA) a été signé aux États-Unis, interdisant la discrimination sur la base d'informations génétiques en matière d'assurance maladie et d'emploi. En 2012, la Commission présidentielle américaine pour l'étude des questions bioéthiques a signalé que la législation existante sur la confidentialité des données de séquençage de l'ADN, telles que GINA et la Health Insurance Portability and Accountability Act, était insuffisante, notant que les données de séquençage du génome entier étaient particulièrement sensibles, car elles pouvaient être utilisé pour identifier non seulement la personne à partir de laquelle les données ont été créées, mais aussi leurs proches.

Dans la plupart des États-Unis, l'ADN "abandonné", comme celui trouvé sur un timbre ou une enveloppe léché, une tasse à café, une cigarette, un chewing-gum, des ordures ménagères ou des cheveux tombés sur un trottoir public, peut être collecté légalement. et séquencé par quiconque, y compris la police, des enquêteurs privés, des opposants politiques ou des personnes impliquées dans des conflits de paternité. En 2013, onze États ont des lois qui peuvent être interprétées comme interdisant le « vol d'ADN ».

Des problèmes éthiques ont également été soulevés par l'utilisation croissante du dépistage des variations génétiques, à la fois chez les nouveau-nés et chez les adultes, par des sociétés telles que 23andMe . Il a été affirmé que le dépistage des variations génétiques peut être nocif, augmentant l' anxiété chez les personnes qui présentent un risque accru de maladie. Par exemple, dans un cas noté dans Time , des médecins dépistant un bébé malade pour des variantes génétiques ont choisi de ne pas informer les parents d'une variante non liée liée à la démence en raison du préjudice qu'elle causerait aux parents. Cependant, une étude de 2011 dans le New England Journal of Medicine a montré que les individus soumis à un profil de risque de maladie ne présentaient pas de niveaux accrus d'anxiété.

Voir également

Remarques

Les références

Liens externes