ARN-Seq - RNA-Seq

Résumé de RNA-Seq. Au sein de l'organisme, les gènes sont transcrits et (dans un organisme eucaryote ) épissés pour produire des transcrits d'ARNm matures (rouge). L'ARNm est extrait de l'organisme, fragmenté et copié en ds-cDNA stable (bleu). Le ds-cDNA est séquencé à l'aide de méthodes de séquençage à haut débit et à lecture courte. Ces séquences peuvent ensuite être alignées sur une séquence génomique de référence pour reconstruire quelles régions génomiques ont été transcrites. Ces données peuvent être utilisées pour annoter l'emplacement des gènes exprimés, leurs niveaux d'expression relatifs et toute variante d'épissage alternatif.

RNA-Seq (appelé comme une abréviation de « RNA sequencing ») est une technique de séquençage qui utilise le séquençage de nouvelle génération (NGS) pour révéler la présence et la quantité d' ARN dans un échantillon biologique à un moment donné, en analysant le transcriptome cellulaire en constante évolution. .

Plus précisément, RNA-Seq facilite la possibilité d'examiner d' autres transcrits épissés de gènes , les modifications post-transcriptionnelles , la fusion de gènes , les mutations/ SNP et les changements d'expression génique au fil du temps, ou les différences d'expression génique dans différents groupes ou traitements. En plus des transcrits d'ARNm, RNA-Seq peut examiner différentes populations d'ARN pour inclure l'ARN total, les petits ARN, tels que les miARN , les ARNt et le profilage ribosomique . RNA-Seq peut également être utilisé pour déterminer les limites exon / intron et vérifier ou modifier les limites des gènes 5' et 3' précédemment annotées . Les progrès récents de l'ARN-Seq incluent le séquençage de cellules uniques, le séquençage in situ de tissus fixés et le séquençage de molécules d'ARN natives avec le séquençage en temps réel d'une seule molécule.

Avant RNA-Seq, des études d'expression génique étaient réalisées avec des puces à ADN basées sur l'hybridation . Les problèmes avec les puces à ADN comprennent les artefacts d'hybridation croisée, la mauvaise quantification des gènes faiblement et fortement exprimés et la nécessité de connaître la séquence a priori . En raison de ces problèmes techniques, la transcriptomique est passée à des méthodes basées sur le séquençage. Celles-ci sont passées du séquençage Sanger des bibliothèques d' étiquettes de séquences exprimées à des méthodes basées sur des étiquettes chimiques (par exemple, l' analyse en série de l'expression des gènes ), et enfin à la technologie actuelle, le séquençage de nouvelle génération d' ADN complémentaire (ADNc), notamment RNA-Seq.

Méthodes

Préparation de la bibliothèque

Flux de travail expérimental typique de RNA-Seq. Les ARN sont isolés à partir de plusieurs échantillons, convertis en bibliothèques d'ADNc, séquencés dans un format lisible par ordinateur, alignés sur une référence et quantifiés pour des analyses en aval telles que l'expression différentielle et l'épissage alternatif. Vue d'ensemble d'un flux de travail expérimental RNA-Seq typique.

Les étapes générales pour préparer une bibliothèque d' ADN complémentaire (ADNc) pour le séquençage sont décrites ci-dessous, mais varient souvent d'une plateforme à l'autre.

  1. Isolement de l'ARN: L' ARN est isolé du tissu et mélangé à la désoxyribonucléase (DNase). La DNase réduit la quantité d'ADN génomique. La quantité de dégradation de l'ARN est vérifiée par électrophorèse sur gel et capillaire et est utilisée pour attribuer un numéro d'intégrité de l'ARN à l'échantillon. Cette qualité d'ARN et la quantité totale d'ARN de départ sont prises en compte lors des étapes ultérieures de préparation, de séquençage et d'analyse de la bibliothèque.
  1. Sélection/épuisement de l'ARN : pour analyser les signaux d'intérêt, l'ARN isolé peut être conservé tel quel, filtré pour l'ARN avec des queues polyadénylées 3' (poly(A)) pour inclure uniquement l' ARNm , appauvri en ARN ribosomique (ARNr) et/ ou filtré pour l'ARN qui se lie à des séquences spécifiques ( tableau des méthodes de sélection et de déplétion de l'ARN , ci-dessous). L'ARN avec des queues poly(A) 3' est principalement composé de séquences codantes matures, traitées. La sélection poly(A) est effectuée en mélangeant de l'ARN avec des oligomères poly(T) attachés de manière covalente à un substrat, généralement des billes magnétiques. La sélection poly(A) a des limites importantes dans la détection des biotypes d'ARN. De nombreux biotypes d'ARN ne sont pas polyadénylés, y compris de nombreux transcrits d'ARN non codants et de protéines à noyau d'histone, ou sont régulés via leur longueur de queue poly(A) (par exemple, les cytokines) et pourraient donc ne pas être détectés après la sélection poly(A). De plus, la sélection poly(A) peut augmenter le biais 3', en particulier avec un ARN de qualité inférieure. Ces limitations peuvent être évitées avec l'épuisement ribosomique, en éliminant l'ARNr qui représente généralement plus de 90 % de l'ARN dans une cellule. Les étapes d'enrichissement en poly(A) et d'épuisement ribosomique demandent beaucoup de travail et pourraient introduire des biais, des approches plus simples ont donc été développées pour omettre ces étapes. Les petites cibles d'ARN, telles que le miARN , peuvent être davantage isolées par sélection de taille avec des gels d'exclusion, des billes magnétiques ou des kits commerciaux.
  1. Synthèse d'ADNc : l' ARN est transcrit en sens inverse en ADNc parce que l'ADN est plus stable et pour permettre l'amplification (qui utilise des ADN polymérases ) et tirer parti d'une technologie de séquençage d'ADN plus mature. L'amplification consécutive à la transcription inverse entraîne une perte de brin , qui peut être évitée grâce au marquage chimique ou au séquençage d'une seule molécule. La fragmentation et la sélection de la taille sont effectuées pour purifier les séquences qui ont la longueur appropriée pour la machine de séquençage. L'ARN, l'ADNc ou les deux sont fragmentés avec des enzymes, une sonication ou des nébuliseurs. La fragmentation de l'ARN réduit le biais 5' de la transcription inverse amorcée au hasard et l'influence des sites de liaison des amorces , avec l'inconvénient que les extrémités 5' et 3' sont converties en ADN moins efficacement. La fragmentation est suivie d'une sélection de taille, où soit de petites séquences sont supprimées, soit une gamme étroite de longueurs de séquence est sélectionnée. Parce que les petits ARN comme les miARN sont perdus, ceux-ci sont analysés indépendamment. L'ADNc de chaque expérience peut être indexé avec un code-barres hexamère ou octamère, de sorte que ces expériences puissent être regroupées en une seule voie pour un séquençage multiplexé.
Méthodes de sélection et de déplétion de l'ARN :
Stratégie Type d'ARN prédominant Teneur en ARN ribosomique Contenu d'ARN non traité Méthode d'isolement
ARN total Tous Haute Haute Rien
Sélection PolyA Codage Meugler Meugler Hybridation avec des oligomères poly(dT)
épuisement des ARNr Codage, non-codage Meugler Haute Élimination des oligomères complémentaires de l'ARNr
capture d'ARN Ciblé Meugler Modérer Hybridation avec des sondes complémentaires aux transcrits souhaités

Séquençage d'ADN complémentaire (cDNA-Seq)

La bibliothèque d'ADNc dérivée de biotypes d'ARN est ensuite séquencée dans un format lisible par ordinateur. Il existe de nombreuses technologies de séquençage à haut débit pour le séquençage d'ADNc, notamment des plates-formes développées par Illumina , Thermo Fisher , BGI/MGI , PacBio et Oxford Nanopore Technologies . Pour le séquençage à lecture courte d'Illumina, une technologie courante pour le séquençage de l'ADNc, les adaptateurs sont liés à l'ADNc, l'ADN est attaché à une cellule d'écoulement, les clusters sont générés par des cycles d'amplification de pont et de dénaturation, et la séquence par synthèse est effectuée en cycles de synthèse de brins complémentaires et d'excitation laser de bases avec terminateurs réversibles. Le choix et les paramètres de la plate-forme de séquençage sont guidés par la conception expérimentale et le coût. Les considérations courantes relatives à la conception expérimentale incluent le choix de la longueur du séquençage, de la profondeur du séquençage, de l'utilisation d'un séquençage simple ou apparié, du nombre de répétitions, du multiplexage, de la randomisation et des pointes.

Séquençage de petits ARN/ARN non codants

Lors du séquençage d'ARN autre que l'ARNm, la préparation de la banque est modifiée. L'ARN cellulaire est sélectionné en fonction de la plage de tailles souhaitée. Pour les petites cibles d'ARN, telles que le miARN , l'ARN est isolé par sélection de taille. Cela peut être effectué avec un gel d'exclusion stérique, par des billes magnétiques de sélection de taille ou avec un kit développé commercialement. Une fois isolés, les linkers sont ajoutés aux extrémités 3' et 5' puis purifiés. La dernière étape est la génération d' ADNc par transcription inverse.

Séquençage direct d'ARN

RNASeqPics1.jpg

Comme il a été démontré que la conversion de l'ARN en ADNc , la ligature, l'amplification et d'autres manipulations d'échantillons introduisent des biais et des artefacts pouvant interférer à la fois avec la caractérisation et la quantification appropriées des transcrits, le séquençage direct d'ARN à molécule unique a été exploré par des sociétés telles que Helicos (faillite) , Oxford Nanopore Technologies et autres. Cette technologie séquence les molécules d'ARN directement de manière massivement parallèle.

Séquençage d'ARN en temps réel d'une molécule unique

L'ARN-Seq direct à molécule unique massivement parallèle a été exploré comme alternative à l'ARN-Seq traditionnel, dans lequel la conversion d' ARN en ADNc , la ligature, l'amplification et d'autres étapes de manipulation d'échantillons peuvent introduire des biais et des artefacts. Les plates-formes technologiques qui effectuent l'ARN-Seq en temps réel d'une molécule unique comprennent le séquençage Nanopore d' Oxford Nanopore Technologies (ONT) , PacBio IsoSeq et Helicos (faillite). Le séquençage de l'ARN sous sa forme native préserve les modifications telles que la méthylation, ce qui permet de les étudier directement et simultanément. Un autre avantage de l'ARN-Seq à molécule unique est que les transcrits peuvent être couverts sur toute la longueur, ce qui permet une détection et une quantification des isoformes plus fiables que le séquençage à lecture courte. Traditionnellement, les méthodes RNA-Seq à molécule unique ont des taux d'erreur plus élevés que le séquençage à lecture courte, mais les méthodes plus récentes comme ONT direct RNA-Seq limitent les erreurs en évitant la fragmentation et la conversion d'ADNc. Les utilisations récentes de l'ARN-Seq direct ONT pour l'expression différentielle dans les populations de cellules humaines ont démontré que cette technologie peut surmonter de nombreuses limitations du séquençage court et long de l'ADNc.

Séquençage d'ARN unicellulaire (scRNA-Seq)

Les méthodes standard telles que les puces à ADN et l'analyse standard de l'ARN-Seq en vrac analysent l'expression des ARN de grandes populations de cellules. Dans les populations de cellules mixtes, ces mesures peuvent masquer des différences critiques entre les cellules individuelles au sein de ces populations.

Le séquençage de l'ARN unicellulaire (scRNA-Seq) fournit les profils d'expression des cellules individuelles. Bien qu'il ne soit pas possible d'obtenir des informations complètes sur chaque ARN exprimé par chaque cellule, en raison de la petite quantité de matériel disponible, les modèles d'expression génique peuvent être identifiés grâce à des analyses de regroupement de gènes . Cela peut révéler l'existence de types cellulaires rares au sein d'une population cellulaire qui n'ont peut-être jamais été vus auparavant. Par exemple, de rares cellules spécialisées dans le poumon appelées ionocytes pulmonaires qui expriment le régulateur de la conductance transmembranaire de la mucoviscidose ont été identifiées en 2018 par deux groupes réalisant des scRNA-Seq sur l'épithélium des voies respiratoires pulmonaires.

Procédures expérimentales

Flux de travail typique d'ARN-Seq à cellule unique. Des cellules individuelles sont isolées d'un échantillon dans des puits ou des gouttelettes, des bibliothèques d'ADNc sont générées et amplifiées, des bibliothèques sont séquencées et des matrices d'expression sont générées pour des analyses en aval telles que l'identification du type cellulaire.

Les protocoles scRNA-Seq actuels impliquent les étapes suivantes : isolement de cellule unique et d'ARN, transcription inverse (RT), amplification, génération de bibliothèque et séquençage. Les cellules individuelles sont soit séparées mécaniquement dans des micropuits (par exemple, BD Rhapsody, Takara ICELL8, Vycap Puncher Platform ou CellMicrosystems CellRaft) soit encapsulées dans des gouttelettes (par exemple, 10x Genomics Chromium, Illumina Bio-Rad ddSEQ, 1CellBio InDrop, Dolomite Bio Nadia). Les cellules individuelles sont marquées en ajoutant des billes avec des oligonucléotides à code-barres ; les cellules et les billes sont fournies en quantités limitées, de sorte que la co-occupation avec plusieurs cellules et billes est un événement très rare. Une fois la transcription inverse terminée, les ADNc de nombreuses cellules peuvent être mélangés pour le séquençage ; les transcriptions d'une cellule particulière sont identifiées par le code-barres unique de chaque cellule. L'identifiant moléculaire unique (UMI) peut être attaché aux séquences cibles d'ARNm/ADNc pour aider à identifier les artefacts lors de la préparation de la bibliothèque.

Les défis pour scRNA-Seq comprennent la préservation de l'abondance relative initiale de l'ARNm dans une cellule et l'identification de transcrits rares. L'étape de transcription inverse est critique car l'efficacité de la réaction RT détermine la quantité d'ARN de la cellule qui sera finalement analysée par le séquenceur. La processivité des transcriptases inverses et les stratégies d'amorçage utilisées peuvent affecter la production d'ADNc de pleine longueur et la génération de bibliothèques biaisées vers l'extrémité 3' ou 5' des gènes.

Dans l'étape d'amplification, la PCR ou la transcription in vitro (IVT) est actuellement utilisée pour amplifier l'ADNc. L'un des avantages des méthodes basées sur la PCR est la capacité de générer un ADNc complet. Cependant, une efficacité PCR différente sur des séquences particulières (par exemple, le contenu GC et la structure de snapback) peut également être amplifiée de manière exponentielle, produisant des bibliothèques avec une couverture inégale. D'autre part, alors que les bibliothèques générées par IVT peuvent éviter le biais de séquence induit par PCR, des séquences spécifiques peuvent être transcrites de manière inefficace, provoquant ainsi un abandon de séquence ou générant des séquences incomplètes. Plusieurs protocoles scRNA-Seq ont été publiés : Tang et al., STRT, SMART-seq, CEL-seq, RAGE-seq, Quartz-seq et C1-CAGE. Ces protocoles diffèrent en termes de stratégies pour la transcription inverse, la synthèse et l'amplification d'ADNc, et la possibilité d'accueillir des codes-barres spécifiques à une séquence (c'est-à-dire des UMI ) ou la capacité de traiter des échantillons groupés.

En 2017, deux approches ont été introduites pour mesurer simultanément l'expression de l'ARNm et des protéines unicellulaires par le biais d'anticorps marqués par des oligonucléotides connus sous le nom de REAP-seq et CITE-seq.

Applications

scRNA-Seq est de plus en plus utilisé dans les disciplines biologiques, notamment le développement, la neurologie , l' oncologie , les maladies auto - immunes et les maladies infectieuses .

scRNA-Seq a fourni des informations considérables sur le développement des embryons et des organismes, y compris le ver Caenorhabditis elegans et la planaire régénérative Schmidtea mediterranea . Les premiers animaux vertébrés à être cartographiés de cette manière étaient le poisson zèbre et le Xenopus laevis . Dans chaque cas, plusieurs stades de l'embryon ont été étudiés, ce qui a permis de cartographier l'ensemble du processus de développement cellule par cellule. La science a reconnu ces avancées comme la percée de l'année 2018 .

Considérations expérimentales

Une variété de paramètres sont pris en compte lors de la conception et de la réalisation d'expériences RNA-Seq :

  • Spécificité tissulaire : l' expression des gènes varie au sein et entre les tissus, et RNA-Seq mesure ce mélange de types cellulaires. Cela peut rendre difficile l'isolement du mécanisme biologique d'intérêt. Le séquençage à cellule unique peut être utilisé pour étudier chaque cellule individuellement, atténuant ce problème.
  • Dépendance temporelle : l' expression des gènes change au fil du temps et RNA-Seq ne prend qu'un instantané. Des expériences de cours dans le temps peuvent être effectuées pour observer les changements dans le transcriptome.
  • Couverture (également connue sous le nom de profondeur) : l' ARN héberge les mêmes mutations que celles observées dans l'ADN, et la détection nécessite une couverture plus profonde. Avec une couverture suffisamment élevée, RNA-Seq peut être utilisé pour estimer l'expression de chaque allèle. Cela peut donner un aperçu de phénomènes tels que l' impression ou les effets cis-régulateurs . La profondeur de séquençage requise pour des applications spécifiques peut être extrapolée à partir d'une expérience pilote.
  • Artefacts de génération de données (également connus sous le nom de variance technique) : les réactifs (par exemple, kit de préparation de bibliothèque), le personnel impliqué et le type de séquenceur (par exemple, Illumina , Pacific Biosciences ) peuvent entraîner des artefacts techniques qui pourraient être mal interprétés comme des résultats significatifs . Comme pour toute expérience scientifique, il est prudent de mener RNA-Seq dans un cadre bien contrôlé. Si cela n'est pas possible ou si l'étude est une méta-analyse , une autre solution consiste à détecter les artefacts techniques en inférant des variables latentes (généralement une analyse en composantes principales ou une analyse factorielle ) et en corrigeant par la suite ces variables.
  • Gestion des données : une seule expérience RNA-Seq chez l'homme est généralement de 1 à 5 Gb (compressé), ou plus en incluant des fichiers intermédiaires. Ce grand volume de données peut poser des problèmes de stockage. Une solution consiste à compresser les données à l'aide de schémas informatiques polyvalents (par exemple, gzip ) ou de schémas spécifiques à la génomique. Ces dernières peuvent être basées sur des séquences de référence ou de novo. Une autre solution consiste à effectuer des expériences de microréseau, ce qui peut être suffisant pour un travail basé sur des hypothèses ou des études de réplication (par opposition à la recherche exploratoire).

Une analyse

Un flux de travail d'analyse RNA-Seq standard. Les lectures séquencées sont alignées sur un génome et/ou un transcriptome de référence, puis traitées pour une variété d'analyses de contrôle qualité, de découverte et d'hypothèses.

Assemblage du transcriptome

Deux méthodes sont utilisées pour attribuer des lectures de séquences brutes aux caractéristiques génomiques (c'est-à-dire assembler le transcriptome) :

  • De novo : Cette approche ne nécessite pas de génome de référence pour reconstruire le transcriptome, et est généralement utilisée si le génome est inconnu, incomplet ou substantiellement altéré par rapport à la référence. Les défis lors de l'utilisation de lectures courtes pour l'assemblage de novo incluent 1) déterminer quelles lectures doivent être jointes en séquences contiguës ( contigs ), 2) robustesse aux erreurs de séquençage et autres artefacts, et 3) efficacité de calcul. L'algorithme principal utilisé pour l'assemblage de novo est passé des graphes de chevauchement, qui identifient tous les chevauchements par paires entre les lectures, aux graphes de de Bruijn , qui divisent les lectures en séquences de longueur k et regroupent tous les k-mers dans une table de hachage. Des graphiques de chevauchement ont été utilisés avec le séquençage de Sanger, mais ne s'adaptent pas bien aux millions de lectures générées avec RNA-Seq. Des exemples d'assembleurs qui utilisent les graphes de Bruijn sont Trinity, Oases (dérivé de l'assembleur de génome Velvet ), Bridger et rnaSPAdes. Le séquençage apparié et à lecture longue du même échantillon peut atténuer les déficits du séquençage à lecture courte en servant de modèle ou de squelette. Les mesures permettant d'évaluer la qualité d'un assemblage de novo comprennent la longueur médiane des contigs, le nombre de contigs et N50 .
Alignement RNA-Seq avec lectures courtes intron-split. Alignement de courtes lectures sur une séquence d'ARNm et le génome de référence. Le logiciel d'alignement doit tenir compte des lectures courtes qui chevauchent les jonctions exon-exon (en rouge) et ainsi ignorer les sections introniques du pré-ARNm et du génome de référence.
  • Guidé par le génome : cette approche repose sur les mêmes méthodes que celles utilisées pour l'alignement de l'ADN, avec la complexité supplémentaire des lectures d'alignement qui couvrent les parties non continues du génome de référence. Ces lectures non continues sont le résultat du séquençage de transcrits épissés (voir figure). En règle générale, les algorithmes d'alignement comportent deux étapes : 1) aligner de courtes portions de la lecture (c'est-à-dire ensemencer le génome) et 2) utiliser la programmation dynamique pour trouver un alignement optimal, parfois en combinaison avec des annotations connues. Les outils logiciels qui utilisent l'alignement guidé par le génome incluent Bowtie , TopHat (qui s'appuie sur les résultats de BowTie pour aligner les jonctions d'épissage), Subread, STAR, HISAT2 et GMAP. La sortie des outils d'alignement (cartographie) guidé par le génome peut également être utilisée par des outils tels que Cufflinks ou StringTie pour reconstruire des séquences de transcription contiguës ( c'est -à- dire un fichier FASTA). La qualité d'un assemblage guidé par le génome peut être mesurée à la fois avec 1) des mesures d'assemblage de novo (par exemple, N50) et 2) des comparaisons avec des séquences connues de transcrits, de jonctions d'épissage, de génome et de protéines en utilisant la précision, le rappel ou leur combinaison (par exemple, note F1). De plus, une évaluation in silico pourrait être effectuée à l'aide de lectures simulées.

Une note sur la qualité de l'assemblage : le consensus actuel est que 1) la qualité de l'assemblage peut varier en fonction de la métrique utilisée, 2) les outils d'assemblage qui ont obtenu de bons résultats dans une espèce ne fonctionnent pas nécessairement bien dans l'autre espèce, et 3) combinant différentes approches peut-être le plus fiable.

Quantification de l'expression génique

L'expression est quantifiée pour étudier les changements cellulaires en réponse à des stimuli externes, les différences entre les états sains et malades et d'autres questions de recherche. Les niveaux de transcription sont souvent utilisés comme indicateur de l'abondance des protéines, mais ils ne sont souvent pas équivalents en raison d'événements post-transcriptionnels tels que l'interférence ARN et la désintégration induite par un non-sens .

L'expression est quantifiée en comptant le nombre de lectures mappées à chaque locus dans l' étape d' assemblage du transcriptome . L'expression peut être quantifiée pour les exons ou les gènes en utilisant des contigs ou des annotations de transcription de référence. Ces nombres de lectures d'ARN-Seq observés ont été validés de manière robuste par rapport à des technologies plus anciennes, y compris les puces à ADN d'expression et la qPCR . Les outils qui quantifient les décomptes sont HTSeq, FeatureCounts, Rcount, maxcounts, FIXSEQ et Cuffquant. Ces outils déterminent les comptes de lecture à partir de données RNA-Seq alignées, mais des comptes sans alignement peuvent également être obtenus avec Sailfish et Kallisto. Les nombres de lectures sont ensuite convertis en mesures appropriées pour les tests d'hypothèses, les régressions et d'autres analyses. Les paramètres de cette conversion sont :

  • Profondeur/couverture du séquençage : bien que la profondeur soit pré-spécifiée lors de la réalisation de plusieurs expériences RNA-Seq, elle variera toujours considérablement d'une expérience à l'autre. Par conséquent, le nombre total de lectures générées dans une seule expérience est généralement normalisé en convertissant les nombres en fragments, en lectures ou en nombres par million de lectures mappées (FPM, RPM ou CPM). La différence entre RPM et FPM a été historiquement dérivée au cours de l'évolution du séquençage à une seule extrémité de fragments au séquençage à deux extrémités. Dans le séquençage à une seule extrémité, il n'y a qu'une seule lecture par fragment ( c'est -à- dire RPM = FPM). Dans le séquençage apparié, il y a deux lectures par fragment ( c'est -à- dire RPM = 2 x FPM). La profondeur de séquençage est parfois appelée taille de la bibliothèque , le nombre de molécules d'ADNc intermédiaires dans l'expérience.
  • Longueur des gènes : les gènes plus longs auront plus de fragments/lectures/comptes que les gènes plus courts si l'expression du transcrit est la même. Ceci est ajusté en divisant le FPM par la longueur d'une caractéristique (qui peut être un gène, un transcrit ou un exon), ce qui donne les fragments métriques par kilobase de caractéristique par million de lectures cartographiées (FPKM). Lorsque vous examinez des groupes de caractéristiques à travers des échantillons, le FPKM est converti en transcriptions par million (TPM) en divisant chaque FPKM par la somme des FPKM dans un échantillon.
  • Sortie totale d'ARN de l'échantillon : comme la même quantité d'ARN est extraite de chaque échantillon, les échantillons avec plus d'ARN total auront moins d'ARN par gène. Ces gènes semblent avoir une expression réduite, ce qui entraîne des faux positifs dans les analyses en aval. Les stratégies de normalisation comprenant quantile, DESeq2, TMM et Median Ratio tentent de tenir compte de cette différence en comparant un ensemble de gènes exprimés de manière non différentielle entre les échantillons et en les mettant à l'échelle en conséquence.
  • Variance pour l'expression de chaque gène : est modélisée pour tenir compte de l'erreur d'échantillonnage (important pour les gènes avec un faible nombre de lectures), augmenter la puissance et réduire les faux positifs. La variance peut être estimée sous la forme d'unedistribution binomiale normale , de Poisson ou négative et est fréquemment décomposée en variance technique et biologique.

Spike-ins pour la quantification absolue et la détection des effets à l'échelle du génome

Les pics d'ARN sont des échantillons d'ARN à des concentrations connues qui peuvent être utilisés comme étalon-or dans la conception expérimentale et pendant les analyses en aval pour la quantification absolue et la détection des effets à l'échelle du génome.

  • Quantification absolue : la quantification absolue de l'expression génique n'est pas possible avec la plupart des expériences RNA-Seq, qui quantifient l'expression par rapport à tous les transcrits. C'est possible en effectuant des RNA-Seq avec des spikes, des échantillons d'ARN à des concentrations connues. Après le séquençage, les comptes de lecture des séquences de pointe sont utilisés pour déterminer la relation entre les comptes de lecture de chaque gène et les quantités absolues de fragments biologiques. Dans un exemple, cette technique a été utilisée dans des embryons de Xenopus tropicalis pour déterminer la cinétique de transcription.
  • Détection des effets à l'échelle du génome : les changements dans les régulateurs globaux, y compris les remodeleurs de la chromatine , les facteurs de transcription (par exemple, MYC ), les complexes d' acétyltransférase et le positionnement des nucléosomes ne sont pas conformes aux hypothèses de normalisation et les contrôles de pointe peuvent offrir une interprétation précise.

Expression différentielle

L'utilisation la plus simple mais souvent la plus puissante de RNA-Seq est de trouver des différences dans l'expression des gènes entre deux ou plusieurs conditions ( par exemple , traité vs non traité) ; ce processus est appelé expression différentielle. Les sorties sont fréquemment appelées gènes différentiellement exprimés (DEG) et ces gènes peuvent être régulés à la hausse ou à la baisse ( c'est -à- dire , plus ou moins élevés dans la condition d'intérêt). Il existe de nombreux outils qui effectuent l'expression différentielle . La plupart sont exécutés en R , Python ou la ligne de commande Unix . Les outils couramment utilisés incluent DESeq, edgeR et voom+limma, qui sont tous disponibles via R/ Bioconductor . Voici les considérations courantes lors de l'exécution d'une expression différentielle :

  • Entrées : Les entrées d'expression différentielle comprennent (1) une matrice d'expression ARN-Seq (M gènes x N échantillons) et (2) une matrice de conception contenant des conditions expérimentales pour N échantillons. La matrice de conception la plus simple contient une colonne, correspondant aux étiquettes de la condition testée. D'autres covariables (également appelées facteurs, caractéristiques, étiquettes ou paramètres) peuvent inclure des effets de lot , des artefacts connus et toutes les métadonnées qui pourraient confondre ou médier l'expression des gènes. En plus des covariables connues, des covariables inconnues peuvent également être estimées grâce à des approches d' apprentissage automatique non supervisées , notamment des analyses en composante principale , variable de substitution et PEER. Des analyses de variables cachées sont souvent utilisées pour les données d'ARN-Seq de tissus humains, qui comportent généralement des artefacts supplémentaires non capturés dans les métadonnées ( par ex .
  • Méthodes : La plupart des outils utilisent des statistiques de régression ou non paramétriques pour identifier les gènes exprimés de manière différentielle, et sont basés sur des nombres de lectures mappés sur un génome de référence (DESeq2, limma, edgeR) ou sur des nombres de lectures dérivés d'une quantification sans alignement (détective, Cuffdiff, robe de bal). Après la régression, la plupart des outils utilisent des ajustements de la valeur p du taux d'erreur familial (FWER) ou du taux de fausse découverte (FDR) pour tenir compte de plusieurs hypothèses (dans les études humaines, environ 20 000 gènes codant pour des protéines ou environ 50 000 biotypes).
  • Sorties : une sortie typique se compose de lignes correspondant au nombre de gènes et d'au moins trois colonnes, le changement de log de chaque gène ( transformation log du rapport d'expression entre les conditions, une mesure de la taille de l' effet ), la valeur p et p -valeur ajustée pour les comparaisons multiples . Les gènes sont définis comme biologiquement significatifs s'ils dépassent les seuils pour la taille de l'effet (variation logarithmique) et la signification statistique . Ces seuils devraient idéalement être spécifiés a priori , mais la nature des expériences RNA-Seq est souvent exploratoire, il est donc difficile de prédire les tailles d'effet et les seuils pertinents à l'avance.
  • Pièges : La raison d'être de ces méthodes complexes est d'éviter la myriade de pièges qui peuvent conduire à des erreurs statistiques et à des interprétations trompeuses. Les pièges incluent l'augmentation des taux de faux positifs (en raison de comparaisons multiples), les artefacts de préparation des échantillons, l'hétérogénéité des échantillons (comme les antécédents génétiques mixtes), les échantillons hautement corrélés, les modèles expérimentaux à plusieurs niveaux non pris en compte et la mauvaise conception expérimentale . Un écueil notable consiste à afficher les résultats dans Microsoft Excel sans utiliser la fonction d'importation pour garantir que les noms de gènes restent du texte. Bien que pratique, Excel convertit automatiquement certains noms de gènes ( SEPT1 , DEC1 , MARCH2 ) en dates ou en nombres à virgule flottante.
  • Choix des outils et benchmarking : De nombreux efforts comparent les résultats de ces outils, DESeq2 ayant tendance à surpasser modérément les autres méthodes. Comme avec d'autres méthodes, l'analyse comparative consiste à comparer les sorties d'outils les unes aux autres et aux étalons de référence connus .

Les analyses en aval d'une liste de gènes exprimés de manière différentielle se présentent sous deux formes, validant les observations et faisant des inférences biologiques. En raison des pièges de l'expression différentielle et de l'ARN-Seq, des observations importantes sont répliquées avec (1) une méthode orthogonale dans les mêmes échantillons (comme la PCR en temps réel ) ou (2) une autre expérience , parfois pré-enregistrée , dans une nouvelle cohorte . Ce dernier permet d'assurer la généralisation et peut généralement être suivi d'une méta-analyse de toutes les cohortes regroupées. La méthode la plus courante pour obtenir une compréhension biologique de haut niveau des résultats est l'analyse d'enrichissement de l'ensemble de gènes , bien que parfois des approches de gènes candidats soient utilisées. L' enrichissement de l' ensemble des gènes détermine si le chevauchement entre deux ensembles de gènes est statistiquement significative, dans ce cas , le chevauchement entre les gènes exprimés et ensembles de gènes de voies connues / bases de données ( par exemple , Gene Ontology , KEGG , Human Phénotype Ontologie ) ou d'analyses complémentaires dans le mêmes données (comme les réseaux de co-expression). Les outils courants pour l'enrichissement des ensembles de gènes comprennent les interfaces Web ( p . ex. , ENRICHR, g:profiler, WEBGESTALT) et les progiciels. Lors de l'évaluation des résultats d'enrichissement, une heuristique consiste d'abord à rechercher l'enrichissement de la biologie connue en tant que contrôle de la santé mentale, puis à élargir la portée pour rechercher une nouvelle biologie.

Exemples de modes d'épissage d'ARN alternatifs. Les exons sont représentés sous forme de blocs bleus et jaunes, les introns épissés sous forme de lignes noires horizontales reliant deux exons et les jonctions exon-exon sous forme de fines lignes grises de connexion entre deux exons.

Épissage alternatif

L'épissage de l'ARN fait partie intégrante des eucaryotes et contribue de manière significative à la régulation et à la diversité des protéines, se produisant dans plus de 90 % des gènes humains. Il existe plusieurs modes d'épissage alternatifs : saut d'exon (mode d'épissage le plus courant chez l'homme et les eucaryotes supérieurs), exons mutuellement exclusifs, sites donneurs ou accepteurs alternatifs, rétention d'intron (mode d'épissage le plus courant chez les plantes, les champignons et les protozoaires), début de transcription alternatif site (promoteur) et polyadénylation alternative. L'un des objectifs de RNA-Seq est d'identifier des événements d'épissage alternatifs et de tester s'ils diffèrent entre les conditions. Le séquençage à lecture longue capture la transcription complète et minimise ainsi de nombreux problèmes liés à l'estimation de l'abondance des isoformes, comme le mappage de lecture ambigu. Pour l'ARN-Seq à lecture courte, il existe plusieurs méthodes pour détecter l'épissage alternatif qui peuvent être classées en trois groupes principaux :

  • Basé sur le nombre (également basé sur les événements, épissage différentiel) : estimer la rétention d'exons. Les exemples sont DEXSeq, MATS et SeqGSEA.
  • Basé sur les isoformes (également modules à lecture multiple, expression différentielle des isoformes) : estimez d'abord l'abondance des isoformes, puis l'abondance relative entre les conditions. Les exemples sont les boutons de manchette 2 et DiffSplice.
  • Basé sur l'excision d'intron : calculez l'épissage alternatif à l'aide de lectures fractionnées. Les exemples sont MAJIQ et Leafcutter.

Les outils d'expression différentielle des gènes peuvent également être utilisés pour l'expression différentielle des isoformes si les isoformes sont quantifiées à l'avance avec d'autres outils comme le RSEM.

Réseaux de coexpression

Les réseaux de coexpression sont des représentations dérivées de données de gènes se comportant de manière similaire à travers les tissus et les conditions expérimentales. Leur objectif principal réside dans la génération d'hypothèses et les approches de culpabilité par association pour déduire des fonctions de gènes auparavant inconnus. Les données RNA-Seq ont été utilisées pour déduire des gènes impliqués dans des voies spécifiques basées sur la corrélation de Pearson , à la fois chez les plantes et les mammifères. Le principal avantage des données RNA-Seq dans ce type d'analyse par rapport aux plates-formes de puces à ADN est la capacité de couvrir l'intégralité du transcriptome, permettant ainsi de démêler des représentations plus complètes des réseaux de régulation des gènes. La régulation différentielle des isoformes d'épissage du même gène peut être détectée et utilisée pour prédire leurs fonctions biologiques. L'analyse du réseau de co-expression génique pondérée a été utilisée avec succès pour identifier les modules de co-expression et les gènes hub intramodulaires sur la base des données de séquençage d'ARN. Les modules de co-expression peuvent correspondre à des types cellulaires ou à des voies. Les hubs intramodulaires hautement connectés peuvent être interprétés comme des représentants de leur module respectif. Un gène propre est une somme pondérée de l'expression de tous les gènes d'un module. Les propres gènes sont des biomarqueurs (caractéristiques) utiles pour le diagnostic et le pronostic. Des approches de transformation stabilisatrice de variance pour estimer les coefficients de corrélation basées sur des données de séquençage d'ARN ont été proposées.

Découverte de variantes

RNA-Seq capture la variation de l'ADN, y compris les variantes d'un seul nucléotide , les petites insertions/suppressions . et la variation structurelle . L'appel de variante dans RNA-Seq est similaire à l'appel de variante d'ADN et utilise souvent les mêmes outils (y compris SAMtools mpileup et GATK HaplotypeCaller) avec des ajustements pour tenir compte de l'épissage. Une dimension unique pour les variants d'ARN est l' expression spécifique d'un allèle (ASE) : les variants d'un seul haplotype pourraient être exprimés préférentiellement en raison d'effets régulateurs, notamment l' impression et l' expression de loci de traits quantitatifs et de variants rares non codants . Les limites de l'identification des variants d'ARN incluent qu'elle ne reflète que les régions exprimées (chez l'homme, <5 % du génome), pourrait être sujette à des biais introduits par le traitement des données (par exemple, les assemblages de transcriptome de novo sous-estiment l'hétérozygotie) et ont une qualité inférieure par rapport pour diriger le séquençage de l'ADN.

Édition d'ARN (altérations post-transcriptionnelles)

Avoir les séquences génomiques et transcriptomiques correspondantes d'un individu peut aider à détecter les modifications post-transcriptionnelles ( édition d'ARN ). Un événement de modification post-transcriptionnel est identifié si le transcrit du gène a un allèle/variant non observé dans les données génomiques.

Un événement de fusion de gènes et le comportement de lectures appariées tombant des deux côtés de l'union des gènes. Des fusions de gènes peuvent se produire dans Trans , entre des gènes sur des chromosomes séparés, ou dans Cis , entre deux gènes sur le même chromosome.

Détection de gènes de fusion

Causés par différentes modifications structurelles du génome, les gènes de fusion ont attiré l'attention en raison de leur relation avec le cancer. La capacité de RNA-Seq à analyser l'ensemble du transcriptome d'un échantillon de manière impartiale en fait un outil attrayant pour trouver ces types d'événements communs dans le cancer.

L'idée découle du processus d'alignement des lectures transcriptomiques courtes sur un génome de référence. La plupart des lectures courtes se situeront dans un exon complet, et un ensemble plus petit mais toujours important devrait correspondre aux jonctions exon-exon connues. Les lectures courtes non cartographiées restantes seraient ensuite analysées plus avant pour déterminer si elles correspondent à une jonction exon-exon où les exons proviennent de gènes différents. Ce serait la preuve d'un événement de fusion possible, cependant, en raison de la longueur des lectures, cela pourrait s'avérer très bruyant. Une approche alternative consiste à utiliser des lectures appariées, lorsqu'un nombre potentiellement important de lectures appariées mapperait chaque extrémité sur un exon différent, offrant une meilleure couverture de ces événements (voir la figure). Néanmoins, le résultat final consiste en des combinaisons multiples et potentiellement nouvelles de gènes fournissant un point de départ idéal pour une validation ultérieure.

Histoire

Les correspondances de manuscrits Pubmed mettent en évidence la popularité croissante de RNA-Seq. Les correspondances sont pour RNA-Seq (bleu, termes de recherche : "RNA Seq" OU "RNA-Seq" OU "RNA Seq" OU "RNASeq") et RNA=Seq en médecine (or, termes de recherche : ("RNA Seq" OU "RNA-Seq" OU "RNA Sequencing" OU "RNASeq") ET "Medicine"). Le nombre de manuscrits sur PubMed contenant RNA-Seq continue d'augmenter.

RNA-Seq a été développé pour la première fois au milieu des années 2000 avec l'avènement de la technologie de séquençage de nouvelle génération. Les premiers manuscrits qui ont utilisé RNA-Seq même sans utiliser le terme incluent ceux des lignées cellulaires du cancer de la prostate (datés de 2006), Medicago truncatula (2006), le maïs (2007) et Arabidopsis thaliana (2007), tandis que le terme « RNA-Seq " lui-même a été mentionné pour la première fois en 2008. Le nombre de manuscrits faisant référence à RNA-Seq dans le titre ou le résumé (Figure, ligne bleue) augmente continuellement avec 6754 manuscrits publiés en 2018. L'intersection de RNA-Seq et de médecine (Figure, or ligne) a une célérité similaire.

Applications à la médecine

RNA-Seq a le potentiel d'identifier une nouvelle biologie de la maladie, de profiler des biomarqueurs pour des indications cliniques, de déduire des voies médicamenteuses et de faire des diagnostics génétiques. Ces résultats pourraient être davantage personnalisés pour des sous-groupes ou même des patients individuels, mettant potentiellement en évidence une prévention, un diagnostic et une thérapie plus efficaces. La faisabilité de cette approche est en partie dictée par les coûts en argent et en temps ; une limitation connexe est l'équipe de spécialistes requise (bioinformaticiens, médecins/cliniciens, chercheurs fondamentaux, techniciens) pour interpréter pleinement l'énorme quantité de données générées par cette analyse.

Efforts de séquençage à grande échelle

Une grande importance a été accordée aux données RNA-Seq après que les projets Encyclopedia of DNA Elements (ENCODE) et The Cancer Genome Atlas (TCGA) aient utilisé cette approche pour caractériser respectivement des dizaines de lignées cellulaires et des milliers d'échantillons de tumeurs primaires. ENCODE visait à identifier les régions régulatrices à l'échelle du génome dans différentes cohortes de lignées cellulaires et les données transcriptomiques sont primordiales pour comprendre l'effet en aval de ces couches régulatrices épigénétiques et génétiques. TCGA, au lieu de cela, visait à collecter et à analyser des milliers d'échantillons de patients provenant de 30 types de tumeurs différents pour comprendre les mécanismes sous-jacents de la transformation et de la progression malignes. Dans ce contexte, les données RNA-Seq fournissent un instantané unique de l'état transcriptomique de la maladie et examinent une population impartiale de transcrits qui permet d'identifier de nouveaux transcrits, des transcrits de fusion et des ARN non codants qui pourraient ne pas être détectés avec différentes technologies.

Voir également

Les références

Cet article a été soumis à WikiJournal of Science pour un examen externe par des pairs universitaires en 2019 ( rapports des examinateurs ). Le contenu mis à jour a été réintégré dans la page Wikipedia sous une licence CC-BY-SA-3.0 ( 2021 ). La version du dossier telle qu'elle a été examinée est la suivante : Felix Richter ; et al. (17 mai 2021). « Une large introduction à RNA-Seq ». WikiJournal des sciences . 4 (2) : 4. doi : 10.15347/WJS/2021.004 . ISSN  2470-6345 . Wikidata  Q100146647 .

Lectures complémentaires

Liens externes

  • Cresko B, Voelker R, Petit C (2001). Bassham S, Catchen J (éd.). "ARN-séquopédie" . Université de l'Oregon.: un guide de haut niveau pour concevoir et mettre en œuvre une expérience RNA-Seq.