Séquençage de puces - ChIP sequencing

Le séquençage ChIP , également connu sous le nom de ChIP-seq , est une méthode utilisée pour analyser les interactions des protéines avec l' ADN . ChIP-seq combine l'immunoprécipitation de la chromatine (ChIP) avec un séquençage d'ADN massivement parallèle pour identifier les sites de liaison des protéines associées à l'ADN. Il peut être utilisé pour cartographier les sites de liaison mondiaux avec précision pour toute protéine d'intérêt. Auparavant, ChIP-on-chip était la technique la plus couramment utilisée pour étudier ces relations protéine-ADN.

Les usages

ChIP-seq est principalement utilisé pour déterminer comment les facteurs de transcription et d'autres protéines associées à la chromatine influencent les mécanismes affectant le phénotype . Déterminer comment les protéines interagissent avec l'ADN pour réguler l'expression des gènes est essentiel pour comprendre pleinement de nombreux processus biologiques et états pathologiques. Cette information épigénétique est complémentaire à l' analyse du génotype et de l'expression. La technologie ChIP-seq est actuellement considérée principalement comme une alternative à la puce ChIP qui nécessite une matrice d'hybridation . Cela introduit un certain biais, car un réseau est limité à un nombre fixe de sondes. On pense en revanche que le séquençage a moins de biais, bien que le biais de séquençage des différentes technologies de séquençage ne soit pas encore entièrement compris.

Des sites d'ADN spécifiques en interaction physique directe avec des facteurs de transcription et d'autres protéines peuvent être isolés par immunoprécipitation de la chromatine . ChIP produit une bibliothèque de sites d'ADN cibles liés à une protéine d'intérêt. Des analyses de séquence massivement parallèles sont utilisées en conjonction avec des bases de données de séquences du génome entier pour analyser le schéma d'interaction de toute protéine avec l'ADN, ou le schéma de toute modification épigénétique de la chromatine . Cela peut être appliqué à l'ensemble des protéines et des modifications ChIP, telles que les facteurs de transcription, les polymérases et la machinerie transcriptionnelle , les protéines structurelles , les modifications des protéines et les modifications de l'ADN . Comme alternative à la dépendance des anticorps spécifiques, différentes méthodes ont été développées pour trouver le surensemble de tous nucléosome appauvrie ou des régions régulatrices actives nucléosome perturbé dans le génome, comme DNase-Seq et faire- Seq .

Flux de travail du séquençage ChIP

Flux de travail de séquençage de puces

Ébrécher

ChIP est une méthode puissante pour enrichir sélectivement les séquences d'ADN liées par une protéine particulière dans les cellules vivantes . Cependant, l'utilisation généralisée de cette méthode a été limitée par l'absence d'une méthode suffisamment robuste pour identifier toutes les séquences d'ADN enrichies. Le protocole de laboratoire humide ChIP contient ChIP et hybridation. Le protocole ChIP comprend essentiellement cinq parties qui aident à mieux comprendre le processus global de ChIP. Afin de réaliser la ChIP, la première étape est la réticulation à l' aide de formaldéhyde et de grandes quantités d'ADN afin d'obtenir une quantité utile. Les liaisons croisées se font entre la protéine et l'ADN, mais aussi entre l'ARN et d'autres protéines. La deuxième étape est le processus de fragmentation de la chromatine qui brise la chromatine afin d'obtenir des morceaux d'ADN de haute qualité pour l'analyse de la puce à la fin. Ces fragments doivent être coupés pour devenir moins de 500 paires de bases chacun pour avoir le meilleur résultat pour la cartographie du génome. La troisième étape est appelée immunoprécipitation de la chromatine, c'est l'abréviation de ChIP. Le processus ChIP améliore des complexes ADN-protéine réticulés spécifiques en utilisant un anticorps contre la protéine d'intérêt, suivi d'une incubation et d'une centrifugation pour obtenir l'immunoprécipitation. L'étape d'immunoprécipitation permet également l'élimination des sites de liaison non spécifiques. La quatrième étape est la récupération et la purification de l'ADN, qui se déroulent par l'effet inverse sur la liaison croisée entre l'ADN et la protéine pour les séparer et le nettoyage de l'ADN avec une extraction. La cinquième et dernière étape est l'étape d'analyse du protocole ChIP par le processus de qPCR , ChIP-on-chip (réseau hybride) ou de séquençage ChIP. Des adaptateurs oligonucléotidiques sont ensuite ajoutés aux petits segments d'ADN liés à la protéine d'intérêt pour permettre un séquençage massivement parallèle. Grâce à l'analyse, les séquences peuvent ensuite être identifiées et interprétées par le gène ou la région où la protéine était liée.

Séquençage

Après sélection de la taille, tous les fragments ChIP-ADN résultants sont séquencés simultanément à l'aide d'un séquenceur de génome. Un seul cycle de séquençage peut rechercher des associations à l'échelle du génome avec une haute résolution, ce qui signifie que les caractéristiques peuvent être localisées précisément sur les chromosomes. La puce ChIP, en revanche, nécessite de grands ensembles de matrices de mosaïque pour une résolution inférieure.

De nombreuses nouvelles méthodes de séquençage sont utilisées dans cette étape de séquençage. Certaines technologies qui analysent les séquences peuvent utiliser l' amplification en grappes de fragments d'ADN ChIP ligaturés par adaptateur sur un substrat de Flow Cell solide pour créer des grappes d'environ 1000 copies clonales chacune. Le réseau haute densité résultant de grappes de modèles sur la surface de la cellule d'écoulement est séquencé par un programme d'analyse du génome. Chaque groupe de matrice subit un séquençage par synthèse en parallèle à l'aide de nouveaux nucléotides terminateurs réversibles marqués par fluorescence. Les modèles sont séquencés base par base lors de chaque lecture. Ensuite, le logiciel de collecte et d'analyse des données aligne les séquences d'échantillons sur une séquence génomique connue pour identifier les fragments ChIP-ADN.

Contrôle de qualité

ChIP-seq nous offre une analyse rapide, cependant, un contrôle qualité doit être effectué pour s'assurer que les résultats obtenus sont fiables :

  • Fraction non redondante : les régions de faible complexité doivent être supprimées car elles ne sont pas informatives et peuvent interférer avec la cartographie dans le génome de référence.
  • Fragments dans les pics : rapport des lectures situées dans les pics sur les lectures situées là où il n'y a pas de pic.

Sensibilité

La sensibilité de cette technologie dépend de la profondeur de la séquence de séquençage (c'est-à-dire du nombre d'étiquettes de séquences cartographiées), de la taille du génome et de la distribution du facteur cible. La profondeur de séquençage est directement corrélée au coût. Si des liants abondants dans de grands génomes doivent être cartographiés avec une sensibilité élevée, les coûts sont élevés car un nombre extrêmement élevé d'étiquettes de séquence sera nécessaire. Ceci contraste avec la puce ChIP dans laquelle les coûts ne sont pas corrélés avec la sensibilité.

Contrairement aux méthodes ChIP basées sur des puces à ADN , la précision du test ChIP-seq n'est pas limitée par l'espacement des sondes prédéterminées. En intégrant un grand nombre de lectures courtes, une localisation très précise du site de liaison est obtenue. Par rapport à ChIP-chip, les données ChIP-seq peuvent être utilisées pour localiser le site de liaison à quelques dizaines de paires de bases du site de liaison réel de la protéine. Les densités d'étiquettes aux sites de liaison sont un bon indicateur de l'affinité de liaison protéine-ADN, ce qui facilite la quantification et la comparaison des affinités de liaison d'une protéine à différents sites d'ADN.

Les recherches en cours

Association ADN STAT1 : ChIP-seq a été utilisé pour étudier les cibles STAT1 dans les cellules HeLa S3 qui sont des clones de la lignée HeLa qui sont utilisés pour l'analyse des populations cellulaires. Les performances de ChIP-seq ont ensuite été comparées aux méthodes alternatives d'interaction protéine-ADN de ChIP-PCR et ChIP-chip.

Architecture des nucléosomes des promoteurs : à l' aide de ChIP-seq, il a été déterminé que les gènes de levure semblent avoir une région de promoteur minimale sans nucléosome de 150 pb dans laquelle l'ARN polymérase peut initier la transcription.

Conservation du facteur de transcription : ChIP-seq a été utilisé pour comparer la conservation des TF dans le cerveau antérieur et le tissu cardiaque chez des souris embryonnaires. Les auteurs ont identifié et validé la fonctionnalité cardiaque des amplificateurs de transcription et déterminé que les amplificateurs de transcription pour le cœur sont moins conservés que ceux du cerveau antérieur au cours du même stade de développement.

ChIP-seq à l'échelle du génome : le séquençage de la puce a été réalisé sur le ver C. elegans pour explorer les sites de liaison à l'échelle du génome de 22 facteurs de transcription. Jusqu'à 20 % des gènes candidats annotés ont été attribués à des facteurs de transcription. Plusieurs facteurs de transcription ont été attribués à des régions d'ARN non codantes et peuvent être soumis à des variables développementales ou environnementales. Les fonctions de certains des facteurs de transcription ont également été identifiées. Certains des facteurs de transcription régulent les gènes qui contrôlent d'autres facteurs de transcription. Ces gènes ne sont pas régulés par d'autres facteurs. La plupart des facteurs de transcription servent à la fois de cibles et de régulateurs d'autres facteurs, démontrant un réseau de régulation.

Réseau régulateur inférant : le signal ChIP-seq de la modification des histones s'est avéré plus corrélé avec les motifs des facteurs de transcription au niveau des promoteurs par rapport au niveau d'ARN. Par conséquent, l'auteur a proposé que l'utilisation de la modification des histones ChIP-seq fournirait une inférence plus fiable des réseaux de régulation des gènes par rapport à d'autres méthodes basées sur l'expression.

ChIP-seq offre une alternative à la puce ChIP. Les données expérimentales ChIP-seq de STAT1 présentent un degré élevé de similitude avec les résultats obtenus par ChIP-chip pour le même type d'expérience, avec plus de 64 % de pics dans des régions génomiques partagées. Étant donné que les données sont des lectures de séquences, ChIP-seq offre un pipeline d'analyse rapide tant qu'une séquence génomique de haute qualité est disponible pour la cartographie de lecture et que le génome n'a pas de contenu répétitif qui perturbe le processus de cartographie. ChIP-seq a également le potentiel de détecter des mutations dans les séquences de sites de liaison, qui peuvent directement soutenir tout changement observé dans la liaison aux protéines et la régulation des gènes.

Analyse informatique

Comme avec de nombreuses approches de séquençage à haut débit, ChIP-seq génère des ensembles de données extrêmement volumineux, pour lesquels des méthodes d'analyse informatique appropriées sont nécessaires. Pour prédire les sites de liaison à l'ADN à partir des données de comptage de lecture ChIP-seq, des méthodes d' appel de pic ont été développées. L'une des méthodes les plus populaires est MACS qui modélise empiriquement la taille de décalage des balises ChIP-Seq et l'utilise pour améliorer la résolution spatiale des sites de liaison prédits. MACS est optimisé pour des pics de résolution plus élevée, tandis qu'un autre algorithme populaire, SICER est programmé pour appeler des pics plus larges, allant de kilobases à mégabases afin de rechercher des domaines de chromatine plus larges. SICER est plus utile pour les marques d'histone couvrant les corps des gènes. Une méthode mathématique plus rigoureuse BCP (Bayesian Change Point) peut être utilisée pour les pics aigus et larges avec une vitesse de calcul plus rapide, voir la comparaison de référence des outils d'appel de pic ChIP-seq par Thomas et. Al. (2017).

Un autre problème de calcul pertinent est l'appel de pic différentiel, qui identifie des différences significatives dans deux signaux ChIP-seq provenant de conditions biologiques distinctes. Les appelants de crête différentielle segmentent deux signaux ChIP-seq et identifient les crêtes différentielles à l'aide de modèles de Markov cachés . ChIPDiff et ODIN sont des exemples d'appels de crête différentiels en deux étapes.

Pour réduire les sites parasites de ChIP-seq, plusieurs contrôles expérimentaux peuvent être utilisés pour détecter les sites de liaison à partir d'une expérience IP. Bay2Ctrls adopte un modèle bayésien pour intégrer le contrôle d'entrée d'ADN pour l'IP, l'IP fictive et son contrôle d'entrée d'ADN correspondant pour prédire les sites de liaison à partir de l'IP. Cette approche est particulièrement efficace pour les échantillons complexes tels que les organismes modèles entiers. En outre, l'analyse indique que pour les échantillons complexes, les contrôles IP fictifs surpassent considérablement les contrôles d'entrée d'ADN probablement en raison des génomes actifs des échantillons.

Voir également

Méthodes similaires

  • Séquençage CUT&RUN , clivage contrôlé ciblé sur les anticorps par la nucléase micrococcale au lieu de la puce, permettant un meilleur rapport signal/bruit pendant le séquençage.
  • Séquençage CUT&Tag , clivage contrôlé ciblé sur les anticorps par la transposase Tn5 au lieu de ChIP, permettant un meilleur rapport signal/bruit pendant le séquençage.
  • Sono-Seq , identique à ChIP-Seq mais sautant l'étape d'immunoprécipitation.
  • HITS-CLIP (également appelé CLIP-Seq ), pour trouver des interactions avec l'ARN plutôt que l'ADN.
  • PAR-CLIP , une autre méthode pour identifier les sites de liaison des protéines cellulaires de liaison à l'ARN (RBP).
  • RIP-Chip , même objectif et premières étapes, mais n'utilise pas de méthodes de réticulation et utilise des puces à ADN au lieu du séquençage
  • SELEX , une méthode pour trouver une séquence de liaison consensus
  • Compétition-ChIP , pour mesurer la dynamique de remplacement relative sur l'ADN.
  • ChiRP-Seq pour mesurer l'ADN et les protéines liés à l'ARN.
  • ChIP-exo utilise un traitement à l'exonucléase pour atteindre une résolution d'une seule paire de bases
  • ChIP-nexus version améliorée de ChIP-exo pour atteindre une résolution jusqu'à une seule paire de bases.
  • DRIP-seq utilise l'anticorps S9.6 pour précipiter des hybrides DND:ARN à trois brins appelés boucles R.
  • TCP-seq , méthode principalement similaire pour mesurer la dynamique de traduction de l'ARNm.
  • Calling Cards, utilise une transposase pour marquer la séquence où un facteur de transcription se lie.

Les références

Liens externes

  • Catalogue ReMap : Une analyse ChIP-Seq intégrative et uniforme des éléments régulateurs de +2800 ensembles de données ChIP-seq, donnant un catalogue de 80 millions de pics provenant de 485 régulateurs de transcription.
  • Base de données ChIPBase : une base de données pour explorer les cartes de liaison aux facteurs de transcription à partir des données ChIP-Seq . Il fournit l'ensemble de données ChIP-Seq le plus complet pour divers types et conditions de cellules/tissus.
  • Base de données et outil d'analyse GeneProf : GeneProf est un environnement d'analyse facile à utiliser et accessible gratuitement pour les données ChIP-seq et RNA-seq et est livré avec une grande base de données d'expériences publiques prêtes à l'emploi, par exemple pour la liaison aux facteurs de transcription et les modifications des histones.
  • Appel de crête différentiel : Tutoriel pour l'appel de crête différentiel avec ODIN.
  • Analyse bioinformatique des données ChIP-seq : Analyse complète des données ChIP-seq.
  • KLTepigenome : Découvrir la variabilité corrélée dans les ensembles de données épigénomiques à l'aide de la transformée de Karhunen-Loeve.
  • SignalSpider : un outil pour la découverte de motifs probabilistes sur plusieurs profils de signaux ChIP-Seq normalisés
  • FullSignalRanker : un outil de régression et de prédiction de pic sur plusieurs profils de signaux ChIP-Seq normalisés

  1. ^ Chèneby J, Gheorghe M, Artufel M, Mathelier A, Ballester B (janvier 2018). "ReMap 2018 : un atlas mis à jour des régions régulatrices à partir d'une analyse intégrative des expériences ChIP-seq de liaison à l'ADN" . Recherche sur les acides nucléiques . 46 (D1) : D267–D275. doi : 10.1093/nar/gkx1092 . PMC  5753247 . PMID  29126285 .
  2. ^ Bailey T, Krajewski P, Ladunga I, Lefebvre C, Li Q, Liu T, et al. (2013). "Directives pratiques pour l'analyse complète des données ChIP-seq" . Biologie computationnelle PLOS . 9 (11) : e1003326. Bibcode : 2013PLSCB ... 9E3326B . doi : 10.1371/journal.pcbi.1003326 . PMC  3828144 . PMID  24244136 .