Site CPG - CpG site

Un site CpG, c'est -à- dire la séquence de nucléotides " 5'-C-phosphate-G-3' ", est indiqué sur un brin d'ADN (en jaune). Sur le brin d'ADN inverse (en bleu), le site complémentaire 5'-CpG-3' est représenté. Une séparation de base CG entre les deux brins d'ADN est également indiquée (à droite)

Les sites CpG ou sites CG sont des régions d' ADN où un nucléotide cytosine est suivi d'un nucléotide guanine dans la séquence linéaire de bases le long de sa direction 5' → 3' . Les sites CpG se produisent avec une fréquence élevée dans les régions génomiques appelées îlots CpG (ou îlots CG ).

Les cytosines dans les dinucléotides CpG peuvent être méthylées pour former des 5-méthylcytosines . Les enzymes qui ajoutent un groupe méthyle sont appelées ADN méthyltransférases . Chez les mammifères, 70 à 80 % des cytosines CpG sont méthylées. La méthylation de la cytosine dans un gène peut modifier son expression, un mécanisme qui fait partie d'un domaine scientifique plus vaste étudiant la régulation des gènes, appelé épigénétique . Les cytosines méthylées mutent souvent en thymines .

Chez l'homme, environ 70 % des promoteurs situés à proximité du site d' initiation de la transcription d'un gène (proximaux promoteurs) contiennent un îlot CpG.

Caractéristiques CpG

Définition

CpG est l'abréviation de 5'-C-phosphate-G-3' , c'est-à-dire cytosine et guanine séparées par un seul groupe phosphate ; le phosphate lie deux nucléosides entre eux dans l'ADN. La notation CpG est utilisée pour distinguer cette séquence linéaire simple brin de l' appariement de bases CG de la cytosine et de la guanine pour les séquences double brin. La notation CpG est donc à interpréter comme la cytosine étant 5 prime à la base guanine. CpG ne doit pas être confondu avec GpC , ce dernier signifiant qu'une guanine est suivie d'une cytosine dans le sens 5' → 3' d'une séquence simple brin.

Sous-représentation causée par un taux de mutation élevé

Les dinucléotides CpG ont longtemps été observés avec une fréquence beaucoup plus faible dans la séquence des génomes de vertébrés que ce à quoi on pourrait s'attendre en raison du hasard. Par exemple, dans le génome humain, qui a une teneur en GC de 42 % , une paire de nucléotides constituée de cytosine suivie de guanine devrait apparaître à l'époque. La fréquence des dinucléotides CpG dans les génomes humains est inférieure à un cinquième de la fréquence attendue.

Cette sous-représentation est une conséquence du taux de mutation élevé des sites CpG méthylés : la désamination spontanée d'une cytosine méthylée donne une thymine , et les bases non appariées G:T résultantes sont souvent mal résolues en A:T ; alors que la désamination de la cytosine non méthylée aboutit à un uracile , qui, en tant que base étrangère, est rapidement remplacé par une cytosine par le mécanisme de réparation par excision de la base . Le taux de transition C à T sur les sites CpG méthylés est environ 10 fois plus élevé que sur les sites non méthylés.

Distribution génomique

Sites CPG Sites GpC
APRT-CpG.svg APRT-GpC.svg
Répartition des sites CpG (à gauche : en rouge) et des sites GpC (à droite : en vert) dans le gène APRT humain. Les CpG sont plus abondants dans la région amont du gène, où ils forment un îlot CpG , tandis que les GpC sont plus uniformément répartis. Les 5 exons du gène APRT sont indiqués (bleu) et les codons de départ (ATG) et d'arrêt (TGA) sont soulignés (bleu gras).

Les dinucléotides CpG se produisent fréquemment dans les îlots CpG (voir la définition des îlots CpG ci-dessous). Il y a 28 890 îlots CpG dans le génome humain (50 267 si l'on inclut les îlots CpG dans les séquences répétées). Ceci est en accord avec les 28 519 îlots CpG trouvés par Venter et al. puisque Venter et al. la séquence du génome n'incluait pas les intérieurs d'éléments répétitifs très similaires et les régions répétées extrêmement denses près des centromères. Étant donné que les îlots CpG contiennent plusieurs séquences de dinucléotides CpG, il semble y avoir plus de 20 millions de dinucléotides CpG dans le génome humain.

Îles CpG

Comment la méthylation des sites CpG suivie d'une désamination spontanée conduit à un manque de sites CpG dans l'ADN méthylé. En conséquence, des îlots CpG résiduels sont créés dans des zones où la méthylation est rare et où les sites CpG restent collés (ou où la mutation C en T est très préjudiciable).

Les îlots CpG (ou îlots CG) sont des régions avec une fréquence élevée de sites CpG. Bien que les définitions objectives des îlots CpG soient limitées, la définition formelle habituelle est une région avec au moins 200 pb , un pourcentage de GC supérieur à 50 % et un rapport CpG observé/attendu supérieur à 60 %. Le « rapport CpG observé/attendu » peut être dérivé lorsque l'observé est calculé comme : et l'attendu comme ou .

De nombreux gènes dans les génomes de mammifères ont des îlots CpG associés au début du gène ( régions promotrices ). Pour cette raison, la présence d'un îlot CpG est utilisée pour aider à la prédiction et à l'annotation des gènes.

Dans les génomes de mammifères, les îlots CpG ont généralement une longueur de 300 à 3 000 paires de bases et ont été trouvés dans ou près d'environ 40 % des promoteurs de gènes de mammifères. Plus de 60% des gènes humains et presque tous les gènes domestiques ont leurs promoteurs intégrés dans des îlots CpG. Compte tenu de la fréquence des séquences à deux nucléotides GC, le nombre de dinucléotides CpG est beaucoup plus faible que prévu.

Une étude de 2002 a révisé les règles de prédiction des îlots CpG pour exclure d'autres séquences génomiques riches en GC telles que les répétitions Alu . Sur la base d'une recherche approfondie sur les séquences complètes des chromosomes humains 21 et 22, les régions d'ADN supérieures à 500 pb se sont avérées plus susceptibles d'être les « vrais » îlots CpG associés aux régions 5' des gènes si elles avaient une teneur en GC supérieure à 55 % et un rapport CpG observé/attendu de 65 %.

Les îlots CpG sont caractérisés par une teneur en dinucléotides CpG d'au moins 60% de celle qui serait statistiquement attendue (~4-6%), alors que le reste du génome a une fréquence CpG beaucoup plus faible (~1%), un phénomène appelé suppression CG . Contrairement aux sites CpG dans la région codante d'un gène, dans la plupart des cas, les sites CpG dans les îlots CpG des promoteurs ne sont pas méthylés si les gènes sont exprimés. Cette observation a conduit à la spéculation que la méthylation des sites CpG dans le promoteur d'un gène peut inhiber l'expression du gène. La méthylation, ainsi que la modification des histones , sont au cœur de l' empreinte . La plupart des différences de méthylation entre les tissus, ou entre les échantillons normaux et cancéreux, se produisent à une courte distance des îles CpG (sur les « rivages des îles CpG ») plutôt que dans les îles elles-mêmes.

Les îlots CpG se produisent généralement au niveau ou à proximité du site de démarrage de la transcription des gènes, en particulier des gènes domestiques , chez les vertébrés. La base AC (cytosine) suivie immédiatement d'une base G (guanine) (un CpG) est rare dans l'ADN des vertébrés car les cytosines dans un tel arrangement ont tendance à être méthylées. Cette méthylation permet de distinguer le brin d'ADN nouvellement synthétisé du brin parent, ce qui facilite les étapes finales de la relecture de l'ADN après la duplication. Cependant, au fil du temps, les cytosines méthylées ont tendance à se transformer en thymines en raison de la désamination spontanée . Il existe une enzyme spéciale chez l'homme ( Thymine-ADN glycosylase , ou TDG) qui remplace spécifiquement les T des mésappariements T/G. Cependant, en raison de la rareté des CpG, il est théorisé qu'il est insuffisamment efficace pour empêcher une mutation éventuellement rapide des dinucléotides. L'existence d'îlots CpG s'explique généralement par l'existence de forces sélectives pour une teneur en CpG relativement élevée ou de faibles niveaux de méthylation dans cette zone génomique, peut-être en rapport avec la régulation de l'expression des gènes. Une étude de 2011 a montré que la plupart des îlots CpG sont le résultat de forces non sélectives.

Méthylation, silençage, cancer et vieillissement

Une image montrant un mécanisme évolutif hypothétique derrière la formation d'îlots CpG.

Ilots CpG dans les promoteurs

Chez l'homme, environ 70 % des promoteurs situés à proximité du site d' initiation de la transcription d'un gène (proximaux promoteurs) contiennent un îlot CpG .

Les éléments promoteurs distaux contiennent également fréquemment des îlots CpG. Un exemple est le gène de réparation de l'ADN ERCC1 , où l'élément contenant l'îlot CpG est situé à environ 5 400 nucléotides en amont du site de démarrage de la transcription du gène ERCC1 . Les îlots CpG apparaissent également fréquemment dans les promoteurs d' ARN fonctionnels non codants tels que les microARN .

La méthylation des îlots CpG fait taire les gènes de manière stable

Chez l'homme, la méthylation de l'ADN se produit à la position 5 du cycle pyrimidine des résidus cytosine dans les sites CpG pour former des 5-méthylcytosines . La présence de plusieurs sites CpG méthylés dans les îlots CpG de promoteurs provoque un silence stable des gènes. L'extinction d'un gène peut être initiée par d'autres mécanismes, mais ceci est souvent suivi par la méthylation des sites CpG dans l'îlot CpG du promoteur pour provoquer l'extinction stable du gène.

Promoteur CpG hyper/hypométhylation dans le cancer

Dans les cancers, la perte d'expression des gènes se produit environ 10 fois plus fréquemment par hyperméthylation des îlots CpG promoteurs que par mutations. Par exemple, dans un cancer colorectal, il y a généralement environ 3 à 6 mutations du conducteur et 33 à 66 mutations de l' auto - stoppeur ou du passager. En revanche, dans une étude sur les tumeurs du côlon par rapport à la muqueuse colique adjacente d'apparence normale, 1 734 îlots CpG étaient fortement méthylés dans les tumeurs alors que ces îlots CpG n'étaient pas méthylés dans la muqueuse adjacente. La moitié des îlots CpG se trouvaient dans des promoteurs de gènes codant pour des protéines annotées, ce qui suggère qu'environ 867 gènes dans une tumeur du côlon ont perdu leur expression en raison de la méthylation des îlots CpG. Une étude distincte a trouvé une moyenne de 1 549 régions différemment méthylées (hyperméthylées ou hypométhylées) dans les génomes de six cancers du côlon (par rapport à la muqueuse adjacente), dont 629 se trouvaient dans des régions promotrices connues de gènes. Une troisième étude a trouvé plus de 2 000 gènes méthylés de manière différentielle entre les cancers du côlon et la muqueuse adjacente. En utilisant l' analyse d' enrichissement de l'ensemble de gènes , 569 des 938 ensembles de gènes étaient hyperméthylés et 369 étaient hypométhylés dans les cancers. L'hypométhylation des îlots CpG dans les promoteurs entraîne une surexpression des gènes ou des ensembles de gènes affectés.

Une étude de 2012 a répertorié 147 gènes spécifiques avec des promoteurs hyperméthylés associés au cancer du côlon, ainsi que la fréquence à laquelle ces hyperméthylations ont été trouvées dans les cancers du côlon. Au moins 10 de ces gènes avaient des promoteurs hyperméthylés dans près de 100 % des cancers du côlon. Ils ont également indiqué 11 microARN dont les promoteurs étaient hyperméthylés dans les cancers du côlon à des fréquences comprises entre 50 % et 100 % des cancers. Les microARN (miARN) sont de petits ARN endogènes qui s'apparient à des séquences d' ARN messagers pour diriger la répression post-transcriptionnelle. En moyenne, chaque microARN réprime plusieurs centaines de gènes cibles. Ainsi, les microARN avec des promoteurs hyperméthylés peuvent permettre la surexpression de centaines à des milliers de gènes dans un cancer.

Les informations ci-dessus montrent que, dans les cancers, l'hyper/hypométhylation du promoteur CpG des gènes et des microARN provoque une perte d'expression (ou parfois une expression accrue) de bien plus de gènes que la mutation.

Gènes de réparation de l'ADN avec des promoteurs hyper/hypométhylés dans les cancers

Les gènes de réparation de l'ADN sont fréquemment réprimés dans les cancers en raison de l'hyperméthylation des îlots CpG au sein de leurs promoteurs. Dans les carcinomes épidermoïdes de la tête et du cou, au moins 15 gènes de réparation de l'ADN ont fréquemment des promoteurs hyperméthylés ; ces gènes sont XRCC1, MLH3, PMS1, RAD51B, XRCC3, RAD54B, BRCA1, SHFM1, GEN1, FANCE, FAAP20, SPRTN, SETMAR, HUS1 et PER1 . Environ dix-sept types de cancer sont fréquemment déficients en un ou plusieurs gènes de réparation de l'ADN en raison de l'hyperméthylation de leurs promoteurs. À titre d'exemple, l'hyperméthylation du promoteur du gène de réparation de l'ADN MGMT se produit dans 93% des cancers de la vessie, 88% des cancers de l'estomac, 74% des cancers de la thyroïde, 40%-90% des cancers colorectaux et 50% des cancers du cerveau. L'hyperméthylation du promoteur de LIG4 se produit dans 82 % des cancers colorectaux. L'hyperméthylation du promoteur de NEIL1 se produit dans 62 % des cancers de la tête et du cou et dans 42 % des cancers du poumon non à petites cellules . L'hyperméthylation du promoteur de l' ATM se produit dans 47 % des cancers du poumon non à petites cellules . L'hyperméthylation du promoteur de MLH1 se produit dans 48 % des carcinomes épidermoïdes du cancer du poumon non à petites cellules. L'hyperméthylation du promoteur de FANCB se produit dans 46 % des cancers de la tête et du cou .

D'autre part, les promoteurs de deux gènes, PARP1 et FEN1 , étaient hypométhylés et ces gènes étaient surexprimés dans de nombreux cancers. PARP1 et FEN1 sont des gènes essentiels dans la jonction des extrémités médiée par la microhomologie de la voie de réparation de l'ADN sujette aux erreurs et mutagène . Si cette voie est surexprimée, les mutations en excès qu'elle provoque peuvent conduire au cancer. PARP1 est surexprimé dans les leucémies activées par la tyrosine kinase, dans le neuroblastome, dans les tumeurs des testicules et autres cellules germinales, et dans le sarcome d'Ewing, FEN1 est surexprimé dans la majorité des cancers du sein, de la prostate, de l'estomac, des neuroblastomes, du pancréas, et poumon.

Les dommages à l'ADN semblent être la principale cause sous-jacente du cancer. Si la réparation précise de l'ADN est déficiente, les dommages à l'ADN ont tendance à s'accumuler. De tels dommages excessifs à l'ADN peuvent augmenter les erreurs de mutation lors de la réplication de l'ADN en raison d'une synthèse de translésion sujette aux erreurs . Des dommages excessifs à l'ADN peuvent également augmenter les altérations épigénétiques dues à des erreurs lors de la réparation de l'ADN. De telles mutations et altérations épigénétiques peuvent provoquer un cancer (voir Tumeurs malignes ). Ainsi, l'hyper/hypométhylation des îlots CpG dans les promoteurs des gènes de réparation de l'ADN est probablement au cœur de la progression vers le cancer.

Méthylation des sites CpG avec l'âge

Étant donné que l'âge a un effet important sur les niveaux de méthylation de l'ADN sur des dizaines de milliers de sites CpG, on peut définir une horloge biologique très précise (appelée horloge épigénétique ou âge de méthylation de l'ADN ) chez les humains et les chimpanzés.

Sites non méthylés

Les sites de dinucléotides CpG non méthylés peuvent être détectés par le récepteur de type Toll 9 ( TLR 9 ) sur les cellules dendritiques plasmacytoïdes , les monocytes, les cellules tueuses naturelles (NK) et les cellules B chez l'homme. Ceci est utilisé pour détecter une infection virale intracellulaire.

Rôle des sites CpG dans la mémoire

Chez les mammifères, les ADN méthyltransférases (qui ajoutent des groupes méthyle aux bases d'ADN) présentent une préférence de séquence pour les cytosines dans les sites CpG. Dans le cerveau de souris, 4,2% de toutes les cytosines sont méthylées, principalement dans le contexte des sites CpG, formant 5mCpG. La plupart des sites 5mCpG hyperméthylés augmentent la répression des gènes associés.

Comme examiné par Duke et al., la méthylation de l'ADN des neurones (répression de l'expression de gènes particuliers) est altérée par l'activité neuronale. La méthylation de l'ADN des neurones est nécessaire à la plasticité synaptique ; est modifié par les expériences ; et la méthylation et la déméthylation actives de l'ADN sont nécessaires pour la formation et le maintien de la mémoire.

En 2016, Halder et al. en utilisant des souris, et en 2017, Duke et al. en utilisant des rats, ont soumis les rongeurs à un conditionnement de peur contextuel , provoquant la formation d'une mémoire à long terme particulièrement forte . 24 heures après le conditionnement, dans la région cérébrale de l' hippocampe des rats, l'expression de 1 048 gènes était régulée à la baisse (généralement associée à 5mCpG dans les promoteurs de gènes ) et l'expression de 564 gènes était régulée à la hausse (souvent associée à une hypométhylation de CpG sites dans les promoteurs de gènes). 24 heures après l'entraînement, 9,2 % des gènes du génome du rat des neurones de l' hippocampe étaient méthylés de manière différentielle. Cependant, bien que l'hippocampe soit essentiel pour apprendre de nouvelles informations, il ne stocke pas lui-même les informations. Dans les expériences de souris de Halder, 1 206 gènes différentiellement méthylés ont été observés dans l'hippocampe une heure après le conditionnement contextuel de la peur, mais ces méthylations modifiées ont été inversées et n'ont pas été observées après quatre semaines. Contrairement à l'absence de modifications à long terme de la méthylation des CpG dans l'hippocampe, une méthylation différentielle substantielle des CpG a pu être détectée dans les neurones corticaux pendant le maintien de la mémoire. Il y avait 1 223 gènes différentiellement méthylés dans le cortex cingulaire antérieur de souris quatre semaines après le conditionnement contextuel de la peur.

La déméthylation sur les sites CpG nécessite une activité ROS

Initiation de la déméthylation de l' ADN sur un site CpG.

Dans les cellules somatiques adultes, la méthylation de l'ADN se produit généralement dans le contexte des dinucléotides CpG ( sites CpG ), formant la 5-méthylcytosine -pG, ou 5mCpG. Les espèces réactives de l'oxygène (ROS) peuvent attaquer la guanine au niveau du site dinucléotidique, formant la 8-hydroxy-2'-désoxyguanosine (8-OHdG) et résultant en un site dinucléotidique 5mCp-8-OHdG. L' enzyme de réparation par excision de base OGG1 cible la 8-OHdG et se lie à la lésion sans excision immédiate. OGG1, présent sur un site 5mCp-8-OHdG recrute TET1 et TET1 oxyde le 5mC adjacent au 8-OHdG. Cela initie la déméthylation de 5mC.

Déméthylation de la 5-méthylcytosine (5mC) dans l'ADN des neurones.

Comme examiné en 2018, dans les neurones du cerveau, 5mC est oxydé par la famille de dioxygénases dix-onze translocation (TET) ( TET1 , TET2 , TET3 ) pour générer de la 5-hydroxyméthylcytosine (5hmC). Au cours des étapes successives, les enzymes TET hydroxylent encore 5hmC pour générer de la 5-formylcytosine (5fC) et de la 5-carboxylcytosine (5caC). La thymine-ADN glycosylase (TDG) reconnaît les bases intermédiaires 5fC et 5caC et excise la liaison glycosidique résultant en un site apyrimidinique ( site AP ). Dans une voie alternative de désamination oxydative, le 5hmC peut être désaminé par oxydation par les désamines du complexe d'édition d'ARNm de la cytidine désaminase/apolipoprotéine B (AID/APOBEC) induites par l'activité pour former le 5-hydroxyméthyluracile (5hmU) ou le 5mC peut être converti en thymine (Thy). 5hmU peut être clivé par le TDG, l'uracil-ADN glycosylase 1 monofonctionnelle sélective à brin unique ( SMUG1 ), Nei-Like DNA Glycosylase 1 ( NEIL1 ) ou la protéine de liaison méthyl-CpG 4 ( MBD4 ). Les sites AP et les mésappariements T:G sont ensuite réparés par des enzymes de réparation par excision de base (BER) pour produire de la cytosine (Cyt).

Deux revues résument le grand nombre de preuves du rôle critique et essentiel des ROS dans la formation de la mémoire . La déméthylation de l' ADN de milliers de sites CpG pendant la formation de la mémoire dépend de l'initiation par les ROS. En 2016, Zhou et al., ont montré que les ROS ont un rôle central dans la déméthylation de l'ADN .

TET1 est une enzyme clé impliquée dans la déméthylation du 5mCpG. Cependant, TET1 n'est capable d'agir sur 5mCpG que si un ROS a d'abord agi sur la guanine pour former la 8-hydroxy-2'-désoxyguanosine (8-OHdG), résultant en un dinucléotide 5mCp-8-OHdG (voir la première figure dans ce section). Après formation de 5mCp-8-OHdG, l' enzyme de réparation par excision de base OGG1 se lie à la lésion 8-OHdG sans excision immédiate. L'adhésion d'OGG1 au site 5mCp-8-OHdG recrute TET1 , permettant à TET1 d'oxyder le 5mC adjacent à 8-OHdG, comme le montre la première figure de cette section. Cela initie la voie de déméthylation illustrée dans la deuxième figure de cette section.

L'expression modifiée des protéines dans les neurones, contrôlée par la déméthylation dépendante des ROS des sites CpG dans les promoteurs de gènes au sein de l'ADN des neurones, est essentielle à la formation de la mémoire.

Perte de CPG

L'épuisement des CPG a été observé dans le processus de méthylation de l'ADN des éléments transposables (TE) où les TE sont non seulement responsables de l'expansion du génome mais également de la perte de CpG dans un ADN hôte. Les TE peuvent être appelés "centres de méthylation" par lesquels le processus de méthylation, les TE se propagent dans l'ADN flanquant une fois dans l'ADN hôte. Cet étalement pourrait par la suite entraîner une perte de CPG au cours du temps évolutif. Les périodes évolutives plus anciennes montrent une perte de CpG plus élevée dans l'ADN flanquant, par rapport aux périodes évolutives plus jeunes. Par conséquent, la méthylation de l'ADN peut éventuellement conduire à la perte notable de sites CpG dans l'ADN voisin.

La taille du génome et le rapport CPG sont négativement corrélés

La méthylation des CpG contribue à l'expansion du génome et par conséquent à l'épuisement des CpG. Cette image montre un génome sans TE et des sites CpG non méthylés, et l'insertion et la transposition d'un TE conduisent à la méthylation et à l'extinction du TE. Grâce au processus de méthylation du CpG, une diminution du CpG est constatée.

Des études antérieures ont confirmé la variété des tailles des génomes des espèces, où les invertébrés et les vertébrés ont des génomes petits et grands par rapport aux humains. La taille du génome est fortement liée au nombre d'éléments transposables. Cependant, il existe une corrélation entre le nombre de méthylation des TE et la quantité de CPG. Cette corrélation négative provoque par conséquent un épuisement du CPG en raison de la méthylation de l'ADN intergénique qui est principalement attribuée à la méthylation des TE. Dans l'ensemble, cela contribue à une quantité notable de perte de CPG dans différentes espèces de génomes.

Éléments Alu comme promoteurs de la perte de CPG

Les éléments Alu sont connus comme le type le plus abondant d'éléments transposables. Certaines études ont utilisé des éléments Alu comme moyen d'étudier l'idée du facteur responsable de l'expansion du génome. Les éléments Alu sont riches en CPG dans une séquence plus longue, contrairement aux LINEs et aux ERV. Alus peut fonctionner comme un centre de méthylation, et l'insertion dans un ADN hôte peut produire une méthylation de l'ADN et provoquer une propagation dans la zone d'ADN flanquante. Cette propagation est la raison pour laquelle il y a une perte considérable de CPG et une augmentation considérable de l'expansion du génome. Cependant, c'est un résultat qui est analysé au fil du temps car les éléments Alus plus anciens montrent plus de perte de CPG dans les sites d'ADN voisins par rapport aux plus jeunes.

Voir également

Les références