Variation structurelle du génome humain - Structural variation in the human genome

Variation structurelle

La variation structurelle du génome humain est définie sur le plan opérationnel comme des altérations génomiques, variant entre les individus, qui impliquent des segments d' ADN de plus de 1 kilo de base (kb) et peuvent être microscopiques ou submicroscopiques. Cette définition les distingue des variantes plus petites dont la taille est inférieure à 1 kb, telles que les délétions courtes, les insertions et les variantes à unseul nucléotide .

Les humains ont un génome incroyablement complexe et complexe qui a été façonné et modifié au fil du temps par l' évolution . Environ 99,9% de la séquence d'ADN dans le génome humain est conservée entre des individus du monde entier, mais certaines variations existent. Les polymorphismes nucléotidiques simples (SNP) sont considérés comme le plus grand contributeur à la variation génétique chez l'homme car ils sont si abondants et facilement détectables. On estime qu'il existe au moins 10 millions de SNP au sein de la population humaine, mais il existe également de nombreux autres types de variantes génétiques et elles se produisent à des échelles radicalement différentes. La variation entre les génomes de la population humaine va des polymorphismes d'un seul nucléotide à des altérations spectaculaires du caryotype humain .

La variation génétique humaine est responsable des différences phénotypiques entre les individus de la population humaine. Il existe différents types de variation génétique et il est largement étudié afin de mieux comprendre sa signification. Ces études conduisent à des découvertes associant des variants génétiques à certains phénotypes ainsi que leurs implications dans la maladie . Dans un premier temps, avant les technologies de séquençage de l'ADN , la variation était étudiée et observée exclusivement à l'échelle microscopique. A cette échelle, les seules observations des différences dans le chromosome nombre et la structure des chromosomes . Ces variantes dont la taille est d'environ 3 Mo ou plus sont considérées comme des variantes structurelles microscopiques. Cette échelle est suffisamment grande pour être visualisée à l'aide d'un microscope et comprend les aneuploïdies , les hétéromorphismes et les réarrangements chromosomiques. Lorsque le séquençage de l'ADN a été introduit, il a ouvert la porte à la découverte de variations de séquences plus petites et incroyablement plus nombreuses, y compris les SNP et les minisatellites. Cela inclut également les petites inversions, duplications, insertions et suppressions dont la taille est inférieure à 1 Ko. Dans le projet sur le génome humain, le génome humain a été séquencé avec succès, ce qui a fourni un génome humain de référence pour la comparaison de la variation génétique. Avec l'amélioration des technologies de séquençage et du génome de référence, de plus en plus de variations ont été trouvées de plusieurs tailles différentes qui étaient supérieures à 1 kb mais plus petites que les variantes microscopiques. Ces variantes dont la taille varie d'environ 1 Kb à 3 Mb sont considérées comme des variantes structurelles submicroscopiques. On pense que ces variantes structurelles récemment découvertes jouent un rôle très important dans la diversité phénotypique et la susceptibilité aux maladies.

Types de variantes structurelles

La variation structurelle est un type important de variation génétique humaine qui contribue à la diversité phénotypique. Il existe des variantes structurelles microscopiques et submicroscopiques qui incluent des délétions, des duplications et des variantes à grand nombre de copies ainsi que des insertions, des inversions et des translocations. Il s'agit de plusieurs types différents de variantes structurelles du génome humain et ils sont assez distincts les uns des autres. Une translocation est un réarrangement chromosomique , au niveau inter- ou intra-chromosomique, où une section d'un chromosome change de position mais sans changement dans l'ensemble du contenu en ADN. Une section d'ADN supérieure à 1 kb et présente en deux copies ou plus par génome haploïde, dans laquelle les différentes copies partagent plus de 90 % de la même séquence, est considérée comme des duplications segmentaires ou des répétitions à faible nombre de copies. Ce ne sont là que quelques-uns des différents types de variantes structurelles connues pour exister dans le génome humain. Un tableau visualisant ces différentes formes de variantes structurelles, ainsi que d'autres, est présenté à la figure 1.

Une inversion est une section d'ADN sur un chromosome dont l'orientation est inversée par rapport au génome de référence. De nombreuses études ont identifié les inversions, car elles se sont avérées jouer un rôle important dans de nombreuses maladies. Une étude a révélé que quarante pour cent des patients atteints d' hémophilie A présentaient une inversion génétique de facteur 8 d'une certaine région d'une taille de quatre cents ko. Le point de rupture d'inversion s'est avéré être autour d'une duplication segmentaire qui est observée dans de nombreux autres événements d'inversion.

Il est difficile de comprendre complètement comment chaque variante structurelle est créée. Il était auparavant connu que des séquences répétées sur un chromosome augmentent la probabilité de recombinaison homologue non allélique. Ces séquences répétées pourraient provoquer des délétions, des duplications, des inversions et des chromosomes à duplication inversée. Les produits de ce mécanisme à partir des séquences répétées sont représentés sur la figure 2. Une étude a été réalisée sur les groupes de gènes des récepteurs olfactifs où ils ont demandé s'il y avait une association entre le réarrangement normal de 8p et les séquences inversées répétées. Les chercheurs ont observé que le réarrangement des chromosomes était en fait causé par la recombinaison homologue dans les 8p-reps. Par conséquent, ils ont conclu que le substrat utilisé pour effectuer des réarrangements au niveau intrachromosomique sont les gènes des récepteurs olfactifs. Cette découverte a révélé le rôle des doublons inversés dans le développement de variantes structurelles. Les mécanismes et les modes de production des variantes structurelles sont importants pour mieux comprendre le développement de ce type de variantes génétiques.

Mécanisme de variation structurelle

Variation du nombre de copies

Les variants à nombre de copies sont définis comme des sections d'ADN qui existent dans un nombre de copies variable lorsqu'on le compare au génome de référence et dont la taille est supérieure à 1 kb. Cette définition est large et comprend les suppressions, les duplications et les variantes à grand nombre de copies. Si la variante du nombre de copies est présente dans 1 % ou plus de la population, elle est également considérée comme un polymorphisme du nombre de copies. Une étude sur la variation globale du nombre de copies dans le génome humain a remis en question les caractéristiques des variantes du nombre de copies dans le génome humain. On savait que la variation du nombre de copies dans le génome humain est importante, mais à ce stade, elle n'avait pas encore été entièrement comprise. La variation du génome humain lui-même est très diversifiée car il en existe de nombreux types, notamment les inversions, la duplication, les SNP et d'autres formes. Ils ont étudié les génomes de 270 individus, issus de diverses populations, pour les variantes du nombre de copies avec des technologies telles que les puces SNP. Leurs résultats ont montré que de nombreuses variantes du nombre de copies avaient des arrangements spécifiques de déséquilibre de liaison qui ont révélé la variation du nombre de copies dans toutes les différentes populations. L'étude a conclu que douze pour cent du génome contenait des CNVR. Ils se sont avérés être impliqués dans plus d'ADN dans chaque génome que les polymorphismes nucléotidiques simples. Il s'agit d'une découverte remarquable, car les polymorphismes d'un seul nucléotide sont connus pour être les plus nombreux dans le génome humain. En termes de taille, cependant, ces types de variantes structurelles se sont avérés avoir une plus grande présence dans le génome humain.

Les variantes du nombre de copies ont continué à être étudiées car plusieurs études ont continué à révéler la profondeur de leur présence et leur importance. Une étude a été menée qui a remis en cause le rôle de l'organisation des variantes de nombre de copies et s'est demandé de quel type de duplications il s'agit. On savait que la variation du nombre de copies joue un grand rôle dans de nombreuses maladies humaines, mais à l'époque, aucune étude à grande échelle de ces duplications n'avait été réalisée. Ils ont décidé de séquencer 130 points d'arrêt de 112 individus qui contenaient 119 CNV connus en effectuant un séquençage du génome entier ainsi qu'un séquençage de nouvelle génération. Ils ont constaté que les duplications en tandem comprenaient 83% des CNV tandis que 8,4% étaient des triplications, 4,2% étaient des duplications adjacentes, 2,5% étaient des translocations insertionnelles et 1,7% étaient d'autres réarrangements complexes. Les variantes du nombre de copies étaient principalement des duplications en tandem, ce qui en faisait le type de variante du nombre de copies le plus courant dans le génome humain selon les résultats de l'étude sur cette population. Il fallait davantage du côté mécaniste de la formation des variantes structurelles. Il y avait une étude qui s'est concentrée sur les mécanismes de variantes pathogènes très intéressantes et rares du nombre de copies. Les chercheurs savaient que la variation du nombre de copies est importante dans la variation structurelle du génome et contribue aux maladies génétiques humaines, mais les mécanismes réels de la plupart des nouvelles variantes du nombre de copies pathogènes n'étaient pas connus. Ils ont utilisé des technologies de séquençage pour séquencer les zones de points d'arrêt de nombreuses variantes du nombre de copies pathogènes rares, ce qui constituait l'analyse la plus importante et la plus approfondie des variantes du nombre de copies. Ils ont constaté que les caractéristiques architecturales génomiques étaient très importantes dans le génome humain et qu'elles étaient associées à environ quatre-vingt-un pour cent des points de rupture. Ils ont conclu que les duplications en tandem et les microdélétions qui sont rares et pathogènes ne se produisent pas par hasard dans le génome humain. Au lieu de cela, ils découlent de nombreuses caractéristiques architecturales génomiques différentes. C'était un résultat très intéressant dans la mesure où certaines caractéristiques architecturales du génome rendaient physiquement possible et probable le développement de certaines variantes structurales rares et pathogènes.

La variation structurelle peut être considérée comme une voie de modification du génome pour l'adaptation par l'évolution. Une étude a été menée sur l'alimentation ancestrale et l'évolution du nombre de copies du gène de l'amylase humaine. La consommation d'amidon est devenue une composante importante de l'alimentation humaine avec le développement des sociétés agricoles. L'amylase est l'enzyme qui décompose l'amidon et son nombre de copies varie. Ces observations ont conduit à se demander si les différences de consommation d'amidon entre les différentes populations créaient ou non des pressions de sélection naturelle sur l'enzyme amylase. Ils ont testé les différences d'expression de la protéine amylase dans la salive de différentes populations et comparé leur expression à leur nombre de copies dans leurs génomes respectifs. Ensuite, ils ont comparé la consommation d'amidon de différentes populations à leur nombre de copies du gène de l'amylase. Ils ont découvert qu'il y avait plus d'expression de la protéine amylase dans la salive des personnes qui avaient un nombre de copies d'amylase plus élevé dans leur génome et qu'il y avait également une association entre les groupes de personnes ayant un régime riche en amidon et un nombre de copies du gène d'amylase plus élevé. Cette étude a apporté des résultats passionnants car la variation structurelle a prouvé une implication dans l'évolution de la population humaine en augmentant son nombre de copies d'amylase au fil du temps.

Le projet 1000 génomes a réussi à produire la séquence d'ADN du génome humain. Ils ont fourni de nombreuses données de séquençage de nombreuses populations à analyser ainsi qu'un génome humain de référence pour la comparaison et les études futures. Une étude a profité de cette ressource pour remettre en question les différences de variation structurelle entre les génomes à partir des données de séquence du génome entier. On savait que les maladies humaines sont affectées par des duplications et des délétions et que l'analyse du nombre de copies est courante, mais les variantes du nombre de copies multialléliques (mCNV) n'ont pas été aussi bien étudiées. Les chercheurs ont obtenu leurs données du projet 1000 génomes et analysé 849 génomes différents d'une variété de populations qui ont été séquencés afin de trouver de grands mCNV. À partir de leur analyse, ils ont découvert que les mCNV créent la plupart des variations génétiques dans le dosage des gènes par rapport à d'autres variantes structurelles et que la variation de l'expression des gènes est créée par la diversité de dosage des gènes créés par les mCNV. L'étude a souligné la grande importance que les variantes structurelles, en particulier les mCNV, ont sur le dosage des gènes, ce qui conduit à des expressions génétiques variables et à une diversité phénotypique humaine dans la population.

Implications dans la maladie

Maladie de Charcot-Marie Tooth (CMT)

Il existe plusieurs variantes structurelles du génome humain qui ont été observées mais n'ont pas conduit à des effets phénotypiques évidents. Certains, cependant, jouent un rôle dans le dosage des gènes, ce qui pourrait conduire à des maladies génétiques ou à des phénotypes distincts. Les variantes structurelles peuvent affecter directement l'expression des gènes, comme avec les variantes du nombre de copies, ou indirectement par le biais d'effets de position. Ces effets peuvent avoir des implications importantes dans la susceptibilité à la maladie. Le premier effet de dosage génétique qui a été observé, et considéré comme une maladie autosomique dominante due à un réarrangement héréditaire de l'ADN, était la maladie de Charcot-Marie Tooth (CMT). La plupart des associations trouvées avec CMT étaient avec une duplication en tandem de 1,5 Mb en 17p11.2-p12 au niveau du gène PMP22. Le mécanisme proposé pour la variation structurelle est illustré à la figure 2. Lorsqu'un individu possède trois copies du gène normal, il en résulte le phénotype de la maladie. Si l'individu n'avait qu'une seule copie du gène PMP22, en revanche, le résultat était une neuropathie héréditaire cliniquement différente avec risque de paralysie de pression. Les différences dans le dosage des gènes ont créé des phénotypes de maladie très différents qui ont révélé le rôle important que la variation structurelle a sur le phénotype et la susceptibilité à la maladie.

Susceptibilité au VIH

Les études de variation structurelle sont devenues de plus en plus populaires en raison de la découverte de leurs rôles et effets possibles dans le génome humain. La variation du nombre de copies est un type très important de variation structurelle et a été largement étudiée. Une étude sur l'influence du gène CCL3L1 sur le VIH -1 / SIDA sensibilité testée si le nombre de copies du gène CCL3L1 avait un effet sur la sensibilité d'un individu au VIH-1 / SIDA. Ils ont échantillonné plusieurs individus et populations différentes pour leur nombre de copies CCL3L1 et l'ont comparé à leur risque d'acquisition du VIH. Ils ont constaté qu'il existe une association entre des quantités plus élevées dans le nombre de copies de CCL3L1 et la susceptibilité au VIH et au SIDA puisque les individus qui étaient plus enclins au VIH avaient un faible nombre de copies de CCL3L1. Cette différence dans le nombre de copies s'est avérée jouer un rôle potentiellement significatif dans la susceptibilité au VIH en raison de cette association. Une autre étude axée sur la pathogenèse de l'obésité humaine a testé si la variation structurelle du gène NPY4R était significative dans l'obésité. Des études avaient précédemment montré que 10q11.22 CNV avait une association avec l'obésité et que plusieurs variantes du nombre de copies étaient associées à l'obésité. Leur analyse CNV a révélé que le gène NPY4R avait une fréquence beaucoup plus élevée de perte de CNV 10q11.22 dans la population de patients. La population de contrôle, d'autre part, avait plus de gain de CNV dans la même région. Cela a conduit les chercheurs à conclure que le gène NPY4R jouait un rôle important dans la pathogenèse de l'obésité en raison de sa variation du nombre de copies. Des études impliquant la variation du nombre de copies ainsi que d'autres variantes structurelles ont apporté de nouvelles informations sur les rôles importants que jouent les variantes structurelles dans le génome humain.

Schizophrénie

Les facteurs qui contribuent au développement de la schizophrénie ont été largement étudiés. Une étude très récente a été menée sur le mécanisme et les gènes responsables du développement de la schizophrénie. Il avait été précédemment montré que la variation à un locus du CMH était associée au développement de la schizophrénie. Cette étude a révélé que l'association est causée en partie par les gènes du composant 4 du complément (C4) et implique donc que les variantes alléliques des gènes C4 contribuent au développement de la schizophrénie. Le déséquilibre de liaison a aidé les chercheurs à identifier la variante structurelle C4 d'un individu en examinant les haplotypes SNP. Les haplotypes SNP et les allèles C4 étaient liés, c'est pourquoi ils étaient en déséquilibre de liaison, ce qui signifie qu'ils se sont séparés. Une seule variante structurelle C4 était associée à de nombreux haplotypes SNP différents, mais différents haplotypes SNP étaient associés à une seule variante structurelle C4. Cela était dû au déséquilibre de liaison qui a permis aux chercheurs de déterminer facilement la variante structurelle C4 en examinant l'haplotype SNP. Leurs données suggèrent cela parce que les résultats ont montré que les variantes structurelles de C4 expriment la protéine C4A à différents niveaux et cette différence dans les expressions plus élevées de la protéine C4A était associée à des taux plus élevés de développement de la schizophrénie. Il a été démontré que les différents allèles variants structurels du même gène ont des phénotypes et une susceptibilité à la maladie différents. Ces études montrent l'étendue de l'implication et de l'importance de la variation structurelle sur le génome humain. Son importance est démontrée par sa contribution à la diversité phénotypique et à la susceptibilité aux maladies.

Directions futures

De nombreuses études ont été menées pour mieux comprendre la variation structurelle du génome humain. Il y a eu de grands progrès dans la recherche, mais sa signification n'est toujours pas entièrement comprise. Plusieurs questions restent sans réponse et demandent de nouvelles études sur le sujet. Les études actuelles ciblent généralement des zones « uniques » du génome, mais ne sont pas en mesure de détecter l'effet phénotypique des variantes structurelles dans des zones génomiques hautement répétitives, dupliquées et complexes. Il est très difficile d'étudier cela avec la technologie génomique d'aujourd'hui, mais cela pourrait changer avec le développement futur des technologies de séquençage. Afin de mieux comprendre l'effet phénotypique des variantes structurelles, de grandes bases de données de génotypes et de phénotypes d'individus doivent être créées afin de faire des associations précises. D'énormes projets tels que Deciphering Developmental Disorders, UK10K et International Standards for Cytogenomic Arrays Consortium ont déjà ouvert la voie à la création de bases de données permettant aux chercheurs de poursuivre plus facilement ces études.

En outre, il y a eu une croissance et un développement de la technologie pour créer des cellules souches pluripotentes induites avec des maladies spécifiques. Cela introduit des systèmes modèles appropriés pour recréer des variantes structurelles causant des maladies telles que des translocations, des duplications et des inversions. Les futurs progrès des technologies et les efforts déployés dans les grandes bases de données aideront à ouvrir la voie à des études de meilleure qualité et à une bien meilleure compréhension de la variation structurelle du génome humain.

Voir également


Les références