Variation structurelle - Structural variation

La variation structurelle génomique est la variation de la structure du chromosome d'un organisme . Il se compose de nombreux types de variations dans le génome d'une espèce et comprend généralement des types microscopiques et submicroscopiques , tels que des délétions, des duplications, des variantes du nombre de copies , des insertions, des inversions et des translocations . À l'origine, une variation de structure affecte une longueur de séquence d'environ 1 Ko à 3 Mo, ce qui est plus grand que les SNP et plus petit que l'anomalie chromosomique (bien que les définitions se chevauchent un peu). Cependant, la plage opérationnelle des variantes structurelles s'est élargie pour inclure des événements > 50 pb. La définition de la variation structurelle n'implique rien sur la fréquence ou les effets phénotypiques. De nombreuses variantes structurelles sont associées à des maladies génétiques , mais beaucoup ne le sont pas. Des recherches récentes sur les SV indiquent que les SV sont plus difficiles à détecter que les SNP. Environ 13% du génome humain est défini comme une variante structurelle dans la population normale, et il existe au moins 240 gènes qui existent en tant que polymorphismes de délétion homozygote dans les populations humaines, ce qui suggère que ces gènes sont inutiles chez l'homme. L'accumulation rapide de preuves indique que les variations structurelles peuvent comprendre des millions de nucléotides d'hétérogénéité au sein de chaque génome, et sont susceptibles d'apporter une contribution importante à la diversité humaine et à la susceptibilité aux maladies.

Variation structurelle microscopique

Microscopique signifie qu'il peut être détecté avec des microscopes optiques , tels que les aneuploïdies , les chromosomes marqueurs , les réarrangements bruts et la variation de la taille des chromosomes. On pense que la fréquence dans la population humaine est sous-estimée en raison du fait que certains d'entre eux ne sont pas réellement faciles à identifier. Ces anomalies structurelles existent dans 1 sur 375 naissances vivantes selon des informations putatives.

Variation structurelle sous-microscopique

Les variantes structurelles submicroscopiques sont beaucoup plus difficiles à détecter en raison de leur petite taille. La première étude en 2004 qui a utilisé des puces à ADN a pu détecter des dizaines de loci génétiques qui présentaient une variation du nombre de copies , des délétions et des duplications , supérieures à 100 kilobases dans le génome humain. Cependant, d'ici 2015, les études de séquençage du génome entier pourraient détecter environ 5 000 variantes structurelles aussi petites que 100 paires de bases englobant environ 20 mégabases dans chaque génome individuel. Ces variantes structurelles comprennent les suppressions, les duplications en tandem, les inversions , les insertions d'éléments mobiles . Le taux de mutation est également beaucoup plus élevé que les variants structurels microscopiques, estimés par deux études à 16 % et 20 % respectivement, qui sont probablement tous deux sous-estimés en raison des difficultés de détection précise des variants structurels. Il a également été démontré que la génération de variantes structurelles spontanées augmente considérablement la probabilité de générer d'autres variantes ou indels spontanés d'un seul nucléotide dans les 100 kilobases de l'événement de variation structurelle.

Variation du nombre de copies

La variation du nombre de copies (CNV) est une grande catégorie de variation structurelle, qui comprend les insertions , les suppressions et les duplications . Dans des études récentes, les variations du nombre de copies sont testées sur des personnes qui n'ont pas de maladies génétiques, en utilisant des méthodes utilisées pour le génotypage quantitatif des SNP. Les résultats montrent que 28% des régions suspectes chez les individus contiennent en fait des variations du nombre de copies. En outre, les CNV dans le génome humain affectent plus de nucléotides que le polymorphisme nucléotidique unique (SNP). Il convient également de noter que de nombreux CNV ne se trouvent pas dans des régions de codage. Étant donné que les CNV sont généralement causées par une recombinaison inégale , des séquences similaires répandues telles que les LIGNES et les SINE peuvent être un mécanisme courant de création de CNV.

Inversion

Il existe plusieurs inversions connues qui sont liées à la maladie humaine. Par exemple, une inversion récurrente de 400 kb dans le gène du facteur VIII est une cause fréquente d' hémophilie A , et des inversions plus petites affectant l' idunorate 2-sulfatase (IDS) provoqueront le syndrome de Hunter . D'autres exemples incluent le syndrome d'Angelman et le syndrome de Sotos . Cependant, des recherches récentes montrent qu'une personne peut avoir 56 inversions putatives, donc les inversions non liées à la maladie sont plus courantes qu'on ne le supposait auparavant. De plus, dans cette étude, il est indiqué que les points de rupture d'inversion sont généralement associés à des duplications segmentaires. Une inversion de 900 kb dans le chromosome 17 est sous sélection positive et devrait augmenter sa fréquence dans la population européenne.

Autres variantes structurelles

Des variantes structurelles plus complexes peuvent survenir, notamment une combinaison de ce qui précède dans un seul événement. Le type le plus courant de variation structurelle complexe sont les duplications non-tandem, où la séquence est dupliquée et insérée en orientation inversée ou directe dans une autre partie du génome. D'autres classes de variante structurelle complexe comprennent les suppressions-inversions-délétions, les duplications-inversions-duplications et les duplications en tandem avec suppressions imbriquées. Il existe également des translocations cryptiques et une disomie uniparentale segmentaire (UPD). Il y a de plus en plus de rapports sur ces variations, mais elles sont plus difficiles à détecter que les variations traditionnelles car ces variantes sont équilibrées et les méthodes basées sur les matrices ou la PCR ne sont pas en mesure de les localiser.

Variation structurelle et phénotypes

Certaines maladies génétiques sont soupçonnées d'être causées par des variations structurelles, mais la relation n'est pas très certaine. Il n'est pas plausible de diviser ces variantes en deux classes comme "normales" ou "maladie", car la sortie réelle de la même variante variera également. En outre, quelques-unes des variantes sont en fait sélectionnées positivement pour (mentionné ci-dessus). Une série d'études a montré que les CNV spontanées ( de novo ) perturbant les gènes perturbent les gènes environ quatre fois plus fréquemment chez les autistes que chez les témoins et contribuent à environ 5 à 10 % des cas. Les variantes héréditaires contribuent également à environ 5 à 10 % des cas d'autisme.

Les variations structurelles ont également leur fonction dans la génétique des populations. Une fréquence différente d'une même variation peut être utilisée comme marque génétique pour déduire une relation entre les populations dans différentes zones. Une comparaison complète entre la variation structurelle de l'homme et du chimpanzé a également suggéré que certains d'entre eux peuvent être fixés dans une espèce en raison de sa fonction adaptative. Il existe également des délétions liées à la résistance au paludisme et au SIDA . En outre, on pense que certains segments très variables sont causés par la sélection d'équilibrage, mais il existe également des études contre cette hypothèse.

Base de données de variation structurelle

Certains navigateurs génomiques et bases de données bioinformatiques ont une liste de variations structurelles du génome humain en mettant l'accent sur les CNV, et peuvent les afficher dans la page de navigation du génome, par exemple, UCSC Genome Browser . Sous la page affichant une partie du génome, il y a "Common Cell CNVs" et "Structural Var" qui peuvent être activés. Sur NCBI, il y a une page spéciale pour la variation structurelle. Dans ce système, les coordonnées « intérieures » et « extérieures » sont affichées ; ils ne sont pas tous deux des points de rupture réels, mais une plage de séquence minimale et maximale présumée affectée par la variation structurelle. Les types sont classés en insertion, perte, gain, inversion, LOH, éversé, transchr et UPD.

Méthodes de détection

Signatures et modèles de SV pour la suppression (A), l'insertion de nouvelles séquences (B), l'inversion (C) et la duplication en tandem (D) dans le nombre de lectures (RC), lecture-paire (RP), lecture fractionnée (SR), et les méthodes d'assemblage de novo (AS).

De nouvelles méthodes ont été développées pour analyser la variation structurelle génétique humaine à haute résolution. Les méthodes utilisées pour tester le génome sont soit d'une manière ciblée spécifique, soit d'une manière à l'échelle du génome. Pour les tests à l'échelle du génome, les approches d'hybridation comparative du génome basées sur des matrices apportent les meilleures analyses à l'échelle du génome pour trouver de nouvelles variantes du nombre de copies. Ces techniques utilisent des fragments d'ADN qui sont marqués à partir d'un génome d'intérêt et sont hybridés, avec un autre génome marqué différemment, à des puces repérées avec des fragments d'ADN clonés. Cela révèle les différences de nombre de copies entre deux génomes.

Pour les examens ciblés du génome, les meilleurs tests pour vérifier des zones spécifiques du génome sont principalement basés sur la PCR. La mieux établie des méthodes basées sur la PCR est la réaction en chaîne par polymérase quantitative en temps réel (qPCR). Une approche différente consiste à vérifier spécifiquement certaines zones qui entourent les duplications segmentaires connues car ce sont généralement des zones de variation du nombre de copies. Une méthode de génotypage SNP qui offre des intensités de fluorescence indépendantes pour deux allèles peut être utilisée pour cibler les nucléotides entre deux copies d'une duplication segmentaire. A partir de là, une augmentation d'intensité de l'un des allèles par rapport à l'autre peut être observée.

Avec le développement de la technologie de séquençage de nouvelle génération (NGS), quatre classes de stratégies pour la détection de variantes structurelles avec des données NGS ont été rapportées, chacune étant basée sur des modèles qui diagnostiquent différentes classes de SV.

  • Les méthodes de profondeur de lecture ou de comptage de lecture supposent une distribution aléatoire (par exemple, une distribution de Poisson ) des lectures à partir d'un séquençage de lecture courte. La divergence par rapport à cette distribution est étudiée pour découvrir des duplications et des suppressions. Les régions avec duplication afficheront une profondeur de lecture plus élevée tandis que celles avec suppression entraîneront une profondeur de lecture plus faible.
  • Les méthodes de lecture fractionnée permettent de détecter les insertions (y compris les insertions d' éléments mobiles ) et les suppressions jusqu'à la résolution d'une seule paire de bases. La présence d'un SV est identifiée à partir d'un alignement discontinu sur le génome de référence. Une lacune dans la lecture marque une suppression et dans la référence une insertion.
  • Les méthodes de lecture par paire examinent la longueur et l'orientation des lectures appariées à partir de données de séquençage de lecture courte. Par exemple, des paires de lecture plus éloignées que prévu indiquent une suppression. Les translocations, inversions et duplications en tandem peuvent également être découvertes à l'aide de read-pairs.
  • L' assemblage de séquences de novo peut être appliqué avec des lectures suffisamment précises. Alors qu'en pratique, l'utilisation de cette méthode est limitée par la longueur des lectures de séquences, les assemblages de génomes basés sur des lectures longues offrent une découverte de variation structurelle pour des classes telles que des insertions qui échappent à la détection lors de l'utilisation d'autres méthodes.

Voir également

Les références

Liens externes