Duplication de gènes - Gene duplication

La duplication de gènes (ou duplication chromosomique ou amplification de gènes ) est un mécanisme majeur par lequel un nouveau matériel génétique est généré au cours de l'évolution moléculaire . Il peut être défini comme toute duplication d'une région de l' ADN qui contient un gène . Les duplications de gènes peuvent survenir en tant que produits de plusieurs types d'erreurs dans la machinerie de réplication et de réparation de l' ADN ainsi que par capture fortuite par des éléments génétiques égoïstes. Les sources courantes de duplications de gènes comprennent la recombinaison ectopique , l' événement de rétrotransposition , l' aneuploïdie , la polyploïdie et le glissement de réplication .

Mécanismes de duplication

Recombinaison ectopique

Les duplications résultent d'un événement appelé croisement inégal qui se produit pendant la méiose entre des chromosomes homologues mal alignés. La probabilité que cela se produise est fonction du degré de partage d'éléments répétitifs entre deux chromosomes. Les produits de cette recombinaison sont une duplication au site d'échange et une délétion réciproque. La recombinaison ectopique est généralement médiée par une similarité de séquence aux points de rupture en double, qui forment des répétitions directes. Les éléments génétiques répétitifs tels que les éléments transposables offrent une source d'ADN répétitif qui peut faciliter la recombinaison, et ils se trouvent souvent aux points de rupture de duplication chez les plantes et les mammifères.

Schéma d'une région d'un chromosome avant et après un événement de duplication

Glissement de réplication

Le glissement de réplication est une erreur dans la réplication de l'ADN qui peut produire des duplications de séquences génétiques courtes. Pendant la réplication, l' ADN polymérase commence à copier l'ADN. À un certain moment au cours du processus de réplication, la polymérase se dissocie de l'ADN et la réplication se bloque. Lorsque la polymérase se rattache au brin d'ADN, elle aligne le brin de réplication sur une position incorrecte et copie incidemment la même section plus d'une fois. Le glissement de réplication est également souvent facilité par des séquences répétitives, mais ne nécessite que quelques bases de similarité.

Rétrotransposition

Les rétrotransposons , principalement L1 , peuvent occasionnellement agir sur l'ARNm cellulaire. Les transcriptions sont transcrites à l'envers en ADN et insérées à un endroit aléatoire dans le génome, créant des rétrogènes. La séquence résultante manque généralement d'introns et contient souvent des séquences poly, qui sont également intégrées dans le génome. De nombreux rétrogènes présentent des changements dans la régulation des gènes par rapport à leurs séquences de gènes parentaux, ce qui entraîne parfois de nouvelles fonctions.

Aneuploïdie

L'aneuploïdie se produit lorsque la non-disjonction au niveau d'un seul chromosome entraîne un nombre anormal de chromosomes. L'aneuploïdie est souvent nocive et chez les mammifères conduit régulièrement à des avortements spontanés (fausses couches). Certains individus aneuploïdes sont viables, par exemple la trisomie 21 chez l'homme, qui conduit au syndrome de Down . L'aneuploïdie modifie souvent le dosage des gènes de manière préjudiciable à l'organisme; par conséquent, il est peu probable qu'il se propage à travers les populations.

Polyploïdie

La polyploïdie , ou duplication du génome entier, est un produit de non- disjonction pendant la méiose qui entraîne des copies supplémentaires du génome entier. La polyploïdie est courante chez les plantes, mais elle s'est également produite chez les animaux, avec deux cycles de duplication du génome entier ( événement 2R ) dans la lignée des vertébrés menant à l'homme. Il s'est également produit dans les levures hémiascomycètes ∼ 100 mya.

Après une duplication complète du génome, il y a une période relativement courte d'instabilité du génome, une perte de gènes étendue, des niveaux élevés de substitution de nucléotides et de recâblage du réseau de régulation. De plus, les effets du dosage des gènes jouent un rôle important. Ainsi, la plupart des doublons sont perdus en peu de temps, cependant, une fraction considérable des doublons survivent. Il est intéressant de noter que les gènes impliqués dans la régulation sont préférentiellement retenus. En outre, la rétention de gènes régulateurs, notamment les gènes Hox , a conduit à une innovation adaptative.

Une évolution rapide et une divergence fonctionnelle ont été observées au niveau de la transcription de gènes dupliqués, généralement par des mutations ponctuelles dans de courts motifs de liaison aux facteurs de transcription. En outre, l'évolution rapide des motifs de phosphorylation des protéines, généralement intégrés dans des régions intrinsèquement désordonnées à évolution rapide, est un autre facteur contribuant à la survie et à l'adaptation/néofonctionnalisation rapide des gènes dupliqués. Ainsi, un lien semble exister entre la régulation des gènes (au moins au niveau post-traductionnel) et l'évolution du génome.

La polyploïdie est également une source bien connue de spéciation, car la progéniture, qui a un nombre de chromosomes différent de celui des espèces parentales, est souvent incapable de se reproduire avec des organismes non polyploïdes. On pense que les duplications du génome entier sont moins préjudiciables que l'aneuploïdie, car le dosage relatif des gènes individuels devrait être le même.

En tant qu'événement évolutif

Destin évolutif des gènes dupliqués

Taux de duplication de gènes

Les comparaisons de génomes démontrent que les duplications de gènes sont courantes chez la plupart des espèces étudiées. Ceci est indiqué par des nombres de copies variables (variation du nombre de copies) dans le génome des humains ou des mouches des fruits. Cependant, il a été difficile de mesurer le taux auquel de telles duplications se produisent. Des études récentes ont donné une première estimation directe du taux de duplication de gènes à l'échelle du génome chez C. elegans , le premier eucaryote multicellulaire pour lequel une telle estimation est devenue disponible. Le taux de duplication de gènes chez C. elegans est de l'ordre de 10 -7 duplications/gène/génération, c'est-à-dire que dans une population de 10 millions de vers, on aura une duplication de gène par génération. Ce taux est supérieur de deux ordres de grandeur au taux spontané de mutation ponctuelle par site nucléotidique chez cette espèce. Des études plus anciennes (indirectes) ont rapporté des taux de duplication spécifiques au locus chez les bactéries, la drosophile et les humains allant de 10 -3 à 10 -7 /gène/génération.

Néofonctionnalisation

Les duplications de gènes sont une source essentielle de nouveauté génétique pouvant conduire à une innovation évolutive. La duplication crée une redondance génétique, où la deuxième copie du gène est souvent exempte de pression sélective, c'est-à-dire que ses mutations n'ont aucun effet délétère sur son organisme hôte. Si une copie d'un gène subit une mutation qui affecte sa fonction d'origine, la deuxième copie peut servir de « pièce de rechange » et continuer à fonctionner correctement. Ainsi, les gènes dupliqués accumulent des mutations plus rapidement qu'un gène fonctionnel à copie unique, au fil des générations d'organismes, et il est possible que l'une des deux copies développe une fonction nouvelle et différente. Quelques exemples d'une telle néofonctionnalisation sont la mutation apparente d'un gène digestif dupliqué dans une famille de poissons des glaces en un gène antigel et la duplication conduisant à un nouveau gène de venin de serpent et à la synthèse de 1 bêta-hydroxytestostérone chez les porcs.

On pense que la duplication de gènes joue un rôle majeur dans l' évolution ; cette position est défendue par les membres de la communauté scientifique depuis plus de 100 ans. Susumu Ohno était l'un des développeurs les plus célèbres de cette théorie dans son livre classique Evolution by gene duplication (1970). Ohno a soutenu que la duplication de gènes est la force évolutive la plus importante depuis l'émergence de l' ancêtre commun universel . Les événements majeurs de duplication du génome peuvent être assez fréquents. On pense que le génome entier de la levure a subi une duplication il y a environ 100 millions d'années. Les plantes sont les duplicateurs de génomes les plus prolifiques. Par exemple, le blé est hexaploïde (une sorte de polyploïde ), ce qui signifie qu'il possède six copies de son génome.

Sous-fonctionnalisation

Un autre destin possible pour les gènes dupliqués est que les deux copies sont également libres d'accumuler des mutations dégénératives, tant que les défauts sont complétés par l'autre copie. Cela conduit à un modèle neutre de "sous-fonctionnalisation" ou DDC (duplication-dégénération-complémentation), dans lequel la fonctionnalité du gène d'origine est répartie entre les deux copies. Aucun des deux gènes ne peut être perdu, car tous deux remplissent désormais d'importantes fonctions non redondantes, mais en fin de compte, aucun des deux n'est capable d'atteindre une nouvelle fonctionnalité.

La sous-fonctionnalisation peut se produire par des processus neutres dans lesquels les mutations s'accumulent sans effets néfastes ou bénéfiques. Cependant, dans certains cas, la sous-fonctionnalisation peut se produire avec des avantages adaptatifs clairs. Si un gène ancestral est pléiotrope et remplit deux fonctions, souvent aucune de ces deux fonctions ne peut être modifiée sans affecter l'autre fonction. De cette façon, la partition des fonctions ancestrales en deux gènes distincts peut permettre une spécialisation adaptative des sous-fonctions, offrant ainsi un avantage adaptatif.

Perte

Souvent, la variation génomique qui en résulte conduit à des troubles neurologiques dépendants du dosage des gènes tels que le syndrome de Rett et la maladie de Pelizaeus-Merzbacher . De telles mutations nuisibles sont susceptibles d'être perdues de la population et ne seront pas préservées ou ne développeront pas de nouvelles fonctions. Cependant, de nombreuses duplications ne sont en fait ni nuisibles ni bénéfiques, et ces séquences neutres peuvent être perdues ou se propager dans la population par des fluctuations aléatoires par dérive génétique .

Identifier les duplications dans les génomes séquencés

Critères et analyses de génome unique

Les deux gènes qui existent après un événement de duplication de gène sont appelés paralogues et codent généralement pour des protéines ayant une fonction et/ou une structure similaire. En revanche, les gènes orthologues présents dans différentes espèces qui sont chacun à l'origine dérivés de la même séquence ancestrale. (Voir Homologie de séquences en génétique ).

Il est important (mais souvent difficile) de faire la différence entre les paralogues et les orthologues en recherche biologique. Les expériences sur la fonction des gènes humains peuvent souvent être menées sur d'autres espèces si un homologue d'un gène humain peut être trouvé dans le génome de cette espèce, mais seulement si l'homologue est orthologue. S'ils sont des paralogues et résultent d'un événement de duplication de gènes, leurs fonctions sont probablement trop différentes. Une ou plusieurs copies de gènes dupliqués qui constituent une famille de gènes peuvent être affectées par l'insertion d' éléments transposables qui provoquent des variations importantes entre eux dans leur séquence et peuvent finalement devenir responsables d' évolutions divergentes . Cela peut également rendre les chances et le taux de conversion génique entre les homologues de doublons de gènes dus à moins ou pas de similitude dans leurs séquences.

Les paralogues peuvent être identifiés dans des génomes uniques grâce à une comparaison de séquences de tous les modèles de gènes annotés les uns par rapport aux autres. Une telle comparaison peut être effectuée sur des séquences d'acides aminés traduites (par exemple BLASTp, tBLASTx) pour identifier des duplications anciennes ou sur des séquences de nucléotides d'ADN (par exemple BLASTn, mégablaste) pour identifier des duplications plus récentes. La plupart des études pour identifier les duplications de gènes nécessitent des meilleurs résultats réciproques ou des meilleurs résultats flous réciproques, où chaque paralogue doit être la meilleure correspondance de l'autre dans une comparaison de séquence.

La plupart des duplications de gènes existent sous forme de répétitions à faible copie (LCR), des séquences plutôt hautement répétitives comme des éléments transposables. Ils se trouvent principalement dans les régions péricentronomiques , subtélomériques et interstitielles d'un chromosome. De nombreux LCR, en raison de leur taille (> 1 Ko), de leur similitude et de leur orientation, sont très sensibles aux duplications et aux délétions.

Les puces génomiques détectent les duplications

Des technologies telles que les puces à ADN génomiques , également appelées hybridation génomique comparative de puces (array CGH), sont utilisées pour détecter des anomalies chromosomiques, telles que des microduplications, à haut débit à partir d'échantillons d'ADN génomique. En particulier, la technologie des puces à ADN peut surveiller simultanément les niveaux d' expression de milliers de gènes dans de nombreux traitements ou conditions expérimentales, facilitant grandement les études évolutives de la régulation des gènes après la duplication ou la spéciation des gènes .

Séquençage de nouvelle génération

Les duplications de gènes peuvent également être identifiées grâce à l'utilisation de plateformes de séquençage de nouvelle génération. Le moyen le plus simple d'identifier les duplications dans les données de reséquençage génomique consiste à utiliser des lectures de séquençage appariées. Les duplications en tandem sont indiquées par le séquençage de paires de lecture qui correspondent à des orientations anormales. Grâce à une combinaison d'une couverture de séquence accrue et d'une orientation de cartographie anormale, il est possible d'identifier des duplications dans les données de séquençage génomique.

Comme amplification

La duplication de gènes ne constitue pas nécessairement un changement durable dans le génome d'une espèce. En fait, de tels changements ne durent souvent pas après l'organisme hôte initial. Du point de vue de la génétique moléculaire , l'amplification génique est l'une des nombreuses façons dont un gène peut être surexprimé . L'amplification génétique peut se produire artificiellement, comme avec l'utilisation de la technique de réaction en chaîne par polymérase pour amplifier de courts brins d' ADN in vitro à l' aide d' enzymes , ou elle peut se produire naturellement, comme décrit ci-dessus. S'il s'agit d'une duplication naturelle, elle peut toujours avoir lieu dans une cellule somatique , plutôt que dans une cellule germinale (ce qui serait nécessaire pour un changement évolutif durable).

Rôle dans le cancer

Les duplications d' oncogènes sont une cause fréquente de nombreux types de cancer . Dans de tels cas, la duplication génétique se produit dans une cellule somatique et n'affecte que le génome des cellules cancéreuses elles-mêmes, pas l'organisme entier, et encore moins toute progéniture ultérieure.

Amplifications d'oncogènes courantes dans les cancers humains
Type de cancer
Amplifications de gènes associées
Prévalence de l'
amplification
dans le type de cancer
(pourcentage)
Cancer du sein MYC 20%
ERBB2 ( HER2 ) 20%
CCND1 ( Cycline D1 ) 15-20%
FGFR1 12%
FGFR2 12%
Cancer du col de l'utérus MYC 25-50%
ERBB2 20%
Cancer colorectal SIRH 30%
KRAS 20%
MYB 15-20%
Cancer de l'oesophage MYC 40%
CCND1 25%
MDM2 13%
Cancer de l'estomac CCNE ( Cycline E ) 15%
KRAS dix%
RENCONTRÉ dix%
Glioblastome ERBB1 ( EGFR ) 33-50%
CDK4 15%
Cancer de la tête et du cou CCND1 50%
ERBB1 dix%
MYC 7 à 10 %
Cancer hépatocellulaire CCND1 13%
Neuroblastome MYCN 20-25%
Cancer des ovaires MYC 20-30%
ERBB2 15-30%
AKT2 12%
Sarcome MDM2 10-30%
CDK4 dix%
Cancer du poumon à petites cellules MYC 15-20%

Voir également

Les références

Liens externes