Séquence d'acide nucléique -Nucleic acid sequence

Nucleic acid primary structure Nucleic acid secondary structure Nucleic acid tertiary structure Nucleic acid quaternary structure
L'image ci-dessus contient des liens cliquables
Image interactive de la structure de l'acide nucléique (primaire, secondaire, tertiaire et quaternaire) à l'aide d'hélices d'ADN et d'exemples du ribozyme VS , de la télomérase et du nucléosome . ( APB : ADNA , 1BNA , 4OCB , 4R4V , 1YMO , 1EQZ )

Une séquence d'acide nucléique est une succession de bases signifiées par une série d'un ensemble de cinq lettres différentes qui indiquent l'ordre des nucléotides formant des allèles au sein d'une molécule d'ADN (en utilisant GACT) ou d'ARN (GACU). Par convention, les séquences sont généralement présentées de l' extrémité 5' à l'extrémité 3' . Pour l'ADN, le brin sens est utilisé. Étant donné que les acides nucléiques sont normalement des polymères linéaires (non ramifiés) , spécifier la séquence équivaut à définir la structure covalente de la molécule entière. Pour cette raison, la séquence d'acide nucléique est également appelée structure primaire .

La séquence a la capacité de représenter l'information . L'acide désoxyribonucléique biologique représente l'information qui oriente les fonctions d'un organisme .

Les acides nucléiques ont également une structure secondaire et une structure tertiaire . La structure primaire est parfois appelée à tort séquence primaire . A l'inverse, il n'y a pas de concept parallèle de séquence secondaire ou tertiaire.

Nucléotides

Structure chimique de l'ARN
Une série de codons dans une partie d'une molécule d'ARNm . Chaque codon est constitué de trois nucléotides , représentant généralement un seul acide aminé .

Les acides nucléiques consistent en une chaîne d'unités liées appelées nucléotides. Chaque nucléotide est constitué de trois sous-unités : un groupe phosphate et un sucre ( ribose dans le cas de l'ARN , désoxyribose dans l'ADN ) constituent le squelette du brin d'acide nucléique, et attaché au sucre fait partie d'un ensemble de nucléobases . Les nucléobases sont importantes dans l'appariement des bases des brins pour former des structures secondaires et tertiaires de niveau supérieur telles que la célèbre double hélice .

Les lettres possibles sont A , C , G et T , représentant les quatre bases nucléotidiques d'un brin d'ADN - adénine , cytosine , guanine , thymine - liées de manière covalente à un squelette phosphodiester . Dans le cas typique, les séquences sont imprimées aboutées sans espace, comme dans la séquence AAAGTCTGAC, lue de gauche à droite dans le sens 5' vers 3' . En ce qui concerne la transcription , une séquence est sur le brin codant si elle a le même ordre que l'ARN transcrit.

Une séquence peut être complémentaire d'une autre séquence, ce qui signifie qu'elles ont la base sur chaque position dans le complémentaire (c'est-à-dire, A à T, C à G) et dans l'ordre inverse. Par exemple, la séquence complémentaire de TTAC est GTAA. Si un brin de l'ADN double brin est considéré comme le brin sens, alors l'autre brin, considéré comme le brin antisens, aura la séquence complémentaire du brin sens.

Notation

Comparer et déterminer le % de différence entre deux séquences de nucléotides.

  • AA T CC GC ÉTIQUETTE
  • AA A CC CT ÉTIQUETTE
  • Étant donné les deux séquences de 10 nucléotides, alignez-les et comparez les différences entre elles. Calculez le pourcentage de similarité en prenant le nombre de bases d'ADN différentes divisé par le nombre total de nucléotides. Dans le cas ci-dessus, il existe trois différences dans la séquence de 10 nucléotides. Par conséquent, divisez 7/10 pour obtenir la similarité de 70 % et soustrayez-la de 100 % pour obtenir une différence de 30 %.

Alors que A, T, C et G représentent un nucléotide particulier à une position, il existe également des lettres qui représentent l'ambiguïté qui sont utilisées lorsque plus d'un type de nucléotide peut se produire à cette position. Les règles de l'Union internationale de chimie pure et appliquée ( IUPAC ) sont les suivantes :

Symbole Description Bases représentées Complément
UN Une denine UN 1 J
C Cytosine _ C g
g G uanine g C
J Thymine _ J UN
tu Uracil _ tu UN
O Faible _ UN J 2 O
S Fort _ C g S
M un Mino _ UN C K
K Keto _ g J M
R pu R ine UN g Oui
Oui p Y rimidine C J R
B pas A ( B vient après A) C g J 3 V
D pas C ( D vient après C) UN g J H
H pas G ( H vient après G) UN C J D
V pas T ( V vient après T et U) UN C g B
N n'importe quel nucléotide (pas une lacune) UN C g J 4 N
Z Zéro _ 0 Z

Ces symboles sont également valables pour l'ARN, sauf avec U (uracile) remplaçant T (thymine).

Outre l'adénine (A), la cytosine (C), la guanine (G), la thymine (T) et l'uracile (U), l'ADN et l'ARN contiennent également des bases qui ont été modifiées après la formation de la chaîne d'acide nucléique. Dans l'ADN, la base modifiée la plus courante est la 5-méthylcytidine (m5C). Dans l'ARN, il existe de nombreuses bases modifiées, notamment la pseudouridine (Ψ), la dihydrouridine (D), l'inosine (I), la ribothymidine (rT) et la 7-méthylguanosine (m7G). L'hypoxanthine et la xanthine sont deux des nombreuses bases créées par la présence de mutagènes , toutes deux par désamination (remplacement du groupe amine par un groupe carbonyle). L'hypoxanthine est produite à partir de l'adénine , et la xanthine est produite à partir de la guanine . De même, la désamination de la cytosine donne de l'uracile .

Importance biologique

Représentation du code génétique , par lequel les informations contenues dans les acides nucléiques sont traduites en séquences d'acides aminés dans les protéines .

Dans les systèmes biologiques, les acides nucléiques contiennent des informations qui sont utilisées par une cellule vivante pour construire des protéines spécifiques . La séquence de nucléobases sur un brin d'acide nucléique est traduite par la machinerie cellulaire en une séquence d' acides aminés constituant un brin protéique. Chaque groupe de trois bases, appelé codon , correspond à un seul acide aminé, et il existe un code génétique spécifique par lequel chaque combinaison possible de trois bases correspond à un acide aminé spécifique.

Le dogme central de la biologie moléculaire décrit le mécanisme par lequel les protéines sont construites en utilisant les informations contenues dans les acides nucléiques. L'ADN est transcrit en molécules d'ARNm , qui se déplacent vers le ribosome où l'ARNm est utilisé comme matrice pour la construction du brin protéique. Puisque les acides nucléiques peuvent se lier à des molécules avec des séquences complémentaires , il y a une distinction entre les séquences " sens " qui codent pour les protéines, et la séquence "antisens" complémentaire, qui est en elle-même non fonctionnelle, mais peut se lier au brin sens.

Détermination de la séquence

Impression d'électrophérogramme à partir d'un séquenceur automatisé pour déterminer une partie d'une séquence d'ADN

Le séquençage de l'ADN est le processus de détermination de la séquence nucléotidique d'un fragment d'ADN donné . La séquence de l'ADN d'un être vivant code les informations nécessaires pour que cet être vivant survive et se reproduise. Par conséquent, la détermination de la séquence est utile dans la recherche fondamentale sur pourquoi et comment les organismes vivent, ainsi que dans les sujets appliqués. En raison de l'importance de l'ADN pour les êtres vivants, la connaissance d'une séquence d'ADN peut être utile dans pratiquement toutes les recherches biologiques . Par exemple, en médecine , il peut être utilisé pour identifier, diagnostiquer et potentiellement développer des traitements pour les maladies génétiques . De même, la recherche sur les agents pathogènes peut conduire à des traitements pour les maladies contagieuses. La biotechnologie est une discipline en plein essor, avec le potentiel de nombreux produits et services utiles.

L'ARN n'est pas séquencé directement. Au lieu de cela, il est copié sur un ADN par la transcriptase inverse , et cet ADN est ensuite séquencé.

Les méthodes de séquençage actuelles reposent sur la capacité discriminatoire des ADN polymérases et ne peuvent donc distinguer que quatre bases. Une inosine (créée à partir d'adénosine lors de l'édition de l'ARN ) est lue comme un G, et la 5-méthyl-cytosine (créée à partir de la cytosine par méthylation de l'ADN ) est lue comme un C. Avec la technologie actuelle, il est difficile de séquencer de petites quantités d'ADN, car le signal est trop faible pour être mesuré. Ceci est surmonté par l'amplification par réaction en chaîne par polymérase (PCR).

Représentation numérique

Séquence génétique au format numérique.

Une fois qu'une séquence d'acide nucléique a été obtenue à partir d'un organisme, elle est stockée in silico au format numérique. Les séquences génétiques numériques peuvent être stockées dans des bases de données de séquences , être analysées (voir Analyse des séquences ci-dessous), être modifiées numériquement et utilisées comme modèles pour créer un nouvel ADN réel à l'aide de la synthèse de gènes artificiels .

Analyse de séquence

Les séquences génétiques numériques peuvent être analysées à l'aide des outils de la bioinformatique pour tenter de déterminer sa fonction.

Test génétique

L'ADN du génome d'un organisme peut être analysé pour diagnostiquer les vulnérabilités aux maladies héréditaires et peut également être utilisé pour déterminer la paternité d'un enfant (père génétique) ou l'ascendance d'une personne . Normalement, chaque personne porte deux variantes de chaque gène , l'une héritée de sa mère, l'autre héritée de son père. On pense que le génome humain contient environ 20 000 à 25 000 gènes. En plus d'étudier les chromosomes au niveau des gènes individuels, les tests génétiques au sens large comprennent des tests biochimiques pour la présence éventuelle de maladies génétiques ou de formes mutantes de gènes associées à un risque accru de développer des troubles génétiques.

Les tests génétiques identifient les changements dans les chromosomes, les gènes ou les protéines. Habituellement, les tests sont utilisés pour trouver les changements associés aux troubles héréditaires. Les résultats d'un test génétique peuvent confirmer ou infirmer une condition génétique suspectée ou aider à déterminer le risque qu'une personne développe ou transmette une maladie génétique. Plusieurs centaines de tests génétiques sont actuellement utilisés et d'autres sont en cours de développement.

Alignement de séquence

En bioinformatique, un alignement de séquences est un moyen d'arranger les séquences d' ADN , d'ARN ou de protéines pour identifier les régions de similarité qui peuvent être dues à des relations fonctionnelles, structurelles ou évolutives entre les séquences. Si deux séquences d'un alignement partagent un ancêtre commun, les mésappariements peuvent être interprétés comme des mutations ponctuelles et les lacunes comme des mutations d'insertion ou de suppression ( indels ) introduites dans une ou les deux lignées dans le temps depuis qu'elles ont divergé l'une de l'autre. Dans les alignements de séquences de protéines, le degré de similitude entre les acides aminés occupant une position particulière dans la séquence peut être interprété comme une mesure approximative de la façon dont une région ou un motif de séquence particulier est conservé parmi les lignées. L'absence de substitutions, ou la présence uniquement de substitutions très conservatrices (c'est-à-dire la substitution d'acides aminés dont les chaînes latérales ont des propriétés biochimiques similaires) dans une région particulière de la séquence, suggèrent que cette région a une importance structurelle ou fonctionnelle. Bien que les bases nucléotidiques de l'ADN et de l'ARN soient plus similaires les unes aux autres que les acides aminés, la conservation des paires de bases peut indiquer un rôle fonctionnel ou structurel similaire.

La phylogénétique computationnelle utilise largement les alignements de séquences dans la construction et l'interprétation des arbres phylogénétiques , qui sont utilisés pour classer les relations évolutives entre les gènes homologues représentés dans les génomes d'espèces divergentes. Le degré de différence entre les séquences d'un ensemble de requêtes est qualitativement lié à la distance évolutive des séquences les unes par rapport aux autres. En gros, une identité de séquence élevée suggère que les séquences en question ont un ancêtre commun le plus récent relativement jeune , tandis qu'une faible identité suggère que la divergence est plus ancienne. Cette approximation, qui reflète l' hypothèse de « l'horloge moléculaire » selon laquelle un taux à peu près constant de changement évolutif peut être utilisé pour extrapoler le temps écoulé depuis la première divergence de deux gènes (c'est-à-dire le temps de coalescence ), suppose que les effets de la mutation et de la sélection sont constante à travers les lignées de séquences. Par conséquent, il ne tient pas compte des différences possibles entre les organismes ou les espèces dans les taux de réparation de l'ADN ou la conservation fonctionnelle possible de régions spécifiques dans une séquence. (Dans le cas des séquences de nucléotides, l'hypothèse de l'horloge moléculaire dans sa forme la plus élémentaire écarte également la différence de taux d'acceptation entre les mutations silencieuses qui ne modifient pas la signification d'un codon donné et d'autres mutations qui entraînent l'incorporation d'un acide aminé différent dans la protéine.) Des méthodes plus précises sur le plan statistique permettent au taux d'évolution de chaque branche de l'arbre phylogénétique de varier, produisant ainsi de meilleures estimations des temps de coalescence des gènes.

Motifs de séquence

Souvent, la structure primaire encode des motifs qui ont une importance fonctionnelle. Quelques exemples de motifs de séquence sont : les boîtes C/D et H/ACA des snoARN , le site de liaison Sm trouvé dans les ARN spliceosomal tels que U1 , U2 , U4 , U5 , U6 , U12 et U3 , la séquence Shine-Dalgarno , la séquence Kozak séquence consensus et le terminateur de l'ARN polymérase III .

Entropie de séquence

En bioinformatique , une entropie de séquence, également appelée complexité de séquence ou profil d'information, est une séquence numérique fournissant une mesure quantitative de la complexité locale d'une séquence d'ADN, indépendamment de la direction du traitement. Les manipulations des profils d'information permettent l'analyse des séquences en utilisant des techniques sans alignement, comme par exemple dans la détection de motifs et de réarrangements.

Voir également

Les références

Liens externes