Cadre de lecture ouvert - Open reading frame

Exemple de séquence montrant trois différents cadres de lecture possibles . Les codons de départ sont surlignés en violet et les codons d'arrêt sont surlignés en rouge.

En génétique moléculaire , un cadre de lecture ouvert ( ORF ) est la partie d'un cadre de lecture qui a la capacité d'être traduit . Un ORF est un tronçon continu de codons qui peut commencer par un codon de départ (généralement AUG) et se terminer par un codon d'arrêt (généralement UAA, UAG ou UGA). Un codon ATG (AUG en termes d' ARN ) dans l'ORF (pas nécessairement le premier) peut indiquer où commence la traduction. Le site de terminaison de la transcription est situé après l'ORF, au-delà du codon d'arrêt de la traduction . Si la transcription devait cesser avant le codon d'arrêt, une protéine incomplète serait produite pendant la traduction. Dans les gènes eucaryotes avec plusieurs exons , les introns sont supprimés et les exons sont ensuite réunis après transcription pour produire l' ARNm final pour la traduction des protéines. Dans le contexte de la recherche de gènes , la définition start-stop d'un ORF ne s'applique donc qu'aux ARNm épissés, et non à l'ADN génomique, car les introns peuvent contenir des codons stop et/ou provoquer des décalages entre les cadres de lecture. Une autre définition dit qu'un ORF est une séquence qui a une longueur divisible par trois et est délimitée par des codons d'arrêt. Cette définition plus générale peut également être utile dans le contexte de la transcriptomique et/ou de la métagénomique , où le codon start et/ou stop peut ne pas être présent dans les séquences obtenues. Un tel ORF correspond à des parties d'un gène plutôt qu'au gène complet.

Importance biologique

Une utilisation courante des cadres de lecture ouverts (ORF) est un élément de preuve pour aider à la prédiction des gènes . Les ORF longs sont souvent utilisés, avec d'autres preuves, pour identifier initialement des régions candidates codant pour des protéines ou des régions fonctionnelles codant pour l' ARN dans une séquence d' ADN . La présence d'un ORF ne signifie pas nécessairement que la région est toujours traduite . Par exemple, dans une séquence d'ADN générée de manière aléatoire avec un pourcentage égal de chaque nucléotide , un codon d'arrêt serait attendu une fois tous les 21 codons . Un simple algorithme de prédiction de gènes pour les procaryotes pourrait rechercher un codon de départ suivi d'un cadre de lecture ouvert suffisamment long pour coder une protéine typique, où l' utilisation du codon de cette région correspond à la fréquence caractéristique des régions codantes de l'organisme donné. Par conséquent, certains auteurs disent qu'un ORF devrait avoir une longueur minimale, par exemple 100 codons ou 150 codons. En soi, même un long cadre de lecture ouvert n'est pas une preuve concluante de la présence d'un gène . D'autre part, il a été prouvé que certains ORF courts (sORF) dépourvus des caractéristiques classiques des gènes codant pour les protéines (à la fois des ARNnc et des ARNm) peuvent produire des peptides fonctionnels. 5'-UTR d'environ 50 % des ARNm de mammifères sont connus pour contenir un ou plusieurs sORF. 64 à 75 % des sites d'initiation de la traduction trouvés expérimentalement des sORF sont conservés dans les génomes de l'homme et de la souris et peuvent indiquer que ces éléments ont une fonction. Cependant, les sORF ne se trouvent souvent que dans les formes mineures d'ARNm et évitent la sélection ; le conservatisme élevé des sites d'initiation peut être lié à leur emplacement à l'intérieur des promoteurs des gènes concernés. Ceci est caractéristique du gène SLAMF1 , par exemple.

Traduction en six images

Puisque l'ADN est interprété en groupes de trois nucléotides (codons), un brin d'ADN a trois cadres de lecture distincts. La double hélice d'une molécule d'ADN a deux brins anti-parallèles ; avec les deux brins ayant chacun trois cadres de lecture, il y a six traductions de cadres possibles.

Exemple de traduction à six images. La séquence nucléotidique est montrée au milieu avec les traductions directes ci-dessus et les traductions inverses ci-dessous. Deux cadres de lecture ouverts possibles avec les séquences sont mis en évidence.

Logiciel

Chercheur

L'ORF Finder (Open Reading Frame Finder) est un outil d'analyse graphique qui trouve tous les cadres de lecture ouverts d'une taille minimale sélectionnable dans une séquence utilisateur ou dans une séquence déjà dans la base de données. Cet outil identifie tous les cadres de lecture ouverts en utilisant les codes génétiques standards ou alternatifs. La séquence d'acides aminés déduite peut être enregistrée dans divers formats et recherchée dans la base de données de séquences à l'aide du serveur de l' outil de recherche d'alignement local de base (BLAST). L'ORF Finder devrait être utile pour préparer des soumissions de séquences complètes et précises. Il est également fourni avec le logiciel de soumission de séquence Sequin (analyseur de séquence).

Enquêteur

ORF Investigator est un programme qui fournit non seulement des informations sur les séquences codantes et non codantes, mais peut également effectuer un alignement global par paires de différentes séquences de régions de gènes/ADN. L'outil trouve efficacement les ORF pour les séquences d'acides aminés correspondantes et les convertit en leur code d'acides aminés à une seule lettre, et fournit leurs emplacements dans la séquence. L'alignement global par paires entre les séquences facilite la détection des différentes mutations, y compris le polymorphisme d'un seul nucléotide . Les algorithmes Needleman-Wunsch sont utilisés pour l'alignement des gènes. L'ORF Investigator est écrit dans le langage de programmation portable Perl et est donc disponible pour les utilisateurs de tous les systèmes d'exploitation courants.

Prédicteur

OrfPredictor est un serveur Web conçu pour identifier les régions codant pour les protéines dans les séquences dérivées de l'étiquette de séquence exprimée (EST). Pour les séquences de requête avec un hit dans BLASTX, le programme prédit les régions codantes sur la base des cadres de lecture de traduction identifiés dans les alignements BLASTX, sinon, il prédit la région codante la plus probable sur la base des signaux intrinsèques des séquences de requête. La sortie est constituée des séquences peptidiques prédites au format FASTA et d'une ligne de définition qui comprend l'ID de la requête, le cadre de lecture de la traduction et les positions des nucléotides où commence et se termine la région codante. OrfPredictor facilite l'annotation de séquences dérivées d'EST, en particulier pour les projets EST à grande échelle.

ORF Predictor utilise une combinaison des deux définitions ORF différentes mentionnées ci-dessus. Il recherche des tronçons commençant par un codon de départ et se terminant par un codon d'arrêt. Comme critère supplémentaire, il recherche un codon d'arrêt dans la région 5' non traduite (UTR ou NTR, région non traduite ).

ORFik

ORFik est un package R dans Bioconductor permettant de trouver des cadres de lecture ouverts et d'utiliser les technologies de séquençage de nouvelle génération pour la justification des ORF.

orfipy

orfipy est un outil écrit en Python/Cython pour extraire les ORF de manière extrêmement rapide et flexible. orfipy peut fonctionner avec des séquences FASTA et FASTQ simples ou compressées, et fournit plusieurs options pour affiner les recherches ORF ; ceux-ci incluent la spécification des codons de démarrage et d'arrêt, la déclaration d'ORF partiels et l'utilisation de tables de traduction personnalisées. Les résultats pourraient être enregistrés dans plusieurs formats, y compris le format BED à faible encombrement. orfipy est particulièrement plus rapide pour les données contenant plusieurs séquences FASTA plus petites telles que les assemblages de transcriptome de novo.

Voir également

Les références

Liens externes

  • Traduction et cadres de lecture ouverts
  • hORFeome V5.1 - Un outil interactif basé sur le Web pour CCSB Human ORFeome Collection
  • ORF Marker - Un outil GUI de bureau gratuit, rapide et multi-plateforme pour prédire et analyser les ORF
  • StarORF - Un outil GUI multiplateforme basé sur Java pour prédire et analyser les ORF et obtenir une séquence de complément inverse
  • ORFPredictor - Un serveur Web conçu pour la prédiction et la traduction d'ORF d'un lot de séquences EST ou d'ADNc