Régions de faible complexité dans les protéines - Low complexity regions in proteins

Les régions de faible complexité ( LCR ) dans les séquences protéiques, également définies dans certains contextes comme des régions à biais de composition ( CBR ), sont des régions dans les séquences protéiques qui diffèrent de la composition et de la complexité de la plupart des protéines qui sont normalement associées à la structure globulaire. Les LCR ont des propriétés différentes des régions normales en ce qui concerne la structure , la fonction et l' évolution .

Structure

On pensait à l'origine que les LCR étaient des lieurs non structurés et flexibles qui servaient à séparer les domaines structurés (et fonctionnels) de protéines complexes, mais ils sont également capables de former des structures secondaires, comme des hélices (plus souvent) et même des feuillets. Ils peuvent jouer un rôle structurel dans des protéines telles que les collagènes, la myosine, les kératines, la soie, les protéines de la paroi cellulaire. Les répétitions en tandem d'oligopeptides courts riches en glycine, proline, sérine ou thréonine sont capables de former des structures flexibles qui se lient aux ligands dans certaines conditions de pH et de température. La proline est un briseur d'hélice alpha bien connu, cependant, les répétitions d'acides aminés composées de proline peuvent former des hélices de poly-proline.

Les fonctions

Les LCR étaient à l'origine considérés comme des régions « poubelles » ou comme des lieurs neutres entre les domaines, cependant, les preuves expérimentales et informatiques indiquent de plus en plus qu'ils peuvent jouer des rôles adaptatifs et conservés importants, pertinents pour la biotechnologie, l'expression de protéines hétérologues, la médecine, ainsi que pour notre compréhension de l'évolution des protéines.

Les LCR de protéines eucaryotes ont été impliquées dans des maladies humaines, en particulier des maladies neurodégénératives, où elles ont tendance à former des amyloïdes chez l'homme et d'autres eucaryotes.

Il a été rapporté qu'ils ont des rôles adhésifs, fonctionnent dans les protéines collantes excrétées utilisées pour la capture de proies, ou ont des rôles de transducteurs de mouvement moléculaire, par exemple dans les systèmes procaryotes TonB/TolA.

Les LCR peuvent former des surfaces d'interaction avec des bicouches phospholipidiques, ou sous forme d'agrégats de charges positives pour la liaison à l'ADN, ou sous forme d'agrégats de charges négatives ou même histidine-acide pour la coordination des ions calcium, magnésium ou zinc.

Ils peuvent également jouer un rôle important dans la traduction des protéines, en tant qu'« éponges » d'ARNt, ralentissant la traduction afin de laisser le temps au repliement correct de la chaîne polypeptidique naissante. Ils peuvent même fonctionner comme des points de contrôle de décalage de cadre, en passant à une teneur inhabituelle en acides aminés qui rend la protéine très instable ou insoluble, ce qui à son tour déclenche un recyclage rapide, avant tout autre dommage cellulaire.

Des analyses sur des protéomes eucaryotes modèles et non modèles ont révélé que les LCR sont fréquemment trouvées dans les protéines impliquées dans la liaison des acides nucléiques (ADN ou ARN), dans la transcription, l'activité des récepteurs, le développement, la reproduction et l'immunité alors que les protéines métaboliques sont appauvries en LCR. Une étude bioinformatique de l'annotation Uniprot des protéines contenant des LCR a observé que 44% (9751/22259) des LCR bactériens et 44% (662/1521) des LCR archéologiques sont détectés dans des protéines de fonction inconnue, cependant, un nombre important de protéines de fonction (de nombreuses espèces différentes), en particulier celles impliquées dans la traduction et le ribosome, la liaison aux acides nucléiques, la liaison aux ions métalliques et le repliement des protéines se sont également avérés contenir des LCR.

Propriétés

Les LCR sont plus abondants chez les eucaryotes, mais ils ont également une présence significative chez de nombreux procaryotes. En moyenne, 0,05 et 0,07% des protéomes bactériens et archéens (acides aminés totaux des LCR dans un protéome donné / acides aminés totaux de ce protéome) forment des LCR alors que pour cinq modèles de protéomes eucaryotes (humain, mouche des fruits, levure, levure de fission, Arabidopsis ), cette couverture était significativement plus élevée (en moyenne, 0,4% ; entre 2 et 23 fois plus élevée que les procaryotes).

Les LCR eucaryotes ont tendance à être plus longues que les LCR procaryotes. La taille moyenne d'une LCR eucaryote est de 42 acides aminés, tandis que les LCR bactériennes, archéales et phagiques ont respectivement 38, 36 et 33 acides aminés.

Dans les Archaea, l'halobactérie Natrialba magadii possède le plus grand nombre de LCR et l'enrichissement le plus élevé pour les LCR. Dans les bactéries, Enhygromyxa salina , une protéobactérie delta qui appartient aux myxobactéries, a le plus grand nombre de LCR et l'enrichissement le plus élevé pour les LCR. Curieusement, quatre des cinq bactéries les plus riches en LCR sont également des myxobactéries.

Les trois acides aminés les plus enrichis dans les LCR des bactéries sont la proline, la glycine et l'alanine, alors que chez Archaea, il s'agit de la thréonine, de l'aspartate et de la proline. Chez les phages, ce sont l'alanine, la glycine et la proline. La glycine et la proline apparaissent comme des acides aminés très enrichis dans les trois lignées évolutives, tandis que l'alanine est fortement enrichie en bactéries et en phages mais pas en archées. En revanche, les acides aminés hydrophobes (M, I, L, V) et aromatiques (F, Y, W) ainsi que la cystéine, l'arginine et l'asparagine sont fortement sous-représentés dans les LCR. Des tendances très similaires pour les acides aminés avec une occurrence élevée (G, A, P, S, Q) et faible (M, V, L, I, W, F, R, C) dans les LCR ont également été observées chez les eucaryotes. Ce schéma observé de certains acides aminés étant surreprésentés (enrichis) ou sous-représentés dans les LCR pourrait s'expliquer en partie par le coût énergétique pour la synthèse ou le métabolisme de chacun des acides aminés. Une autre explication possible, qui n'exclut pas l'explication précédente du coût énergétique, pourrait être la réactivité de certains acides aminés. Par exemple, la cystéine est un acide aminé très réactif qui ne serait pas toléré en grand nombre dans une petite région d'une protéine. De même, des régions extrêmement hydrophobes peuvent former des interactions protéine-protéine non spécifiques entre elles et avec d'autres régions modérément hydrophobes dans les cellules de mammifères. Ainsi, leur présence peut perturber l'équilibre des réseaux d'interaction protéine-protéine au sein de la cellule, surtout si les protéines porteuses sont fortement exprimées. Une troisième explication peut reposer sur des forces micro-évolutives et, plus précisément, sur le biais de glissement de l'ADN polymérase pour certains di-tri- ou tétra-nucléotides.

Enrichissement en acides aminés pour certaines catégories fonctionnelles de LCR

Une analyse bioinformatique des LCR procaryotes a identifié 5 types d'enrichissement en acides aminés, pour certaines catégories fonctionnelles de LCR :

  • Les protéines avec des termes GO liés à la liaison et au traitement des polysaccharides ont été enrichies en sérine et thréonine dans leurs LCR.
  • Les protéines avec des termes GO liés à la liaison et au traitement de l'ARN ont été enrichies en arginine dans leurs LCR.
  • Les protéines avec des termes GO liés à la liaison et au traitement de l'ADN ont été particulièrement enrichies en lysine, mais aussi en glycine, tyrosine, phénylalanine et glutamine dans leurs LCR.
  • Les protéines avec des termes GO liés à la liaison métallique et plus spécifiquement à la liaison au cobalt ou au nickel ont été enrichies principalement pour l'histidine mais aussi pour l'aspartate dans leurs LCR.
  • Les protéines avec des termes GO liés au repliement des protéines ont été enrichies en glycine, méthionine et phénylalanine dans leurs LCR.

Sur la base des observations et analyses ci-dessus, un serveur Web de réseau neuronal nommé LCR-hound a été développé pour prédire les LCR et leur fonction.

Évolution

Les LCR sont très intéressants d'un point de vue micro et macro évolutionnaire. Ils peuvent être générés par glissement, recombinaison et réparation de l'ADN. Ainsi, ils sont liés à des points chauds de recombinaison et peuvent même éventuellement faciliter le cross-over. En provenant d'une instabilité génétique, ils peuvent provoquer, au niveau de l'ADN, l'expansion ou la contraction d'une certaine région de la protéine et même provoquer des décalages de cadre (variantes de phase) qui affectent la pathogénicité microbienne ou fournissent une matière première pour l'évolution. Plus intrigant, ils peuvent fournir une fenêtre sur l'évolution très précoce de la vie. Au début de l'évolution, alors que seuls quelques acides aminés étaient disponibles et que le code génétique primaire élargissait encore son répertoire, les premières protéines étaient supposées être courtes, répétitives et donc de faible complexité. Ainsi, les LCR modernes pourraient représenter des aspects primordiaux de l'évolution vers le monde des protéines et pourraient fournir des indices sur les fonctions des premiers proto-peptides.

La plupart des études se sont concentrées sur l'évolution, le rôle fonctionnel et structurel des LCR eucaryotes. Cependant, une étude approfondie des LCR procaryotes de nombreuses lignées procaryotes diverses offre une occasion unique de comprendre l'origine, l'évolution et la nature de ces régions. En raison de la taille effective élevée de la population et des temps de génération courts des procaryotes, l' émergence de novo d'une répétition d'acides aminés légèrement ou modérément délétère ou LCR devrait être rapidement filtrée par de fortes forces sélectives. Cela doit être particulièrement le cas pour les LCR trouvées dans les protéines fortement exprimées, car elles devraient également avoir un impact important sur la charge énergétique de la traduction des protéines. Ainsi, tous les LCR procaryotes qui constituent des accidents évolutifs sans signification fonctionnelle ne devraient pas être fixés par dérive génétique et, par conséquent, ne devraient pas démontrer de niveaux de conservation parmi des parents évolutifs modérément éloignés. Au contraire, tout LCR trouvé parmi les homologues de plusieurs espèces procaryotes modérément distantes devrait très probablement réserver un rôle fonctionnel.

Les LCR et les protopeptides du code génétique précoce

Les acides aminés les plus fréquents dans les LCR sont la glycine et l'alanine, leurs codons respectifs GGC et GCC étant les plus fréquents, ainsi que complémentaires. Chez les eucaryotes et plus spécifiquement chez les chordés (tels que l'homme, la souris, le poulet, le poisson zèbre et le gicleur de mer), les LCR riches en alanine et en glycine sont surreprésentés dans les LCR récemment formés et sont probablement mieux tolérés par la cellule. Curieusement, il a également été suggéré qu'ils représentent les deux premiers acides aminés et codons du premier code génétique. Ainsi, ces deux codons et leurs acides aminés respectifs doivent avoir été des constituants des premiers oligopeptides, avec une longueur de 10 à 55 acides aminés et une très faible complexité. Sur la base de plusieurs critères et sources de données différents, Higgs et Pudritz suggèrent G, A, D, E, V, S, P, I, L, T comme les premiers acides aminés du code génétique. Le travail de Trifonov est largement d'accord avec cette catégorisation et propose que les premiers acides aminés dans l'ordre chronologique sont G, A, D, V, S, P, E, L, T, R. Une analyse évolutive a observé que de nombreux acides aminés de la Les codes génétiques très précoces suggérés (à l'exception des codes hydrophobes) sont significativement enrichis en LCR bactériens. La plupart des ajouts ultérieurs au code génétique sont considérablement sous-représentés dans les LCR bactériens. Ils émettent donc l'hypothèse et proposent que, dans un environnement acellulaire, le code génétique précoce pourrait également avoir produit des oligopeptides de faible complexité à partir de valine et de leucine. Cependant, plus tard, dans un environnement cellulaire plus complexe, ces LCR hautement hydrophobes sont devenus inappropriés ou même toxiques du point de vue de l'interaction protéique et ont été sélectionnés depuis lors. En outre, ils émettent l'hypothèse que les protopeptides très précoces n'avaient pas de rôle de liaison aux acides nucléiques, car les LCR de liaison à l'ADN et à l'ARN sont hautement enrichis en glucine, arginine et lysine, cependant, l'arginine et la lysine ne font pas partie des acides aminés du proposé un code génétique précoce.

Méthodes de détection

Les régions de faible complexité dans les protéines peuvent être détectées par ordinateur à partir de la séquence à l'aide de diverses méthodes et définitions, comme examiné dans. L'une des méthodologies les plus populaires pour identifier les LCR consiste à mesurer leur entropie de Shannon. Plus la valeur de l'entropie calculée est faible, plus la région est homogène en termes de teneur en acides aminés. De plus, un serveur Web de réseau neuronal, LCR-hound, a été développé pour prédire la fonction d'un LCR, en fonction de sa teneur en acides aminés ou en di-acides aminés.

Les références