Profilage d'expression génique - Gene expression profiling

Les cartes thermiques des valeurs d'expression génique montrent comment les conditions expérimentales ont influencé la production (expression) d'ARNm pour un ensemble de gènes. Le vert indique une expression réduite. L'analyse de cluster a placé un groupe de gènes régulés à la baisse dans le coin supérieur gauche.

Dans le domaine de la biologie moléculaire , le profilage de l'expression génique est la mesure de l'activité (l' expression ) de milliers de gènes à la fois, pour créer une image globale de la fonction cellulaire. Ces profils peuvent, par exemple, distinguer les cellules qui se divisent activement ou montrer comment les cellules réagissent à un traitement particulier. De nombreuses expériences de ce type mesurent simultanément un génome entier , c'est-à-dire chaque gène présent dans une cellule particulière.

Plusieurs technologies de transcriptomique peuvent être utilisées pour générer les données nécessaires à l'analyse. Les puces à ADN mesurent l'activité relative de gènes cibles préalablement identifiés. Les techniques basées sur les séquences, comme RNA-Seq , fournissent des informations sur les séquences des gènes en plus de leur niveau d'expression.

Fond

Le profilage d'expression est une étape logique après le séquençage d'un génome : la séquence nous dit ce que la cellule pourrait éventuellement faire, tandis que le profil d'expression nous dit ce qu'elle fait réellement à un moment donné. Les gènes contiennent les instructions pour fabriquer l'ARN messager ( ARNm ), mais à tout moment, chaque cellule fabrique de l'ARNm à partir d'une fraction seulement des gènes qu'elle porte. Si un gène est utilisé pour produire de l'ARNm, il est considéré « activé », sinon « désactivé ». De nombreux facteurs déterminent si un gène est activé ou désactivé, tels que l'heure de la journée, si la cellule se divise activement ou non, son environnement local et les signaux chimiques provenant d'autres cellules. Par exemple, les cellules de la peau , les cellules du foie et les cellules nerveuses activent (expriment) des gènes quelque peu différents et c'est en grande partie ce qui les rend différents. Par conséquent, un profil d'expression permet de déduire le type, l'état, l'environnement d'une cellule, etc.

Les expériences de profilage d'expression impliquent souvent de mesurer la quantité relative d'ARNm exprimé dans deux ou plusieurs conditions expérimentales. C'est parce que les niveaux modifiés d'une séquence spécifique d'ARNm suggèrent un besoin modifié pour la protéine codée par l'ARNm, indiquant peut-être une réponse homéostatique ou un état pathologique. Par exemple, des niveaux plus élevés d'ARNm codant pour l' alcool déshydrogénase suggèrent que les cellules ou les tissus à l'étude répondent à des niveaux accrus d'éthanol dans leur environnement. De même, si les cellules cancéreuses du sein expriment des niveaux plus élevés d'ARNm associé à un récepteur transmembranaire particulier que les cellules normales, il se pourrait que ce récepteur joue un rôle dans le cancer du sein. Un médicament qui interfère avec ce récepteur peut prévenir ou traiter le cancer du sein. Lors du développement d'un médicament, on peut effectuer des expériences de profilage de l'expression génique pour aider à évaluer la toxicité du médicament, peut-être en recherchant des niveaux changeants dans l'expression des gènes du cytochrome P450 , qui peuvent être un biomarqueur du métabolisme du médicament. Le profilage de l'expression génique peut devenir un test diagnostique important.

Comparaison avec la protéomique

Le génome humain contient de l'ordre de 25 000 gènes qui travaillent de concert pour produire de l'ordre de 1 000 000 de protéines distinctes. Cela est dû à l' épissage alternatif , et aussi parce que les cellules apportent des modifications importantes aux protéines par le biais de modifications post-traductionnelles après les avoir construites pour la première fois, de sorte qu'un gène donné sert de base à de nombreuses versions possibles d'une protéine particulière. Dans tous les cas, une seule expérience de spectrométrie de masse peut identifier environ 2 000 protéines ou 0,2% du total. Alors que la connaissance des protéines précises fabriquées par une cellule ( protéomique ) est plus pertinente que de savoir combien d'ARN messager est fabriqué à partir de chaque gène, le profilage de l'expression génique fournit l'image la plus globale possible en une seule expérience. Cependant, la méthodologie de la protéomique s'améliore. Chez d'autres espèces, comme la levure, il est possible d'identifier plus de 4 000 protéines en un peu plus d'une heure.

Utilisation dans la génération et le test d'hypothèses

Parfois, un scientifique a déjà une idée de ce qui se passe, une hypothèse , et il ou elle effectue une expérience de profilage d'expression avec l'idée de potentiellement réfuter cette hypothèse. En d'autres termes, le scientifique fait une prédiction spécifique sur les niveaux d'expression qui pourraient s'avérer fausses.

Plus généralement, le profilage de l'expression a lieu avant que l'on en sache suffisamment sur la façon dont les gènes interagissent avec les conditions expérimentales pour qu'une hypothèse testable existe. Sans hypothèse, il n'y a rien à réfuter, mais le profilage d'expression peut aider à identifier une hypothèse candidate pour de futures expériences. La plupart des premières expériences de profilage d'expression, et de nombreuses expériences actuelles, ont cette forme connue sous le nom de découverte de classe. Une approche populaire de la découverte de classes consiste à regrouper des gènes ou des échantillons similaires à l'aide de l'une des nombreuses méthodes de clustering existantes telles que le k-means traditionnel ou le clustering hiérarchique , ou le MCL plus récent . Outre la sélection d'un algorithme de clustering, l'utilisateur doit généralement choisir une mesure de proximité appropriée (distance ou similarité) entre les objets de données. La figure ci-dessus représente la sortie d'un cluster à deux dimensions, dans lequel des échantillons similaires (lignes, ci-dessus) et des sondes géniques similaires (colonnes) ont été organisés de manière à être proches les uns des autres. La forme la plus simple de découverte de classe serait de répertorier tous les gènes qui ont changé de plus d'un certain montant entre deux conditions expérimentales.

La prédiction de classe est plus difficile que la découverte de classe, mais elle permet de répondre à des questions d'importance clinique directe telles que, compte tenu de ce profil, quelle est la probabilité que ce patient réponde à ce médicament ? Cela nécessite de nombreux exemples de profils qui ont répondu et n'ont pas répondu, ainsi que des techniques de validation croisée pour les discriminer.

Limites

En général, les études de profilage d'expression rapportent les gènes qui ont montré des différences statistiquement significatives dans des conditions expérimentales modifiées. Il s'agit généralement d'une petite fraction du génome pour plusieurs raisons. Premièrement, différentes cellules et tissus expriment un sous-ensemble de gènes comme conséquence directe de la différenciation cellulaire, de sorte que de nombreux gènes sont désactivés. Deuxièmement, de nombreux gènes codent pour des protéines nécessaires à la survie en quantités très spécifiques, de sorte que de nombreux gènes ne changent pas. Troisièmement, les cellules utilisent de nombreux autres mécanismes pour réguler les protéines en plus de modifier la quantité d' ARNm , de sorte que ces gènes peuvent rester exprimés de manière cohérente même lorsque les concentrations de protéines augmentent et diminuent. Quatrièmement, les contraintes financières limitent les expériences de profilage d'expression à un petit nombre d'observations du même gène dans des conditions identiques, réduisant la puissance statistique de l'expérience, rendant impossible pour l'expérience d'identifier des changements importants mais subtils. Enfin, il faut beaucoup d'efforts pour discuter de la signification biologique de chaque gène régulé, de sorte que les scientifiques limitent souvent leur discussion à un sous-ensemble. Les nouvelles techniques d'analyse des puces à ADN automatisent certains aspects de l'attribution d'une signification biologique aux résultats du profilage d'expression, mais cela reste un problème très difficile.

La longueur relativement courte des listes de gènes publiées à partir d'expériences de profilage d'expression limite la mesure dans laquelle les expériences réalisées dans différents laboratoires semblent concorder. Le fait de placer les résultats du profilage d'expression dans une base de données de microréseaux accessible au public permet aux chercheurs d'évaluer les modèles d'expression au-delà de la portée des résultats publiés, en identifiant peut-être une similitude avec leur propre travail.

Validation des mesures à haut débit

Les puces à ADN et la PCR quantitative exploitent toutes deux la liaison préférentielle ou « l' appariement de bases » de séquences d'acides nucléiques complémentaires, et les deux sont utilisées dans le profilage de l'expression génique, souvent en série. Bien que les puces à ADN à haut débit n'aient pas la précision quantitative de la qPCR, il faut à peu près le même temps pour mesurer l'expression génique de quelques dizaines de gènes via qPCR que pour mesurer un génome entier à l'aide de puces à ADN. Il est donc souvent judicieux d'effectuer des expériences d'analyse de puces à ADN semi-quantitatives pour identifier les gènes candidats, puis d'effectuer une qPCR sur certains des gènes candidats les plus intéressants pour valider les résultats des puces à ADN. D'autres expériences, telles qu'un Western blot de certains des produits protéiques de gènes exprimés de manière différentielle, rendent les conclusions basées sur le profil d'expression plus convaincantes, car les niveaux d'ARNm ne sont pas nécessairement corrélés à la quantité de protéine exprimée.

analyses statistiques

L'analyse des données des puces à ADN est devenue un domaine de recherche intense. Déclarer simplement qu'un groupe de gènes était régulé par au moins deux volets, autrefois une pratique courante, manque d'une base statistique solide. Avec cinq répétitions ou moins dans chaque groupe, ce qui est typique pour les puces à ADN, une seule observation aberrante peut créer une différence apparente supérieure à deux fois. De plus, fixer arbitrairement la barre à deux n'est pas biologiquement valable, car il élimine de la considération de nombreux gènes ayant une signification biologique évidente.

Plutôt que d'identifier les gènes exprimés de manière différentielle à l'aide d'un seuil de changement de facteur, on peut utiliser une variété de tests statistiques ou de tests omnibus tels que l' ANOVA , qui prennent tous en compte à la fois le changement de facteur et la variabilité pour créer une valeur p , une estimation de la fréquence à laquelle nous observer les données par hasard seul. L'application de valeurs p aux puces à ADN est compliquée par le grand nombre de comparaisons multiples (gènes) impliquées. Par exemple, une valeur p de 0,05 est généralement considérée comme significative, car elle estime une probabilité de 5 % d'observer les données par hasard. Mais avec 10 000 gènes sur un microarray, 500 gènes seraient identifiés comme significatifs à p < 0,05 même s'il n'y avait pas de différence entre les groupes expérimentaux. Une solution évidente consiste à ne considérer comme significatifs que les gènes répondant à un critère de valeur p beaucoup plus strict, par exemple, on pourrait effectuer une correction de Bonferroni sur les valeurs p, ou utiliser un calcul de taux de fausse découverte pour ajuster les valeurs p proportionnellement au nombre de tests parallèles impliqués. Malheureusement, ces approches peuvent réduire le nombre de gènes significatifs à zéro, même lorsque les gènes sont en fait exprimés de manière différentielle. Les statistiques actuelles telles que les produits Rank visent à trouver un équilibre entre la fausse découverte de gènes due à la variation fortuite et la non-découverte de gènes différentiellement exprimés. Les méthodes couramment citées incluent l'analyse de signification des puces à ADN (SAM) et une grande variété de méthodes sont disponibles auprès de Bioconductor et une variété de progiciels d'analyse de sociétés de bioinformatique .

La sélection d'un test différent identifie généralement une liste différente de gènes significatifs, car chaque test fonctionne selon un ensemble spécifique d'hypothèses et met un accent différent sur certaines caractéristiques des données. De nombreux tests partent de l'hypothèse d'une distribution normale des données, car cela semble être un point de départ raisonnable et produit souvent des résultats qui semblent plus significatifs. Certains tests considèrent la distribution conjointe de toutes les observations de gènes pour estimer la variabilité générale des mesures, tandis que d'autres examinent chaque gène isolément. De nombreuses techniques modernes d'analyse de puces à ADN impliquent des méthodes d' amorçage (statistiques) , d' apprentissage automatique ou de Monte Carlo .

À mesure que le nombre de mesures répétées dans une expérience de microréseau augmente, diverses approches statistiques donnent des résultats de plus en plus similaires, mais le manque de concordance entre les différentes méthodes statistiques rend les résultats du réseau moins fiables. Le projet MAQC fait des recommandations pour guider les chercheurs dans la sélection de méthodes plus standard (par exemple, en utilisant la valeur p et le changement de facteur ensemble pour sélectionner les gènes exprimés de manière différentielle) afin que les expériences réalisées dans différents laboratoires concordent mieux.

Différent de l'analyse sur des gènes individuels exprimés de manière différentielle, un autre type d'analyse se concentre sur l'expression différentielle ou la perturbation d'ensembles de gènes prédéfinis et est appelé analyse d'ensembles de gènes. L'analyse de l'ensemble de gènes a démontré plusieurs avantages majeurs par rapport à l'analyse de l'expression différentielle des gènes individuels. Les ensembles de gènes sont des groupes de gènes qui sont fonctionnellement liés selon les connaissances actuelles. Par conséquent, l'analyse de l'ensemble de gènes est considérée comme une approche d'analyse basée sur les connaissances. Couramment utilisés ensembles de gènes comprennent ceux dérivés de KEGG voies, Gene Ontology termes, des groupes de gènes qui partagent d'autres annotations fonctionnelles, telles que les régulateurs de transcription communs , etc. méthodes d'analyse du jeu de gènes représentatifs comprennent Gene Set Analysis Enrichissement (GSEA), qui estime l' importance du gène ensembles basés sur la permutation d'étiquettes d'échantillons et l'enrichissement d'ensembles de gènes généralement applicable (GAGE), qui teste la signification des ensembles de gènes en fonction de la permutation d'étiquettes de gènes ou d'une distribution paramétrique.

Annotation génétique

Alors que les statistiques peuvent identifier quels produits géniques changent dans des conditions expérimentales, donner un sens biologique au profilage d'expression repose sur la connaissance de la protéine produite par chaque produit génique et de la fonction qu'elle remplit. L'annotation des gènes fournit des informations fonctionnelles et autres, par exemple l'emplacement de chaque gène dans un chromosome particulier. Certaines annotations fonctionnelles sont plus fiables que d'autres ; certains sont absents. Les bases de données d'annotation de gènes changent régulièrement et diverses bases de données font référence à la même protéine par des noms différents, reflétant une compréhension changeante de la fonction des protéines. L'utilisation d' une nomenclature génétique normalisée aide à résoudre l'aspect nominatif du problème, mais l'appariement exact des transcrits aux gènes reste une considération importante.

Catégorisation des gènes régulés

Après avoir identifié un ensemble de gènes régulés, la prochaine étape du profilage d'expression consiste à rechercher des modèles au sein de l'ensemble régulé. Les protéines fabriquées à partir de ces gènes remplissent-elles des fonctions similaires ? Sont-ils chimiquement similaires ? Résident-ils dans des parties similaires de la cellule ? L' analyse de l' ontologie des gènes fournit un moyen standard de définir ces relations. Les ontologies génétiques commencent par des catégories très larges, par exemple « processus métabolique » et les décomposent en catégories plus petites, par exemple « processus métabolique des glucides » et enfin en catégories assez restrictives comme « inositol et phosphorylation de ses dérivés ».

Les gènes ont d'autres attributs que la fonction biologique, les propriétés chimiques et la localisation cellulaire. On peut composer des ensembles de gènes en fonction de la proximité avec d'autres gènes, de l'association avec une maladie et des relations avec des médicaments ou des toxines. La base de données de signatures moléculaires et la base de données de toxicogénomique comparative sont des exemples de ressources permettant de catégoriser les gènes de nombreuses manières.

Trouver des modèles parmi les gènes régulés

Diagramme de réseau de gènes d'ingéniosité qui assemble dynamiquement des gènes avec des relations connues. Le vert indique une expression réduite, le rouge indique une expression accrue. L'algorithme a inclus des gènes non régulés, blancs, pour améliorer la connectivité.

Les gènes régulés sont classés en fonction de ce qu'ils sont et de ce qu'ils font, des relations importantes entre les gènes peuvent émerger. Par exemple, nous pourrions voir des preuves qu'un certain gène crée une protéine pour fabriquer une enzyme qui active une protéine pour activer un deuxième gène de notre liste. Ce deuxième gène peut être un facteur de transcription qui régule encore un autre gène de notre liste. En observant ces liens, nous pouvons commencer à soupçonner qu'ils représentent bien plus que des associations fortuites dans les résultats, et qu'ils sont tous sur notre liste en raison d'un processus biologique sous-jacent. D'un autre côté, il se pourrait que si l'on sélectionne des gènes au hasard, on en trouve plusieurs qui semblent avoir quelque chose en commun. En ce sens, nous avons besoin de procédures statistiques rigoureuses pour tester si les thèmes biologiques émergents sont significatifs ou non. C'est là qu'intervient l'analyse des gènes.

Relations de cause à effet

Des statistiques assez simples fournissent des estimations pour savoir si les associations entre les gènes sur les listes sont plus importantes que ce à quoi on pourrait s'attendre par hasard. Ces statistiques sont intéressantes, même si elles représentent une simplification excessive de ce qui se passe réellement. Voici un exemple. Supposons qu'il y ait 10 000 gènes dans une expérience, dont seulement 50 (0,5 %) jouent un rôle connu dans la fabrication du cholestérol . L'expérience identifie 200 gènes régulés. Parmi ceux-ci, 40 (20 %) se trouvent également sur une liste de gènes de cholestérol. Sur la base de la prévalence globale des gènes du cholestérol (0,5 %), on s'attend à une moyenne de 1 gène de cholestérol pour 200 gènes régulés, c'est-à-dire 0,005 fois 200. Cette attente est une moyenne, donc on s'attend à voir plus d'un le temps. La question devient à quelle fréquence nous verrions 40 au lieu de 1 en raison du pur hasard.

Selon la distribution hypergéométrique , on s'attendrait à essayer environ 10^57 fois (10 suivis de 56 zéros) avant de choisir 39 ou plus des gènes du cholestérol dans un pool de 10 000 en tirant 200 gènes au hasard. Que l'on accorde beaucoup d'attention à l'infiniment petit de la probabilité d'observer cela par hasard, on en conclurait que la liste de gènes régulés est enrichie en gènes avec une association connue avec le cholestérol.

On pourrait en outre émettre l'hypothèse que le traitement expérimental régule le cholestérol, car le traitement semble réguler sélectivement les gènes associés au cholestérol. Bien que cela puisse être vrai, il existe un certain nombre de raisons pour lesquelles en faire une conclusion ferme fondée uniquement sur l'enrichissement représente un acte de foi injustifié. Un problème évoqué précédemment concerne l'observation selon laquelle la régulation des gènes peut n'avoir aucun impact direct sur la régulation des protéines : même si les protéines codées par ces gènes ne font rien d'autre que fabriquer du cholestérol, montrer que leur ARNm est altéré ne nous dit pas directement ce que se passe au niveau des protéines. Il est tout à fait possible que la quantité de ces protéines liées au cholestérol reste constante dans les conditions expérimentales. Deuxièmement, même si les niveaux de protéines changent, il y en a peut-être toujours assez pour fabriquer du cholestérol aussi rapidement que possible, c'est-à-dire qu'une autre protéine, qui ne figure pas sur notre liste, est l' étape déterminante du processus de fabrication. cholestérol. Enfin, les protéines jouent généralement de nombreux rôles, de sorte que ces gènes peuvent être régulés non pas en raison de leur association partagée avec la fabrication du cholestérol, mais en raison d'un rôle partagé dans un processus complètement indépendant.

Compte tenu des mises en garde qui précèdent, bien que les profils génétiques ne prouvent pas en eux-mêmes les relations causales entre les traitements et les effets biologiques, ils offrent des informations biologiques uniques qui seraient souvent très difficiles à obtenir par d'autres moyens.

Utiliser des modèles pour trouver des gènes régulés

Comme décrit ci-dessus, on peut d'abord identifier des gènes régulés de manière significative, puis trouver des modèles en comparant la liste de gènes significatifs à des ensembles de gènes connus pour partager certaines associations. On peut aussi travailler le problème dans l'ordre inverse. Voici un exemple très simple. Supposons qu'il y ait 40 gènes associés à un processus connu, par exemple, une prédisposition au diabète. En examinant deux groupes de profils d'expression, l'un pour les souris nourries avec un régime riche en glucides et l'autre pour les souris nourries avec un régime pauvre en glucides, on observe que les 40 gènes du diabète sont exprimés à un niveau plus élevé dans le groupe riche en glucides que dans le groupe pauvre en glucides. Indépendamment du fait que l'un ou l'autre de ces gènes aurait fait partie d'une liste de gènes considérablement modifiés, l'observation de tous les 40 en hausse, et aucun en bas ne semble peu susceptible d'être le résultat d'un pur hasard : il est prévu que le fait de retourner 40 têtes d'affilée se produira environ une fois. dans un trillion de tentatives en utilisant une pièce de monnaie équitable.

Pour un type de cellule, le groupe de gènes dont le schéma d'expression combiné est uniquement caractéristique d'une affection donnée constitue la signature génique de cette affection. Idéalement, la signature génique peut être utilisée pour sélectionner un groupe de patients à un état spécifique d'une maladie avec une précision qui facilite la sélection de traitements. L'analyse d'enrichissement du jeu de gènes (GSEA) et des méthodes similaires tirent parti de ce type de logique mais utilisent des statistiques plus sophistiquées, car les gènes composants dans les processus réels affichent un comportement plus complexe que le simple déplacement vers le haut ou vers le bas en tant que groupe, et la quantité de gènes qui se déplacent vers le haut et le bas est significatif, pas seulement la direction. Dans tous les cas, ces statistiques mesurent à quel point le comportement d'un petit ensemble de gènes est différent de celui des gènes qui ne font pas partie de ce petit ensemble.

La GSEA utilise une statistique de style Kolmogorov Smirnov pour voir si des ensembles de gènes précédemment définis présentaient un comportement inhabituel dans le profil d'expression actuel. Cela conduit à un défi de test d'hypothèses multiples, mais des méthodes raisonnables existent pour le relever.

Conclusion

Le profilage d'expression fournit de nouvelles informations sur ce que font les gènes dans diverses conditions. Dans l'ensemble, la technologie des microréseaux produit des profils d'expression fiables. A partir de ces informations, on peut générer de nouvelles hypothèses sur la biologie ou tester celles qui existent. Cependant, la taille et la complexité de ces expériences donnent souvent lieu à une grande variété d'interprétations possibles. Dans de nombreux cas, l'analyse des résultats du profilage d'expression demande beaucoup plus d'efforts que la réalisation des expériences initiales.

La plupart des chercheurs utilisent plusieurs méthodes statistiques et analyses de données exploratoires avant de publier leurs résultats de profilage d'expression, en coordonnant leurs efforts avec un bioinformaticien ou un autre expert en puces à ADN . Une bonne conception expérimentale, une réplication biologique adéquate et des expériences de suivi jouent un rôle clé dans la réussite des expériences de profilage d'expression.

Voir également

Les références

Liens externes