Objet BioCompute - BioCompute Object

Objet BioCompute
Statut Groupe de travail IEEE actif
Normes associées Langage de flux de travail commun
Licence BSD-3-clause
Abréviation BCO
Site Internet osf .io /h59uh /


Le projet BioCompute Object (BCO) est une initiative communautaire visant à créer un cadre pour la normalisation et le partage des calculs et des analyses générés à partir du séquençage à haut débit (HTS - également appelé séquençage de nouvelle génération ou séquençage massivement parallèle ). Le projet a depuis été normalisé comme IEEE 2791-2020, et les fichiers du projet sont conservés dans un référentiel open source . L' édition du 22 juillet 2020 du Federal Register a annoncé que la FDAprend désormais en charge l'utilisation de BioCompute (officiellement connu sous le nom d'IEEE 2791-2020) dans les soumissions réglementaires, et l'inclusion de la norme dans le catalogue des normes de données pour la soumission de données HTS dans les NDA, ANDA, BLA et IND au CBER , CDER , et RASFC .

Lancé à l'origine sous la forme d'un contrat de collaboration entre l' Université George Washington et la Food and Drug Administration , le projet s'est développé pour inclure plus de 20 universités, sociétés de biotechnologie, partenariats public-privé et sociétés pharmaceutiques, dont Seven Bridges et Harvard Medical School . Le BCO vise à faciliter l'échange de flux de travail HTS entre diverses organisations, telles que la FDA, les sociétés pharmaceutiques, les organismes de recherche sous contrat, les fournisseurs de plateformes bioinformatiques et les chercheurs universitaires. En raison de la nature sensible des dépôts réglementaires, peu de références directes à des documents peuvent être publiées. Cependant, le projet est actuellement financé pour former les examinateurs et les administrateurs de la FDA à lire et à interpréter les BCO, et compte actuellement 4 publications soumises ou presque soumises.

Fond

L'un des plus grands défis de la bioinformatique est de documenter et de partager les flux de travail scientifiques de manière à ce que le calcul et ses résultats puissent être évalués par des pairs ou reproduits de manière fiable. Les pipelines bioinformatiques utilisent généralement plusieurs logiciels, chacun ayant généralement plusieurs versions disponibles, plusieurs paramètres d'entrée, plusieurs sorties et éventuellement des configurations spécifiques à la plate-forme. Comme pour les paramètres expérimentaux dans un protocole de laboratoire, de petits changements dans les paramètres de calcul peuvent avoir un impact important sur la validité scientifique des résultats. Le BioCompute Framework fournit une conception orientée objet à partir de laquelle un BCO contenant les détails d'un pipeline et la façon dont il a été utilisé peut être construit, signé numériquement et partagé. Le concept BioCompute a été développé à l'origine pour répondre aux besoins de recherche et d'examen réglementaires de la FDA pour l'évaluation, la validation et la vérification des données génomiques. Cependant, le Biocompute Framework suit les principes de données FAIR et peut être largement utilisé pour assurer la communication et l' interopérabilité entre différentes plates-formes, industries, scientifiques et régulateurs.

Utilitaire

En tant que standardisation des données génomiques, les objets BioCompute sont principalement utiles à trois groupes d'utilisateurs : 1) les chercheurs universitaires réalisant de nouvelles expériences génétiques, 2) les sociétés pharmaceutiques/biotechnologiques qui souhaitent soumettre leurs travaux à la FDA pour examen réglementaire, et 3) milieux (hôpitaux et laboratoires) qui proposent des tests génétiques et une médecine personnalisée . L'utilité pour les chercheurs universitaires est la capacité de reproduire les données expérimentales avec plus de précision et avec moins d'incertitude. L'utilité pour les entités souhaitant soumettre des travaux à la FDA est une approche rationalisée, encore une fois avec moins d'incertitude et avec la possibilité de reproduire plus précisément les travaux. Pour les milieux cliniques, il est essentiel que les données HTS et les métadonnées cliniques soient transmises de manière précise, idéalement d'une manière standardisée lisible par toute partie prenante, y compris les partenaires réglementaires.

Format

L'objet BioCompute est au format json et, au minimum, contient toutes les versions logicielles et les paramètres nécessaires pour évaluer ou vérifier un pipeline de calcul. Il peut également contenir des données d'entrée sous forme de fichiers ou de liens, de génomes de référence ou de composants Docker exécutables. Un objet BioCompute peut être intégré à HL7 FHIR en tant que ressource de provenance. De multiples implémentations conjointes sont également en cours de développement qui tirent parti du format centré sur les rapports de BCO, y compris CWL (dont l'une fait partie d'un contrat public actif financé par le gouvernement avec un cofondateur de CWL pour piloter et générer la documentation pour un BCO-CWL conjoint, ainsi que exemples) et RO.

Consortium BCO

Le groupe de travail BioCompute Object permet aux différentes parties prenantes de fournir des informations sur les pratiques actuelles en matière de BCO. Ce groupe de travail a été formé lors de la préparation de l' atelier 2017 sur les normes de calcul HTS pour les sciences de la réglementation et était initialement composé des participants à l'atelier. Il y a eu une croissance continue du groupe de travail BCO en conséquence directe de l'interaction entre une variété d'intervenants de toutes les communautés intéressées dans la normalisation du traitement informatique des données HTS. Les partenariats public-privé formés entre les universités, les sociétés privées de données génomiques, les plates-formes logicielles, les institutions gouvernementales et réglementaires ont été un point d'entrée facile pour les nouvelles personnes ou institutions dans le projet BCO pour participer à la discussion des meilleures pratiques pour les objets.

Implémentations

Le simple package R biocompute peut créer, valider et exporter des objets BioCompute. La Genomics Compliance Suite est une application Shiny qui offre des fonctionnalités similaires aux expressions régulières trouvées dans tous les éditeurs de texte modernes. Il existe plusieurs packages logiciels open source et applications Web développés en interne qui implémentent la spécification BioCompute, dont trois ont été déployés dans un cloud AWS EC2 accessible au public . Ceux - ci incluent une instance de la haute performance de l' environnement virtuel intégré , le Portail BioCompute (une application Web basée sur un formulaire qui peut créer et modifier BioCompute objets en fonction de l'IEEE-2791-2020 norme , et une instance compatible BioCompute de Galaxy .

Les références

Liens externes