Science des données

Extraire le meilleur des données

Selon les dernières estimations, la terre abrite un trillion d'espèces bactériennes, pour la plupart non identifiées, non cultivées et encore moins étudiées. Cet immense réservoir à métabolites semblait inaccessible jusqu’à ce que les technologies changent la donne. Elles ont confirmé l’étendue de cette biodiversité et ouvert la voie à la découverte et au développement de nouveaux composés aux propriétés biologiques inédites. La Science des données est évidemment au cœur de cette révolution : en permettant pour la première fois de générer et traiter de grandes quantités de données, elle a contribué à l’avènement du séquençage à haut débit, de la génomique ou de la métabolomique. L’unité de Science des données a été essentielle dans le développement de la plateforme de R&D de DEINOVE. En lien constant avec toutes les unités technologiques, l'équipe analyse les grandes quantités de données qu’elles génèrent, développe des outils sur mesure pour approfondir ces analyses et assure la gestion et la traçabilité des informations à toutes les étapes du processus. 

Activités principales

Les activités décrites dans cette section témoignent des outils développés par l'unité pour faciliter la gestion et l'analyse des données générées par l’ensemble des unités technologiques.

LIMS : gestion des données et traçabilité

La plateforme de DEINOVE utilise des technologies d’automatisation et des approches à haut débit à toutes les étapes de sa R&D, de l'exploration de la biodiversité à la production préindustrielle du produit candidat. D'énormes quantités de données sont générées à chacune de ces étapes et ces dernières doivent être documentées avec précision et archivées. En constante évolution, le système d’information et de gestion de laboratoire (LIMS) développé par l’unité permet de saisir et structurer toutes ces données.

SLiMe : prédire les métabolites produits par une espèce bactérienne

La phase de déréplication est au cœur du processus d’identification de l'entité chimique d’intérêt. À cette étape, l’unité d’analyses avancées sépare et détecte les métabolites présents dans l’extrait bactérien en s’appuyant sur l’analyse intégrée de la séquence génomique de l'espèce bactérienne dans laquelle l'activité antimicrobienne a été détectée. Pour conduire ces analyses, l’unité a conçu et développé SLiMe (Species Links to Molecules), un outil qui intègre les connaissances accumulées en matière de produits naturels et de génomes bactériens.

Aucune base de données ne rassemble à ce jour l’ensemble des informations publiques disponibles sur les antimicrobiens d’origine naturelle. En réponse, l'unité a créé une base de données interne qui regroupe et restructure les données sur l'écologie, la taxonomie, la génomique et la métabolomique bactériennes. Cet outil permettra à terme d'accélérer la dépéplication des agents antimicrobiens et facilitera les études de structure et de chimie médicinale.

Activités support

Métabarcodage

L'unité conduit l'analyse des données de séquençage à haut débit des ARN ribosomiques 16S bactériens. Conduite en collaboration avec l'unité de biodiculture, cette analyse permet d’identifier l’ensemble des espèces bactériennes présentes dans un échantillon donné. Après traitement par des outils internes, ces informations guideront l'unité de biodiculture afin d'isoler les bactéries les plus intéressantes de l'échantillon environnemental.
Dans certaines conditions, les code-barres génétiques peuvent être étendus à d'autres marqueurs moléculaires conservés et partagés entre divers groupes taxonomiques, tels que l'ARN ribosomique 18S ou les Séquences Transcrites Internes (ITS) au sein de l'ARNr.

Génomique

DEINOVE effectue systématiquement le séquençage du génome entier des souches les plus intéressantes. Ces données révèlent une grande quantité d'informations sur les bactéries étudiées. Par exemple, l'unité annote ces génomes pour cartographier les capacités métaboliques des souches ou "exploite" ces séquences pour mettre à jour des groupes génétiques "enfouis" dans le génome bactérien. En collaboration avec l’unité de biologie synthétique, l'unité détermine également quels gènes ou groupes de gènes sont responsables ou impliqués dans la production d'un composé actif donné.

Métabarcodage

Au-delà de l’ARN ribosomique 16S, l’unité étend les analyses métagénomiques à d’autres biomarqueurs phylogénétiques comme l'ARN ribosomique 18S ou des séquences additionnelles dites espaceurs internes (ITS), spécifiques de l’ARNr précurseur (le premier stade de la maturation des ribosomes). Ces données permettent en retour d’optimiser l’identification des différents groupes taxonomiques.  

Analyse des données

L'unité analyse les grandes quantités de données générées par la plateforme de découverte. En collaboration avec l'unité chargée des tests d'activités, elle a mis au point des outils internes de traitement d'images pour optimiser le criblage à haut-débit des activités biologiques. 

L’unité de Science des données offre également un soutien en biostatistique à toutes les étapes de la R&D de DEINOVE.

Métabolomique

Pour identifier les voies métaboliques impliquées dans la synthèse du composé d’intérêt (mais aussi les potentielles voies inhibitrices), l’unité analyse les données métabolomiques générées par l’unité d’analyses avancées

 

Bibliographie

Zhu, J.-W., Zhang, S.-J., Wang, W.-G., & Jiang, H. (2020). Strategies for Discovering New Antibiotics from Bacteria in the Post-Genomic Era. Current Microbiology, 77(11), 3213–3223.

Foulston, L. (2019). Genome mining and prospects for antibiotic discovery. Current Opinion in Microbiology, 51, 1–8.

Baltz, R. H. (2017). Synthetic biology, genome mining, and combinatorial biosynthesis of NRPS-derived antibiotics: a perspective. Journal of Industrial Microbiology & Biotechnology, 45(7), 635–649.

Bush, A., Compson, Z. G., Monk, W. A., Porter, T. M., Steeves, R., Emilson, E., Gagne, N., Hajibabaei, M., Roy, M., & Baird, D. J. (2019). Studying Ecosystems With DNA Metabarcoding: Lessons From Biomonitoring of Aquatic Macroinvertebrates. Frontiers in Ecology and Evolution, 7.