Connaître et découvrir l’activité scientifique de l’IRD (projet Explore)
Intervenant⋅e⋅s
Résumé
La stratégie numérique de l’IRD en 2023 révélait deux grands axes :
• la valorisation des données et des activités scientifiques, • l’amplification de la transparence des activités institutionnelles.
Avec des données dispersées dans différents systèmes d’information et souvent en silot, il est difficile d’avoir une vue d’ensemble des activités et des compétences au sein de l’institut. C’est dans ce contexte que la Mission Science Ouverte et la Direction Informatique (DDUNI) de l’IRD ont répondu à un appel à projet France Relance en 2021 pour « Connaître et décrire l’activité scientifique de l’IRD en reliant ses productions ».
Dans le cadre d’une prestation UGAP, nous avons fait appel à trois prestataires pour créer un graphe sémantique consultable via un portail web et dont les données peuvent être mise à jour à la demande.
Dans une première étape, nous avons identifiés trois cas d’usage auprès d’un panel utilisateur :
• En tant que gestionnaire de données, j’ai besoin de connaître les productions à l’IRD pour faire une revue de littérature. • En tant que responsable de structure, j’ai besoin de connaître les compétences à l’IRD pour répondre aux enquêtes de bailleurs. • En tant que producteur de données, j’ai besoin d’identifier les collaborations pour présenter des références pour un appel d’offre.
À partir de ces cas d’usage, nous avons identifié les sources de données à connecter puis un modèle de données s’articulant autour de quatre entitées: ird-contrat, ird-person, ird-activite et ird-documents.
Côté architecture, le graphe est relié aux sources de données par des connecteurs. Les données sont ensuite tranformées et mises sous la forme de triplets conformément au modèle. Une série de requêtes SPARQL analyse ensuite le contenu du graphe. Les données pivots telles que le matricule des scientifique permet l’apairage des concepts connexes. Une analyse basé sur du machine learning est également menée pour établir des connexions plus complexes, telles que le rapprochement de noms de contrats et de noms de projets. Une fois le graphe consolidé, le données sont indexées dans un moteur de recherche (ElasticSearch) qui sert d’interface entre le graphe et le portail web. Les données du graphes sont consultables via une API GraphQL et l’ensemble des étapes précitées est orchestré par l’outil AirFlow. L’application est constitué de briques modulaires containerisées.
Le lien suivant vous offre une démonstration de l’application : https://filesender.renater.fr/? s=download&token=b1a0eecb-6a12-42fe-9eb3-007ff5599270
Auteur: Daniel Salas (docteur en informatique, spécialisé dans le calcul scientifique) Je travaille depuis deux ans au sein de la Mission Science Ouverte de l'IRD. Je suis en charge de la maintenance des référentiels scientifiques, de leur mise en qualité et de leur intégration au SI de l'IRD. Je suis également formateur et j'anime des sessions d'aide à la rédaction des plans de gestion de données.