L'Étincelle Triplex : un triple store pour ISTEX

Intervenant⋅e⋅s

Résumé

Le projet ISTEX est un investissement d'avenir soutenu par l’Agence Nationale de la Recherche visant à doter la France d'une bibliothèque numérique scientifique reposant sur deux axes complémentaires : d'une part, une acquisition massive de publications scientifiques (18 millions) couvrant l'ensemble des disciplines et d'autre part, la mise en place d'une plateforme unique d'hébergement, de gestion et d'accès à ces ressources.

Après avoir lancé en janvier 2016 une première expérimentation visant à publier, selon les normes du web sémantique, des données extraites du projet ISTEX (et présentée à SemWeb Pro en 2016), l’Inist­-CNRS a consolidé cette dernière par l’expérimentation Triplex.

Elle a pour objectif d’agréger de manière cohérente toutes les données extraites du fonds ISTEX et sémantisées dans un outil dédié (lodex). Cette agrégation mène à un SPARQL endpoint contenant un graphe global des données ISTEX.

Les données sont publiées en respectant un profil d’application spécifique. Cette approche par profil se différencie des autres approches, en permettant de créer un graphe progressivement. Le résultat doit permettre à des chercheurs et à des documentalistes de faire des requêtes spécifiques sur les données ISTEX structurées en graphe.

Nous avons retenu une solution décomposée en quatre points :

  • création d’une ontologie globale pour ISTEX,
  • création d’un triplestore (SPARQL) agrégeant toutes les données produites et structurées via l’outil lodex,
  • création automatique / semi-automatique / manuelle de liens vers des bases similaires,
  • tester des exemples d’inférences.

Après avoir détaillé cette solution, nous présenterons un exemple d’étude bibliométrique à l’aide de requêtes SPARQL. Dans le graphe de données que nous interrogerons, il y a toujours un chemin pour arriver aux documents en plein texte exposés par l’API ISTEX. Par conséquent, c’est une autre façon de diffuser et d’exploiter les ressources acquises.

Références

Auteurs/Autrices

Membre des équipes TRIPLEX et ISTEX-DATA, dans les services “R&D et expérimentation” et “Pilotage de Projets” de l’Inist-CNRS, Stéphanie GREGORIO est une spécialiste des métadonnées bibliographiques et de leurs standards. Du travail sur les documents papiers en 2001, jusqu’à sa rencontre avec le traitement des documents numériques en 2007, elle est passée de MARC à XML. Elle exploite ces connaissances dans le projet ISTEX depuis 2012, et transforme les données (JATS, NLM, formats éditeurs, Dublin Core, …) vers des formats standards (MODS, TEI). Depuis janvier 2017, où elle a rejoint l’expérimentation Triplex, elle travaille également avec les formats du web sémantique.