Le casse-tête de l'adoption de modèles sémantiques dans l'univers documentaire

Intervenant⋅e⋅s

Résumé

Les hospices civils de Lyon (HCL), 2ème centre hospitalier universitaire de France, détiennent un fond documentaire de plus de 500.000 ressources (articles, livres, presse, posters, textes législatifs, etc.…) et dont les métadonnées sont à disposition du grand public. Ce catalogue, utilisé à la fois par des étudiants et des professionnels du monde médical, ne cesse de s'enrichir et a pour vocation de s'aligner avec de multiples référentiels.

Cependant, depuis des années, les métadonnées bibliographiques ont été gérées selon le paradigme de "notices". Cela veut dire que les informations concernant chaque ressource sont gérées sur une structure de données plate (c.a.d., liste de paires clé-valeur) où la sémantique n'est pas toujours clairement définie. Cette façon de cataloguer est une barrière importante à la gestion et surtout la réutilisation de ces données pour plusieurs raisons. D'abord, le fossé entre le manque de flexibilité des modèles utilisés et le besoin de représenter des structures de connaissances riches et complexes ont conduit à des choix de modélisations très spécifiques et difficiles à interpréter par une machine. Ensuite, l'héritage d'années à utiliser des systèmes et modèles figés a donné lieu à des pratiques de catalogage hétérogènes, souvent éloignées des standards, qui contraignent les possibilités d'interopérabilité avec d'autres sources de données. Un changement radical a été initié pour les données du catalogue HCL en faisant évoluer l'existant format de notices vers un modèle sémantique.

La société Progilone, éditrice de la solution Syrtis, a travaillé avec les hospices civils de Lyon pour réaliser la migration et l'intégration des métadonnées du catalogue dans le nouveau système. Ce travail a soulevé plusieurs challenges liés à l'interprétation automatique des données ou encore la transformation d’un modèle initialement "plat" vers un graphe d'entités et associations. Aujourd'hui, la migration des données HCL a été entièrement réalisée, donnant lieu à une base de connaissances de plus de 3 millions d'entités représentées via l'ontologie FRBR et le vocabulaire RDA.

Il est possible de naviguer dans cette base de données en ligne.

Le projet est désormais passé à l'étape suivante qui consiste en l'alignement et l'enrichissement sémantique des entités via d'autres sources de données, leur diffusion en open-data, selon les standards du Web Sémantique, et leur gestion via de nouvelles pratiques de catalogages. A travers cette présentation, nous revenons sur les challenges rencontrés lors de ce projet d'adoption d'un modèle sémantique pour des données riches et issues de formats anciens. Elle comportera une description de la démarche méthodologique, des solutions apportées ainsi qu'un retour d'expérience pratique sur les nouveaux enjeux liés à la modélisation et à l’intégration de données documentaires.

Références

*[http://www.progilone.fr/fr/syrtis](http://www.progilone.fr/fr/syrtis)
*[BNF Modélisation](http://www.bnf.fr/fr/professionnels/modelisation_ontologies/a.modele_FRBR.html)
*[Transition Bibliographique](https://www.transition-bibliographique.fr/enjeux/definition-rda/)
*[Format Marc](https://fr.wikipedia.org/wiki/Format_MARC">https://fr.wikipedia.org/wiki/Format_MARC)

Auteurs/Autrices

La présentation serait assurée par Joffrey Decourselle de l'entreprise Progilone, candidat au doctorat à l'université de Lyon et spécialiste des problématiques d'enrichissement sémantique de données culturelles.