Désambiguïsation des données toponymiques du patrimoine : vers un modèle sémantique dérivé du CIDOC CRM

Intervenant⋅e⋅s

Résumé

La composante géographique des données patrimoniales est généralement caractérisée par une forte ambiguïté causée par différents facteurs : variations orthographiques des toponymes selon les langues, les époques ou le contexte ; micro-toponymes qui ne se référent pas à une nomenclature normalisée ; évolution de l’emprise spatiale des lieux désignés par le toponyme ; homonymie ; évolution des modèles géographiques et des systèmes de projection spatiale au cours du temps, etc. En conséquence, leur intégration dans des systèmes d’information géographique nécessite un processus de désambiguïsation préalable qui se traduit par un travail laborieux d’identification et d’indexation des toponymes (par exemple la méthode régressive de Marc Bloch1). Or, cette tâche est régulièrement abandonnée par les producteurs de données patrimoniales du fait de sa complexité technique. De plus, les experts techniques en charge de l’intégration de données ne possèdent bien souvent pas la connaissance et les ressources métier suffisantes pour proposer des solutions répondant à leurs besoins spécifiques. Aussi, les modèles existants ne couvrent pas la diversité des facteurs d’ambiguïté et ne sont pas toujours généralisables à d’autres territoires géographiques et époques historiques (ex : modèle du projet Cassini2)

Cette présentation a pour objectif d’introduire un modèle sémantique dédié à la désambiguïsation des toponymes et micro-toponymes, appréhendable par tous les acteurs du processus d’intégration et applicable à tous types de données patrimoniales, quels que soient les territoires et époques historiques qu’elles recouvrent.

Tout d’abord, un état de l’art présentera une typologie des facteurs d’ambiguïté ainsi qu’une classification des modèles existants. Ensuite, une définition formelle du modèle en OWL sera proposée. Celui-ci s’appuie sur l’ontologie CIDOC CRM, modèle conceptuel de référence du patrimoine culturel et sur son extension CRMgeo qui fournit une « articulation » entre le CIDOC CRM et le standard de la communauté du patrimoine géospatial GeoSPARQL. Enfin, l’utilisation de ce modèle sera illustrée à l’aide d’un corpus de données patrimoniales issues de plusieurs projets de recherche interdisciplinaires relatives au Chinonais.

Ces recherches sont financées par le programme de recherche ARD 2020 Intelligence des Patrimoines3 porté par le Centre d’études supérieures de la Renaissance dans le cadre du projet HeritageS dont l’un des objectifs est de développer une nouvelle forme de valorisation socio-économique et touristique à base scientifique.

Auteurs/Autrices

Damien Vurpillot: Docteur en archéologie et ingénieur de recherche en informatique au sein de l’ARD Intelligence des Patrimoines. Spécialiste des données spatiales et des systèmes de visualisation.

Perrine Thuringer : Docteure en Informatique, spécialiste du Web Sémantique, ingénieure de recherche au sein de l'ARD Intelligence des Patrimoines et cheffe de projet de la plateforme HeritageS.

Johann Forte : Ingénieur spécialisé en traitement des données et signaux 2D/3D et ingénieur d’étude au sein de l’ARD Intelligence des Patrimoines.

Benoist Pierre: Directeur du Centre d'études supérieures de la Renaissance (UMR 7323 et UFR) - Directeur du Programme ARD Intelligence des Patrimoines - Chargé de mission au Ministère de l'Enseignement supérieur et de la Recherche, Secteur des Sciences Humaines et Sociales (DGRI-A6).