Construction du référentiel "personnes" du Muséum national d'histoire naturelle

Intervenant⋅e⋅s

Résumé

Le projet datapoc vise à *construire un « référentiel personnes » commun à l’ensemble des services du MNHN afin de consolider les bases de données existantes et de permettre aux chercheurs de croiser, lier et exploiter des données qu’il leur est difficile d’apparier compte-tenu de la dispersion des applications.

En se focalisant sur un petit nombre de personne, le projet a permis en l'espace de quelques mois de démontrer la richesse des gisements de données, de préparer le passage à l’échelle et de commencer à ouvrir les données.

Dans cette présentation, nous souhaiterions partager notre expérience et les difficultés rencontrées, en particulier concernant les choix de modélisation liés à la complexité du domaine et à la multiplicité et la diversité des sources que nous souhaitions intégrer.

Nous avons recueilli des données accessibles selon des modalités diverses : imports de fichiers, moissonnage d'entrepôts OAI, requêtes sparql, conversion de fichiers unimarc...

Nous avons associé des personnes (les naturalistes) à des "objets" divers (spécimens, taxons) à partir de la description de ces objets ce qui a été rendu compliqué par l'utilisations courante d'abbréviations et le grand nombre d'homonymes.

Nous avons fait le choix d'un modèle dynamique, de type Cidoc CRM, au sein duquel les personnes sont alignées sur des Activités.

Nous avons aligné les personnes sur un nombre important d'identifiants (idref, wikidata, orcid, zoobank, isni, bnf, bhl, ipni, viaf, harvard, etc).

Dans le but d'améliorer les données en continu par itérations successives, datapoc permet aux utilisateurs qui consultent les fiches des personnes de faire apparaître les paramètres et les résultats des calculs dont est issu un alignement. Si nécessaire, les utilisateurs peuvent signaler les incohérences et contribuer à l'amélioration de la qualité des données.

Les traitement et les algorithmes qui effectuent les alignements ont ainsi pu évoluer au fur et à mesure des semaines et nous permettre de mieux appréhender les questions liées à un futur passage à l'échelle.

Auteurs/Autrices

Chloé Besombes est cheffe du projet Datapoc au sein du Muséum national d'histoire naturelle de Paris.