L'utilisation du standard DCAT à l'Insee
Intervenant⋅e⋅s
Résumé
L’Institut national de la statistique et des études économiques (Insee) joue un rôle crucial en collectant, produisant, analysant et diffusant de nombreuses informations sur l’économie et la société françaises. Face à l’ampleur de cette mission, l’Insee doit relever un défi majeur : assurer la visibilité et la découvrabilité de ses données.
L'Insee a recours aux vocabulaires RDF pour gérer une grande partie de ses métadonnées relatives aux processus métiers. Le jeu de données constituant le point d'entrée principal des résultats statistiques, il est donc essentiel que sa description soit facilement accessible et interopérable avec d'autres catalogues de données.
Afin d'atteindre cet objectif, l'Insee a adopté le Data Catalog Vocabulary (DCAT), un standard du web sémantique publié par le W3C. En s'appuyant sur des classes permettant de définir un catalogue (Catalog), un jeu de données (Dataset) ou encore un fichier (Distribution, représentant un moyen d’accéder à un Dataset, par exemple via un fichier CSV téléchargeable) et sur des extensions du standard DCAT, dont StatDCAT-AP, une extension aux données statistiques publiée par la Commission Européenne, l'Insee vise des premières publications compatibles avec ces standards d'ici fin 2024. Cela lui permettra de rendre ses jeux de données interopérables avec des portails comme la plateforme ouverte des données publiques françaises (data.gouv.fr) ou le portail officiel des données européennes (data.europa.eu), augmentant ainsi la visibilité de ses travaux statistiques.
Pour faciliter cette transition, l'Insee s'est doté de son propre outil de gestion de métadonnées DCAT, l'application Bauhaus, publiée en open source. Cet outil a été conçu pour que les étapes de conception et de construction de ces métadonnées ne soient plus réservées aux experts du standard. Grâce à Bauhaus, l’Insee peut gérer efficacement ses métadonnées, rendant la documentation et l'accès aux jeux de données plus simples et plus accessibles pour une plus large catégorie d’agents. En intégrant ces technologies avancées, l'Insee renforce son engagement à améliorer l'accessibilité et la visibilité de ses données statistiques, répondant ainsi aux besoins croissants des utilisateurs en quête d'informations structurées, fiables et interopérables.
Liens :
- Le standard DCAT
- Le profile d'application DCAT-AP
- L'extension statistique StatDCAT-AP
- L'instance de démonstration de l'outil de gestion DCAT "Bauhaus (à venir)
- Github Bauhaus
- Insee SPARQL Endpoint
Auteur :
Guillaume Duffes a travaillé pendant 8 ans (2011-2019) sur la mise en place d’un référentiel de métadonnées à l’Insee en mettant en œuvre diverses normes et standards dont ceux du Web Sémantiques, et notamment les vocabulaires W3C. Il est revenu sur ces activités à l’Insee depuis septembre 2024.