Données ouvertes du Parlement Européen - retour d'expérience sur la mise au point et la diffusion d'un "graphe de connaissances" institutionnel

Intervenant⋅e⋅s

Résumé

Entrant dans sa 10ème législature (2024-2029), le Parlement européen est désormais composé de 720 membres élus pour 5 ans, répartis en 7 groupes politiques, qui siègeront, entre autres, au sein de commissions parlementaires permanentes et de délégations ( https://facts-and-figures.europarl.europa.eu/). Durant la 9ème législature, plus de 28000 votes ont eu lieu, plus de 35000 amendements ont été débattus pendant les 1944 heures de séances plénières ( https://www.europarl.europa.eu/plenary/en/bilan-statistic.html).

Ces quelques chiffres donnent un aperçu des données disponibles dans le *portail des données ouvertes du Parlement Européen *. Ce portail propose un accès à des données concernant les députés européens, la structure et l'évolution des commissions parlementaires, les textes adoptés par le Parlement européen, en session plénière avec leur ordre du jour et les métadonnées des documents associés, ainsi que les résultats des votes sur les amendements, amendement par amendement.

Ces données sont évidemment gérées au sein de l'institution depuis longtemps. L'originalité et la force de ce projet tiennent à la conception et à la diffusion d'un "graphe de connaissances" unifié, connectant les données d'une vingtaine d'applications internes, basé sur une sémantique maximisant l'interopérabilité, garantissant la qualité des données et correctement documenté .

Les 242 jeux de données proposés, soit en téléchargement, soit accessibles par API ("application programming interface") totalisent environ 60 millions de triplets actuellement et décrivent les métadonnées d'environ 180000 documents déclinés en plus d'1 million de variantes linguistiques au total, 5000 eurodéputés, 3500 comités et plus de 30000 activités

La présentation donnera un retour d'expérience sur le déploiement de ce projet, en particulier :

  • l'interopérabilité sémantique, basée sur les ontologies de journaux officiels ELI et ELI-DL

(European Legislation Identifier for Draft Legislation), ainsi que sur les tables d'autorités partagées des institutions Européennes .

  • l'utilisation de SHACL (Shapes Constraints Language) comme langage de modélisation opérationnel, permettant une spécification du contenu des jeux de données, un contrôle qualité des données, et la production d'une documentation pour les réutilisateurs
  • le déploiement d'un triplestore AWS Neptune comme base de gestion et de diffusion d'un graphe de connaissances d'environ 60 millions de triplets actuellement
  • l'utilisation de la gestion de provenance avec PROV-O, et des graphes nommés, assurant la traçabilité des données diffusées
  • le déploiement de l' API REST du portail créée en utilisant la technique du "framing" JSON-LD