SemWeb.Pro 2017

Journée de présentations et de rencontres
dédiées au web sémantique dans le monde professionnel

Mercredi 22 novembre 2017, à Paris

Le Web sémantique n'est plus aujourd'hui cantonné au monde de la recherche ou aux démonstrateurs et vient insuffler une véritable dynamique au monde de la gestion de données, big ou non ! Cette édition de SemWeb.Pro sera l'occasion de voir des applications concrètes du web sémantique dans différents secteurs d'activités : industrie, médical, culture, et bien d'autres encore.

Accessible à tout public !

Retrouvez les éditions précédentes : 2011, 2012, 2014, 2015 et 2016.

Programme

Afin de répondre aux besoins sans cesse grandissants d'interopérabilité et d'évolutivité des systèmes d'information, Perfect Memory a bâti une plateforme de réconciliation, d'enrichissement et d'exploitation sémantique capable d'intéropérabiliser des sources de données de toute nature.

En mettant en oeuvre les standards du Web sémantique, tout en respectant la norme OAIS, le middleware sémantique Perfect Memory permet de réconcilier des sources de données hétérogènes en automatisant leur harmonisation selon des ontologies de domaine identifiées.

En outre, son moteur de workflow permet d'orchestrer la construction progressive de graphes sémantiques riches, bénéficiant des traitements métier fournis par les agents connectés à la plateforme. Grâce à la mise en oeuvre de Connecteurs sémantiques, les messages échangés sont des paquets sémantiques autonomes, permettant aux agents destinataires d'exploiter l'information transmise, et de soumettre le fruit de leur traitement métier selon la même approche.

Des interfaces graphiques dédiées à la consultation, la recherche ou plus généralement l'exploitation métier de cette connaissance harmonisée, restituent à leur tour toute la richesse de l'approche sémantique en proposant par exemple, une recherche riche multi-axes, une navigation par graphe ou une catégorisation fine des contenus.

La présentation illustrera avec une démonstration d'un cas d'usage métier, comment les technologies sémantiques mises en oeuvre par Perfect Memory apportent une solution industrielle multi-agent sémantique aux problématiques de désilotage, d'exploitation cross-services et de monétisation des données de l'entreprise.

La plateforme Perfect Memory, primée dans plusieurs événements scientifiques et industriels, est utilisée aujourd'hui par plusieurs grands acteurs des médias, comme RTBF, RTL Belgique, Radio France et TV France International, mais aussi dans d'autres verticaux comme la gestion muséale (Fédération Wallonie-Bruxelles), la presse numérique (Le Point) ou encore le retail.

Il est difficile de se faire une idée du contenu des grands graphes de connaissance. Les outils traditionnels de visualisation de graphes s'avèrent peu pratiques dès que le nombre d'objets et leur degré de connexion augmente, et les interfaces de requête textuelles ou à base de formulaires sont peu adéquates pour accompagner les tâtonnements inhérents aux tâches exploratoires. Pour éviter les requêtes incompatibles avec les données, certains outils guident l'interrogation grâce à l'utilisation de facettes, mais la présentation linéaire ou tabulaire des résultats rend leur interprétation laborieuse.

Le logiciel SemSpect, basé sur une architecture REST avec une interface HTML5, permet l'exploration visuelle de graphes de connaissances RDFS/OWL contenant plusieurs millions d'objets. La particularité de l'approche utilisée réside dans la vue d'ensemble arborescente très synthétique de relations entre groupes d'objets construite pas à pas par l'utilisateur. Cette interaction, guidée à la fois par le schéma et par les données, rend tangibles les relations existant entre les différents types d'objets du graphe tout en limitant la quantité d'informations présentées, les détails sur les objets d'un groupe ou leurs relations restant accessibles à la demande.

Pour pouvoir répondre à des requêtes spécifiques, chaque groupe d'objets de la vue d'ensemble peut être filtré en utilisant la classification prédéfinie par le modèle ainsi que les attributs des objets qu'il contient. Cette fonctionnalité associée à la possibilité d'enregistrer les explorations pour une utilisation ultérieure permet de réaliser l'équivalent de requêtes paramétrées complexes. De plus, tout groupe d'objets obtenu lors d'une exploration peut être utilisé pour créer une nouvelle catégorie (définie par les requêtes implicites qui ont permis son obtention) qui vient affiner la classification initiale. L'utilisateur peut ainsi se constituer peu à peu une boîte à outils d'exploration personnalisée.

La configuration du système permet d'adapter les informations accessibles aux besoins des différents groupes d'utilisateurs (types et attributs des d'objets, critères et granularité de classification, ...) et la déclaration de classes facettes dans le modèle initial donne un accès automatique à des informations statistiques et des moyens de filtrage rapide dans l'interface pour les types d'objets concernés.

Nous présenterons l'architecture du système puis ses principales fonctionnalités à l'aide d'une exploration en direct des données extraites des Panama Papers par l'ICIJ [1]. SemSpect étant actuellement utilisé par une unité policière et par une entreprise produisant des systèmes d'automatisme industriel, nous ferons également part de notre retour d'expérience.

[1] http://panama.semspect.de

Opentheso est un logiciel de gestion de thésaurus multilingue et multihiérarchique, il permet de gérer et de normaliser un ou plusieurs référentiels. Son utilisation est assez simple et conviviale, il s’installe indifféremment sur les plateformes Linux, Mac et Windows. Il est ouvert et interconnectable, gère les identifiants pérennes (ARK, Handle), propose l'import et l'export en SKOS, Json_Ld, Turtle et CSV et dispose de Webservices REST. Opentheso est actuellement utilisé par les 39 bibliothèques du réseau Frantiq (thésaurus Pactols), le GDRI Zoomathia sur la transmission des savoirs zoologiques anciens et bien d’autres.

Voici quelques fonctionnalités du logiciel :

  • gestion avancée des concepts (création, modification, déplacement…)
  • gestion des collections/sous collections
  • alignement automatique et par lot avec gestion des sources d’alignement
  • historique pour chaque concept 
  • fusion des concepts
  • module de gestion de candidats avec système d’alerte automatique
  • gestion des images associées aux concepts
  • gestion des droits à plusieurs niveaux
  • Import/export au format CSV, SKOS, Json-Ld, Turtle
  • Identifiant pérenne (ARK, Handle)

Opentheso est actuellement intégré à plusieurs chaines de traitement de l’information, par exemple, il est connecté nativement au SIGB Koha (Système Intégré de Gestion de Bibliothèque) et à la plateforme « DiscoveryTools » proposée par la société Progilone. Il est aussi connecté à la chaine d’édition numérique de Caen via son « webservices ».

Opentheso bénéficie de soutien de différents partenaires, la TGIR Huma-Num, le GDS-Frantiq, la MAE de Nanterre et le Consortium MASA (Mémoires des Archéologues et des Sites Archéologiques). Il est développé par Mr. Miled Rousset IE1, situé à la MOM au sein du PSIR. Il a aussi bénéficié de nombreux appuis de stagiaires et de CDD. Il est présenté à des nombreuses manifestations, il a fait l’objet de plusieurs ateliers et formations pour la prise en main par les usagés. Il est diffusé Actuellement en OpenSource sur GitHub sous Licence CECIL, accompagné de la documentation pour l’installation et l’aide pour l’utilisateur.

L’arrivée du digital et des nouveaux enjeux qui l’accompagne ont conduit à des modifications profondes dans la structuration de l’information sur le Médicament ; structuration reposant sur la mise en œuvre de terminologies du domaine de la Santé.

Ainsi, les équipes scientifiques VIDAL gèrent aujourd'hui plus de 50 terminologies médicales, permettant d’identifier les médicaments, leurs données administratives et leurs propriétés thérapeutiques des médicaments afin d’alimenter des fonctionnalités d’aide à la décision à destination des professionnels de santé dans les produits VIDAL : recherche d’information, sécurisation de la prescription, facturation, aider au bon usage des médicaments. Pour donner plus de sens à ses données, en faciliter la gestion et améliorer ses produits, VIDAL travaille, depuis quelques années, à des niveaux plus avancés de descriptions de données (ontologies, règles) et à l’intégration des standards du Web sémantique SKOS, RDF, OWL, SPARQL et SPIN du W3C.

VIDAL, garant du bon usage du médicament auprès des médecins, a utilisé sa base de connaissance pour développer des rappels contextuels au moment de la prescription.

Constitués d’un message court et renvoyant vers un texte complémentaire sur vidal.fr, VIDAL MEMO a pour objectif de lutter contre la iatrogénie médicamenteuse.
Dans ce cadre, deux thématiques prioritaires ont été choisies : les risques chez les sujets âgés, et la prescription d’antibiotiques. L’ontologie MEMO (OWL, RDF et SKOS) décrit les conditions de déclenchement des alertes (conditions patient et médicaments) et le contenu des alertes déclenchées (messages courts et explicatifs). L’ontologie alimente un moteur de règle (DROOLS) accessible au travers de l’API VIDAL.

Les médecins bénéficient alors de ces recommandations en lien direct avec leur prescription lorsque qu’une situation à risque est détectée.

Le projet européen ELI (European Legislation Idenfier) consiste à encourager les portails des journaux officiels des états membres à rendre accessible et réutilisable par les machines les métadonnées des lois. A cette fin, une ontologie commune, basée sur FRBR, a été mise au point et est utilisée par les états membres participants pour publier leurs métadonnées. Les métadonnées sont insérées en RDFa dans les pages de chaque portail législatif comme legifrance.gouv.fr en France.

Afin de faciliter ce travail de publication par les états membres, le projet ELI a développé un outil de validation des métadonnées publiées. Ce validateur ELI est basé sur la nouvelle recommendation W3C SHACL. Il permet d'extraire les métadonnées publiées dans une page web en RDFa, de les confronter aux règles de validation, et d'obtenir un rapport de conformité. Ce validateur est utilisé par les participants au projet ELI pour améliorer la qualité des métadonnées publiées.

Les règles de validation SHACL ont été produites à partir d'un tableur Excel, ensuite converti en RDF. Cette technique permet à un état membre de facilement éditer et customiser le jeu de règles de validation à utiliser.

Nous partagerons ce retour d'expérience sur SHACL et nous interrogerons son articulation avec une ontologie OWL.

L’augmentation constante du flux législatif rend la législation de plus en plus complexe. Cette complexité législative touche aussi l’activité économique et crée des charges supplémentaires pour les citoyens et les entreprises

Faciliter l’accès aux informations législatives est un des points essentiels pour mieux comprendre et construire un gouvernement plus ouvert et plus efficace.

L'objectif du projet “Casemates” est d’instaurer un Journal officiel électronique du Grand-Duché de Luxembourg avec une valeur légale, accessible en ligne à titre gratuit, en conformité avec la Directive européenne 2003/98/CE concernant la réutilisation des informations du secteur public (directive dite « PSI »). Le contenu étant dissocié du contenant les données peuvent être réutilisées quel que soit le contexte et quel que soit le format. Elles peuvent également être interconnectées avec d’autres données et sont lisibles par des machines et des humains.

Le projet “Casemates” est basé sur des technologies sémantiques. Le changement de paradigme que constitue le fait de privilégier la publication légale électronique par rapport au mode de publication actuel d͛impression sur papier est par ailleurs une étape importante vers une procédure législative essentiellement digitale.

Le projet a également été motivée par la volonté du Gouvernement luxembourgeois de faciliter l'accès aux informations législatives, modernisation qui constitue par ailleurs un important levier de stimulation du dynamisme économique.

Le projet “Casemates” utilise toute la puissance du web sémantique, comme définie par le W3C dans la perspective du « Web de données » (linked open data). Il s'agit de structurer les ressources pour que les machines puissent mieux les exploiter mais aussi de les mettre à disposition avec une licence qui autorise leur réutilisation par les entreprises, le monde associatif ou toute personne intéressée. Le projet Casemates permet de récupérer et réutiliser aussi bien les fichiers de contenu que les métadonnées descriptives de la législation et des projets législatifs du Luxembourg, sous l'adresse data.legilux.public.lu. Les textes législatifs sont disponibles en différents, notamment en format XML selon le schéma xml LegalDocML pour la structuration du texte, et ELI pour les description des relations.

Les métadonnées sont publiées dans le langage du web sémantique, RDF, selon deux modèles: le modèle JOLux pour décrire les métadonnées des projets et textes législatifs de la manière la plus fine, le modèle ELI (European Legislation Identifier), adopté par plusieurs pays européens ainsi que l’Union Européenne pour partager leurs données législatives dans un format commun et interopérable.

Les vocabulaires contrôlés sont disponibles dans différents formats (xls, html, rdf/skos).

Toutes les ressources décrites disposent d’identifiants pérennes sous forme d’URIs. Les URIs des ressources législatives (actes, consolidations, codes etc.) sont attribuées selon le standard ELI.

L’industrie a développé ces 30 dernières années un certain nombre de normes spécifiques à l’échange de données industrielles. Ces normes visent à répondre à différents besoins comme par exemple celui de l’interopérabilité entre systèmes, la collaboration entre plusieurs acteurs dans le cadre de partenariats ou de l’entreprise étendue, jusqu’à assurer un archivage long-terme.

Nous pouvons citer : l’ISO 15926 pour les usines de procédé et en particulier les installations pétrolières, la norme 16739 dite IFC (Industry Foundation Classes) pour le domaine de la construction de bâtiments, les normes ISO 10303 dites STEP pour l’échange de données produits manufacturiers, les normes de catalogues électroniques de description des produits industriels et de leurs propriétés (ISO 13584 dite PLIB).

Ces normes, toutes issues du comité ISO/TC 184/SC 4 Systèmes d’automatisation et Intégration, ont été spécifiées à l’aide du langage EXPRESS (ISO 10303-11), y compris les nombreuses ontologies comme celles de PLIB. C’est donc de manière toute naturelle que ces normes ont considéré leur évolution dans des langages du Web Sémantique pour leur mise en œuvre lors de l’échange des données géométriques, schématiques, de spécifications, de données d’exploitation et de maintenance à l’aide des infrastructures web actuelles.

En particulier la norme ISO 15926 a été traduite en OWL et elle est mise en œuvre sur de nombreux projets industriels qui exploitent son modèle de données, sa bibliothèque de référence et ses principes pour échanger des données conformément à ces modèle et référence afin de mieux supporter les processus du cycle de vie d’une usine.

La présentation, à partir d’un panorama des normes et d’un état de l’art industriel au niveau international, soulignera les enjeux industriels d’une mise en œuvre concrète des standards du web sémantique pour supporter l’application des nouvelles méthodes d’ingénierie systèmes et l’intégration des données pendant tout le cycle de vie des systèmes industriels.

Elle s’appuiera sur des exemples concrets d’application issus de projets industriels et donnera les perspectives de développement de ces orientations, en particulier en relation avec l’AFNOR et l’ISO/IEC.

Recently, there has been promising technical developments and reporting of specific ontologies for use in industrial domain. Yet, most of the industrial ontology development work remains within the purview of academic research and does not have significant uptake in commercial applications. Lack of semantic interoperability and fully usable ontologies further deepens the chasm between the ontology research and its adoption in the industry. Ontologies are not widely known and used in industry. In contrast, Ontologies have made significant inroads in the Biomedical domain as valuable tools for achieving interoperability of data systems deriving from heterogeneous sources. In this work, we present, a set of principles learned from the successful Open Biomedical Ontologies (OBO) Foundry initiative to guide the design and development of Industry Ontologies Foundry (IOF).

Existing developed ontologies suffer from interoperability. In almost all cases, these ontologies, are developed independently, with no reuse of ontology work from the outside and no attempt to profit from lessons learned in earlier initiatives. Hence, they cannot be exploited as a reference in an industrial large scale.

We advocate that the IOF will advance the issue of interoperability in the industrial domain and the reticence to adhere ontology as a reliable solution for this issue. This reticence is due to the problems that persist in ontology engineering such as building methodologies, reusability, integration, etc. as well as costs and dependability.

In this presentation, we will describe a full-integrated strategy to provide an open ontology framework, called Industry Ontologies Foundry (IOF), involving a suite of principles-based ontologies, which broadly represent a hub-and-spokes model. The hub will contain a small number of reference ontologies that are non-redundant in the sense that they contain no terms in common.

In addition, the standardization and the adherence of the foundry by organizations such as NIST, AFNOR, IFAC, interopVlab, IFIP, etc. will encourage industries to accept ontologies as a trustworthy solution for their interoperability problems.

The presentation will conclude with a demonstration of ontology-based Product-Service System (PSS) applications developed and implemented in the H2020 FoF project FALCON.

Le projet ISTEX est un investissement d'avenir soutenu par l’Agence Nationale de la Recherche visant à doter la France d'une bibliothèque numérique scientifique reposant sur deux axes complémentaires : d'une part, une acquisition massive de publications scientifiques (18 millions) couvrant l'ensemble des disciplines et d'autre part, la mise en place d'une plateforme unique d'hébergement, de gestion et d'accès à ces ressources.

Après avoir lancé en janvier 2016 une première expérimentation visant à publier, selon les normes du web sémantique, des données extraites du projet ISTEX (et présentée à SemWeb Pro en 2016), l’Inist­-CNRS a consolidé cette dernière par l’expérimentation Triplex.

Elle a pour objectif d’agréger de manière cohérente toutes les données extraites du fonds ISTEX et sémantisées dans un outil dédié (lodex). Cette agrégation mène à un SPARQL endpoint contenant un graphe global des données ISTEX. Les données sont publiées en respectant un profil d’application spécifique. Cette approche par profil se différencie des autres approches, en permettant de créer un graphe progressivement. Le résultat doit permettre à des chercheurs et à des documentalistes de faire des requêtes spécifiques sur les données ISTEX structurées en graphe.

Nous avons retenu une solution décomposée en quatre points :

  • création d’une ontologie globale pour ISTEX,
  • création d’un triplestore (SPARQL) agrégeant toutes les données produites et structurées via l’outil lodex,
  • création automatique / semi-automatique / manuelle de liens vers des bases similaires,
  • tester des exemples d’inférences.

Après avoir détaillé cette solution, nous présenterons un exemple d’étude bibliométrique à l’aide de requêtes SPARQL.

Dans le graphe de données que nous interrogerons, il y a toujours un chemin pour arriver aux documents en plein texte exposés par l’API ISTEX. Par conséquent, c’est une autre façon de diffuser et d’exploiter les ressources acquises.

Le projet Azkar réunit le monde de la robotique d'assistance et celui du Web et des données liées. Son but est d'expérimenter la conduite d'un robot mobile via le Web ainsi que l'intelligence artificielle supportée par les formalismes, schémas et jeux de données du Web sémantique dans le cadre de visites muséales. Une première version de production de ce robot est en cours d'expérimentation au Musée de la Grande Guerre de Meaux et à la Cité des Sciences de la Villette.

Les lieux ainsi visités à distance, les espaces et les objets qu'ils contiennent sont décrits à l’aide d’une ontologie des scènes, objets, points d'observations et parcours propres au musée. La géographie et les collections sont capturées dans des données liées et intégrées avec des ressources Web externes au musée pour enrichir les scènes et les objets observés.

Sur cette base, nous avons conçu un démonstrateur permettant de proposer des médias externes en fonction des vitrines visitées, en implémentant un requêtage SPARQL sur un triplestore préalablement peuplé. Ce démonstrateur a fait l'objet d'une démonstration à ISWC 2016 lors de laquelle le robot, piloté depuis le Japon se déplaçait dans nos locaux de Sophia Antipolis et déclenchait une requête SPARQL à l'approche d'un point d'intérêt afin de récupérer des ressources et médias externes à proposer en complément de cette scène.
Dans une seconde phase, actuellement en cours, nous cherchons à proposer, en plus des ressources préalablement enregistrées, des ressources suggérées à la volée à partir de DBPedia ou par Discovery Hub ou un service similaire. Sont aussi prévus des filtres et des outils de priorisation en fonction du type de média, de leur pertinence vis à vis de la scène à enrichir, du public (âge, niveau d'éducation, etc.) et de critères propres au guide qui prépare la visite.

L'évolution suivante sera d'étendre ces outils à la recommandation de parcours. Ainsi le robot pourra suggérer de lui-même des parcours en fonction du temps disponible et des thèmes que l’on désire mettre en avant lors de la visite : Par exemple "AZKAR, propose-moi une visite du Musée de la Grande Guerre de 45 minutes centrée sur l’année 1914 et les vêtements pour une classe de CM2"

En 2015, les Archives nationales, la Bibliothèque nationale de France, le Service interministériel des Archives de France et un laboratoire de recherche en histoire de l’art de l’Université de Montréal au Québec se sont associés pour réaliser une preuve de concept visant à démontrer qu’il est possible :

  • de représenter en RDF, en veillant à la précision, à l’exactitude et à l’utilisabilité des triplets obtenus, des métadonnées archivistiques produites de différentes manières et selon diverses perspectives (celles d’institutions patrimoniales, celles d’un chercheur) ;
  • d’enrichir les triplets obtenus en créant de nouveaux triplets, qu’il s’agisse de procéder à des alignements ou d’établir de nouvelles relations par inférence ;
  • de produire une interface de recherche et d’exploration analytique et graphique qui soit dynamique, ergonomique et signifiante, sans sacrifier la granularité informationnelle ni la lisibilité.

Il s’agit donc de réaliser un démonstrateur, sous la forme d’une application web dont les sources seront placées sous licence libre.

Cette opération est relativement complexe. Il n’y a pas de réel précédent dans le domaine des archives. De plus, jusqu’à tout récemment, il n’existait pas d’ontologie générique du domaine. Le groupe de travail Experts Group on Archival Description (EGAD) du Conseil International des Archives, après avoir publié en septembre 2016 la première version du modèle conceptuel Records In Contexts-Conceptual Model (RiC-CM, cf. http://www.ica.org/fr/egad-ric), prépare, pour la publier à l’automne, une première version de la transposition de ce modèle en ontologie OWL (RiC- O). Enfin, il n’existe pas de librairie ou logiciel satisfaisant directement la totalité des besoins, notamment pour ce qui concerne la visualisation des jeux de données.

Après une phase de sélection (au sein de corpus plus vastes, issus de projets réels) et de préparation des jeux de métadonnées archivistiques à traiter (notices d’autorité et instruments de recherche archivistiques en XML, vocabulaires au format SKOS), le projet est entré dans sa phase finale ce printemps. La conversion en RDF des fichiers XML, conformément à RiC-O, est quasiment achevée. Le démonstrateur est en cours de réalisation par la société Logilab dans le cadre du marché public défini pour le projet. Tous les travaux seront terminés cet automne.

L’équipe projet et la société Logilab proposent de présenter les enjeux et les étapes du projet, ses résultats en particulier les fichiers RDF et le démonstrateur, ainsi que les premiers éléments d’un bilan détaillé, accompagnés de réflexions sur les suites possibles de cette opération.

Openness has thrived in recent years, not only in the Linked Open Data space, but also in Open Science, Open Access, Open Education, Open Educational Resources... but where do we go from here? How could we make the most of all this knowledge sharing over the web? With the diffusion of open-source software and publishing technologies, contributing to the web today is both easy and inexpensive. But how do we go from making content openly available to harnessing the web’s most powerful feature —links— to connect, contextualise, and ultimately make resources more discoverable?

As cultural heritage organisations around the world digitised their collections, they have also built idiosyncratic web applications and digital repositories that are largely disconnected from the rest of the web.

While open publishing practices and increased accessibility are generally positive, discoverability remains a challenge. Moreover, for libraries and cultural heritage organisations, the mission of disseminating knowledge is only half complete if their resources are not easily found and used.

Greater awareness of this need to connect and contextualise resources has led to a growing number of online repositories and digital collections being built with shared ontologies and linked open data in mind. These developments represent concrete steps towards greater interoperability between collections. This creates new opportunities for inter-linking readily available digital resources for enhanced discoverability.

In this talk, André Avorio will investigate the emerging landscape of open and interconnected digital collections from cultural heritage organisations around the world. He will present the challenges and experiences involved in building the Open Music Library (OML), the world’s largest free index of digital resources for the study of music. The Open Music Library is a real professional application that leverages shared ontologies, linked open data and principles of the semantic web to connect disparate music collections and to establish meaningful links between the items they hold.

By aggregating, enriching and integrating valuable digital resources, the Open Music Library aims not only to advance the state of the art in knowledge discovery over the web, but also to create opportunities for creative reuse, and to promote new possibilities for research and collaboration. The initiative currently includes digital music collections from the Bibliothèque nationale de France, Biblioteca Nacional de España, British Library, the Library of Congress, the National Library of Poland, and others.

Le projet de DOREMUS (projet ANR 2015/2018) a pour objectif de permettre aux institutions culturelles, aux éditeurs et distributeurs, ainsi qu’aux communautés de passionnés de disposer de modèles de connaissances communs (ontologies), de référentiels partagés et multilingues ainsi que de méthodes pour publier, partager, connecter, contextualiser, enrichir les catalogues d’œuvres et d’événements musicaux dans le web des données. A cette occasion trois institutions culturelles, la BnF, RadioFrance et la Philharmonie de Paris (Cité de la Musique), mettent à disposition leurs riches catalogues d'oeuvres, enregistrements, partitions, concerts.

Après 2 ans et demi de travail le projet dispose de très nombreux résultats qui illustrent l'ensemble des facettes des technologies du web semantique, du LinkedOpenData mais également des cas de réutilisation de données par des systèmes de recommandation ou de réalité augmentée.

Nous présenterons les différents résultats opérationnels du projet en illustrant de bout en bout la démarche suivie, puis en se focalisant sur les résultats les plus immédiatement utilisables comme Overture, outil de navigation et recherche sur des catalogues musicaux unifiées, Recommender, système de recommandation musicale entrainé avec la programmation de radios musicales, et une expérience d'écoute musicale intégrée au parcours touristique d'une ville; Nice.

The interconnection of data in the Humanities gets more and more in the focus of research projects. Therefore Christopher Johnson developed a Linked Open Data framework that allows through the combination of a Fedora 4 repository with IIIF APIs and triple stores a SPARQL query driven solution for the Presentation (of) Annotations (in a) Digital Object Repository Architecture (PANDORA). The concrete implementation of PANDORA is a group of distributed web applications that depend on a specification document called a “Manifest” for how they present the data to the client. In PANDORA, the Manifest is a JSON-LD document constructed from Digital Object Repository (FEDORA) resources dynamically using SPARQL. The semantics and conceptualization of the Manifest are in the scope of the IIIF Presentation API, within which is defined how the structure and layout of a complex image-based object can be made available in a standard manner. The architecture of the framework allows easy linking and aggregating the data stored in the Fedora repository. It is available through a triple store that has a public accessible endpoint, while the internal data is handeled by an internal triple store.

Through the use of the PANDORA IIIF Manifest Service , the complete graph of a Presentation Manifest represented as several related RDF collections (i.e. sequences of LDP Containers) with their member properties and values can be serialized in JSON-LD with identical semantics and format as the specification. This service additionally allows the dynamic construction of a Manifest document based on SPARQL selection criteria that is available by means of the statements about any annotation resource. In this short presentation we will introduce the architecture and function of the system and like to discuss the possible usage and advantage of a linked data driven solution for digital cultural heritage research.

Les technologies du web sémantique – OWL, RDF et SWRL – permettent d’exprimer, dans une ontologie, 100% du « quoi » métier sous une forme précise et compacte, facilement compréhensible par les « sachants », en toute indépendance du « comment » informatique.

Basée sur la logique formelle, cette ontologie est exécutable : on peut lui fournir des données de tests et les résultats obtenus sont explicables, dans le langage du métier, jusqu’au niveau de détail le plus fin. Il est donc possible d’identifier les erreurs conceptuelles au tout début du cycle de développement, quand le coût du changement est le plus faible. Après quelques itérations, la MOA est en mesure de fournir une spécification correcte et complète du problème métier.

Grâce à une API automatiquement générée, l’ontologie est utilisable telle quelle par les informaticiens, dans le langage de leur choix. Libérés de l’interprétation du problème métier, la MOE peut se concentrer sur la construction technique de la solution, en ajoutant ce qui n’est pas défini dans l’ontologie (et qui ne doit pas l’être, sous peine d’introduire du « bruit » non sémantique) : frameworks IHM, bases de données, intergiciel, protocoles de sécurité, etc.

Comme la totalité du problème métier est exprimée dans l’ontologie, le nombre de lignes de code à écrire est considérablement réduit. En cas de changement, l’ontologie est modifiée, validée et réutilisée au travers de l’API générée à nouveau. On obtient ainsi une agilité exceptionnelle combinée à une qualité proche du zéro défaut, malgré les changements.

Comme toute nouvelle application doit nécessairement être intégrée à un patrimoine souvent « en silos », la même démarche, centrée sur l’expression du sens métier profond, est appliquée à l’intégration : on sépare la définition du « quoi » métier de l’intégration technique en alignant le sens métier de tous les systèmes pour que les données partagent une sémantique commune.

Cette démarche est rendue possible grâce à la plate-forme ontologique ODASE avec laquelle plusieurs systèmes « centrés ontologie » ont été développés et mis en production. Une originalité forte de ODASE est d’inclure à l’ontologie des règles métier exprimées en SWRL, exécutées à très haute performance et rendant toute l’application transparente pour les métiers.

Nous présenterons une application du domaine ferroviaire : la corrélation d’alarmes. Cette application doit exploiter des données provenant de trois systèmes d’information conçus indépendamment, unifier leur sens et modéliser les corrélations d’alarmes par des techniques du domaine de l’IA. Cette application « centrée ontologie », développée en un mois, contient moins de 500 lignes de code (Java, Javascript) et s’exécute avec une performance comparable à celle d’une application codée « en dur ».

API Platform est un framework web qui propose des outils très simple à prendre en main pour créer et consommer des API Linked Data supportant nativement JSON-LD, Hydra et Schema.org.
Cette solution totalement open source (license MIT) est basée sur les technologies familière pour les développeurs web : PHP (et le framework Symfony) et JavaScript (et ReactJS).

Nous découvrirons comment importer un modèle de données depuis Schema.org, l'exposer via une API web compatible Linked Data (via JSON-LD) et l'adapter grâce au framework Symfony.

Cette API sera 100% fonctionnelle, et elle supportera la validation, la pagination, les filtres, l’imbrication de ressources, sera documentée via Swagger et Hydra et disposera d’une interface graphique orientée développeur.

Nous découvrirons ensuite les outils frontend du projet :

  • Un système d’administration complet (à la Sonata), construit automatiquement en découvrant l’API et bénéficiant d’une interface moderne (Material Design) basée sur React et Redux
  • Un générateur de code permettant de créer des interfaces webapp ReactJS et applications mobiles React Native.

Le premier âge du Web s'est limité à un Web des documents liés, décrits en HTML et affichés par un navigateur hypertexte. Avec l'avènement du Web des données, ce sont des données liées qui sont échangées entre le client et le serveur. Ces données sont encodées avec de multiples vocabulaires métiers, sans être encapsulées dans des documents et des descriptions textuelles.

Il nous a donc semblé nécessaire de nous interroger sur ce que pourrait être un navigateur pour le Web des données, qui ne se limiterait pas à l'affichage de documents et permettrait à son utilisateur de parcourir le gigantesque graphe global des données liées en choisissant à chaque noeud la visualisation la plus adaptée à la tâche en cours.

Dans ce but, nous avons réincarné sous une forme moderne les idées développées dans le cadre de l'interface utilisateur du logiciel CubicWeb. Le résultat est un ensemble de composants libres écrits en JavaScript, qui peuvent être assemblés puis installés comme une extension des principaux navigateurs (Web Extension pour Firefox et Chrome).

Les données incluses dans des pages HTML (RDFa, JSON-LD), ainsi que celles issues des API (REST, HAL, Hydra, JSONSchema, etc.) peuvent affichées avec la vue choisie par l'utilisateur parmi celles qui correspondent au vocabulaire utilisé pour les encoder.

Orateurs

André Avorio

Open Music Library

Cédric Klein

Perfect Memory

Christopher Johnson

UB Leipzig

Dimitri Kiritsis

EPFL

Florence Clavaud

Archives Nationales

Guillaume Rachez

Perfect Memory

Jean Delahousse

Consultant indépendant

Jörg Wettlaufer

GCDH

John Dann

Journal Officiel du Grand Duché du Luxembourg

Kevin Dunglas

Les Tilleuls

Michel Buffa

INRIA

Michel Vanden Bossche

ODASE Ontologies SPRL

Miled Rousset

Maison de l'Orient et de la Méditerranée

Nicolas Chauvat

Logilab

Stéphanie Gregorio

Inist CNRS

Suzanne Pereira

VIDAL

Thomas Francart

Sparna

Vincent Vialard

Derivo GmbH

Comité de programme

Cette année, le comité de programme est constitué de

Inscriptions

Les inscriptions sont ouvertes !

Comme l'an dernier, le déjeuner aura lieu au restaurant Francilien, situé à l'étage, au FIAP Jean Monnet.


Billetterie Weezevent

Pour toute demande d'informations, envoyez un courrier électronique à contact@semweb.pro.

Comment passer le temps d'ici le 22 novembre ?

Nous vous suggérons d'assister aux soirées du groupe Paris Web of Data et de suivre le MOOC A Web of Linked Data sur France-Université-Numérique !

Informations pratiques

SemWebPro mercredi 22 novembre 2017 de 8h45 à 17h45

Contact: contact@semweb.pro / @semwebpro / #semwebpro

FIAP Jean Monnet
30 rue Cabanis
75014 Paris
Afficher sur OpenStreetMaps