SemWeb.Pro 2019

Journée de présentations et de rencontres
dédiées au web sémantique dans le monde professionnel

Mardi 3 décembre 2019, à Paris

Les techniques et standards du Web sémantique se sont imposés dans de nombreux domaines. En facilitant l'interopérabilité au travers du Web, ils donnent un nouveau souffle à l'intégration de données hétérogènes et à la construction de graphes de connaissances qui servent de fondations à des écosystèmes métiers dynamiques. Cette édition de SemWeb.Pro sera l'occasion de mettre en avant les synergies et complémentarités entre le Web sémantique et les approches connexes issues des bases de graphe (Property Graph, GraphQL, etc), qui accélèrent le développement d'applications concrètes dans différents secteurs d'activités : industrie, médical, culture et bien d'autres.

Accessible à tout public !

Retrouvez les éditions précédentes : 2011, 2012, 2014, 2015, 2016, 2017 et 2018.

Programme

La gestion d'actifs digitaux est une nécessité pour nombre d'organisations, et ceci dans une diversité de domaines: médias, retail, renseignement, sport...

A chacun de ces domaines s'associe une connaissance métier propre, qui trouve dans les formalismes sémantiques les moyens pérennes et évolutifs de les modéliser.

Bien souvent, le changement de paradigme (et de pensée) qu'implique l'approche sémantique est un frein fort pour ces institutions qui y voient un travail lourd et complexe, au retour sur investissement trop faible. Et pourtant...

Modéliser la connaissance métier, c'est ni plus ni moins que rendre l'implicite explicite. Cet implicite qui oblige bien souvent les utilisateurs à reproduire des tâches répétitives, à ne pas retrouver leurs actifs digitaux, à perdre une efficacité opérationnelle et donc de l'argent. Car oui, les assets digitaux sont bien des actifs, avec la valeur que cela implique, appelé à fortement décroître en cas de difficulté de leur accès.

A travers la mise en oeuvre de sa plateforme Raffiné, Perfect Memory partagera son expérience sur les barrières levées et les problématiques opérationnelles résolues grâce à l'approche sémantique et les outils développés permettant de l'exploiter de manière "métier". En s'appuyant sur les cas d'usage de l'équipe digitale d'un club sportif de ligue 1 de football, la présentation se focalisera sur des exemples concrets de mise en oeuvre à forte valeur ajoutée, ayant convaincu cette institution non familière des technologies sémantiques à "changer de paradigme". Par la démonstration des outils de traitement, d'enrichissement et d'accès aux actifs digitaux sportifs, Perfect Memory présentera l'amélioration très importante de l'efficacité opérationnelle des utilisateurs.

La plateforme Perfect Memory est utilisée aujourd'hui par plusieurs grands acteurs des médias, mais aussi dans d'autres verticaux comme les clubs sportifs, la presse numérique ou encore le retail.

Vidéo d'exemple d'utilisation de la plateforme Perfect Memory : https://www.youtube.com/watch?v=azWJRMc_iSI

Lorsqu’un enseignant ou un étudiant recherchent des ressources pédagogiques pouvant être utilisées dans un cours, il utilise au mieux des moteurs de recherches spécialisés, comme par exemple ceux proposés les Universités Numériques Thématiques (UNT) ou le portail Sup-numérique de l’enseignement supérieur, ou, au pire, il utilise des moteurs généralistes tels que Google. Dans ces cas, il réalise cette recherche par essais/erreurs en testant des mots clés et en analysant les résultats proposés.

L’objectif du projet LOFAR (http://lofar2.insa-rouen.fr/), pour Liaison entre Offre de FormAtion et Ressources pédagogiques, est de faciliter ce processus à l’aide d’un moteur de recherche spécialisé. Plutôt que d’extraire des mots clés décrivant le cours choisi, l’utilisateur sélectionne le cours. Le moteur LOFAR extrait alors les informations pertinentes et recherche automatiquement les ressources les plus adéquates. Pour réaliser cela, il utilise des publications de descriptions d’offres de formation et de ressources pédagogiques dans le Web des données. Plus exactement, le moteur LOFAR utilise trois types d'entrepôt RDF possédant chacun une entrée SPARQL:

Le premier contient des descriptions d’offres de formations. Il existe plusieurs standards XML pour les décrire (CDM, LHEO, etc.) et la communauté scientifique a proposé différentes représentations pour le web des données durant la dernière décennie. C’est ce que nous avons par exemple fait avec le projet IFLOT (http://iflot.insa-rouen.fr).

Le deuxième contient des descriptions de ressources pédagogiques. Historiquement, deux normes ont été publiées par l’AFNOR pour les décrire, le LOMFR en 2007 et le NoDEfr (partie 1) en 2019. Comme le LOMFR ne prévoyait pas de binding RDF, encore une fois, la communauté scientifique en a proposé plusieurs dans les années 2010. Le NoDEfr, quant à lui, prévoit nativement une représentation de ces informations en RDF (https://sourcesup.renater.fr/www/nodefr/).

Enfin le troisième type d'entrepôt est un annuaire qui référence des entrepôts des deux types précédents et qui indique comment les utiliser.

Notre démonstrateur utilise des prototypes d'entrepôts (des trois précédents types) que CentraleSupelec (http://semunt.supelec.fr) et l’INSA Rouen Normandie (http://linkeddata.insa-rouen.fr) publient.

Plateforme de mutualisation de flux logistiques dans le domaine des circuits courts alimentaires, via le développement de standards techniques et sémantiques permettant aux partenaires du projet d’inter-opérer leurs données. Le projet repose sur l'adoption d'un standard qui inclue le web sémantique tout en restant le plus pragmatique possible et minimisant les coûts humains et technologiques d'évolutions pour ces plateformes. Le priorités fonctionnelles sont la mutualisation des catalogues puis des stocks puis la mutualisation logistique. La présentation permettra d’introduire le concept et l’écosystème d'acteur puis de rentrer plus en profondeur sur la technologie sémantique utilisée et les protocoles choisis. Nous finirons par un démonstration du prototype.
- Les présentations qui vont être actualisées - périmètre fonctionnel - architecture technique - le standard http://datafoodconsortium.org/
Ayant déjà participé au Semweb pro en présentateur il y a deux ans, je souhaite exposer nos avancées sur l'utilisation des technos sémantiques pour l'analyse d'infrastructures informatiques. Corrium est un robot de diagnostic (www.corrium.com) qui contrôle les éléments d'une infrastructure informatique et apporte des prescriptions sous forme de plan d'action. Nous avons développé une ontologie pour représenter une infrastructure informatique et nous l'utilisons pour formaliser les dumps de configuration. Nous avons développé un moteur d'inférence basé sur des règles en Sparql et envisageons de tout passer en SHACL dans les prochains mois. Le sujet du web sémantique est présenté ici sous une utilisation peu courante et il est toujours intéressant de percevoir la gestion des connaissances dans un autre domaine.

OpenArchaeo est une plateforme du consortium MASA (Mémoire des Archéologues et des Sites Archéologiques) pour l’interopérabilité des données archéologiques. L’objectif de cette plateforme est double. Il s’agit d’une part de mettre à disposition sur le web sémantique les jeux de données archéologiques produits dans le cadre du consortium MASA, sous la forme d’un triplestore MASA disposant de données alignées avec l’ontologie du CIDOC-CRM et ses extensions dédiées à l’archéologie. Il s’agit d’autre part de proposer une interface d’interrogation intuitive pour les données archéologiques inspirée du moteur de recherche ResearchSpace mis en place par le British Museum, OpenArchaeo étant pour sa part spécifiquement dédié à l’archéologie.

Les particularités de cette plate-forme au regard de l’état de l’art sont :

  1. Le mapping de données archéologiques existantes, sous forme de bases relationnelles et de fichiers XML, vers le modèle CIDOC-CRM et son extension archéologique;
  2. L’aggrégation automatique des données des référentiels (GeoNames et PACTOLS) qui sont utilisées pour indexer les descriptions archéologiques;
  3. Une mise en oeuvre d’une fédération de requêtes SPARQL, c’est-à-dire l’interrogation de plusieurs bases de façon transparente par la même requête SPARQL;
  4. Le développement d’un composant de navigation intuitif dans les données, permettant de construire visuellement des requêtes SPARQL; ce composant est open-sourcé et autonome, baptisé Sparnatural;

Data&Musée est un projet exploratoire visant à améliorer les systèmes d’information d’institutions culturelles. Nous faisons l’hypothèse que la promotion du patrimoine culturel peut bénéficier des techniques récentes de représentation et d’exploration des connaissances.

Plus spécifiquement, Data&Musée explore une idée portée par deux types d’actions:

  • mutualiser les données d’un ensemble d’organismes culturels
  • assembler les données d’un organisme avec des données relatives à son environnement

Cette approche permet d’enrichir les analyses qu’on peut faire sur ces données, les données d’une institution contribuant à une meilleure compréhension des données des autres, elles même améliorées par des données de leur environnement.

Pour cela, nous avons besoin d’enrichir des ensembles de données issues des partenaires du projet et d’en assurer l’interopérabilité. Une approche reconnue pour assurer ce type d’exploitation de données est l’utilisation des technologies du web sémantique, qui ont montré leur puissance pour le développement des connaissances dans divers domaines comme le tourisme (Soualah Alila et al., 2016; Al- Ghossein et al., 2018), les villes intelligentes (Consoli et al., 2015; Gyrard et al., 2016) ou la valorisation du patrimoine culturel (Lodi et al., 2017). Ces techniques permettent d’assurer une représentation unifiée de données hétérogènes mais apparentées, ce qui facilite le liage et l’enrichissement de ces données.

Data&Musée reçoit, dans un premier temps, des données de 14 musées du groupement Paris Musées, et des 85 musées et monuments du Centre des Monuments Nationaux. En comptant les deux groupements, cela fait exactement 101 institutions qui fournissent des données. La fédération de ces institutions dans deux groupements facilite les interactions nécessaires à la collecte des données.

Data&Musée bénéficie des expertises de plusieurs entreprises spécialisées dans le traitement de certains types de données –billetterie, livre d’or- ou dans les services numériques pour institutions culturelles. Deux laboratoires de recherche contribuent à l’élaboration des solutions retenues : Telecom ParisTech et la chaire UNESCO ITEN.

Nous allons d’abord présenter ici la nature des données collectées et le volume de certaines d’entre elles. Nous évoquerons ensuite les choix de représentation et la méthode retenue pour leur intégration. Enfin, nous aborderons la nature des traitements que nous effectuons ou prévoyons sur ces données et des questions auxquelles nous espérons pouvoir répondre.

A l’issue du projet, nous espérons pouvoir présenter aux institutions et à leurs visiteurs des moyens de mieux percevoir les possibilités offertes pour une amélioration de leurs choix.

Le Dictionnaire Des Francophones (DDF) est un dictionnaire collaboratif en ligne articulant plusieurs ressources lexicographiques décrivant le français, dont le Wiktionnaire. Il est pensé d’emblée comme un nouvel espace numérique donnant non seulement accès à un riche patrimoine culturel international, mais offrant également l’opportunité de recueillir et partager la matière linguistique vivante que pratique au quotidien les francophones du monde entier. Le dictionnaire des Francophones est un projet de la Délégation Générale à la Langue Française et aux Langues de France (DGLFLF) du Ministère de la Culture, dont l’opérateur est l’Institut International de la Francophonie (2IF, Université Jean Moulin Lyon 3) et dont la réalisation a été confiée à Mnémotix. Cette plateforme présente plusieurs aspects innovants que cette présentation s’attachera à montrer et illustrer par une démonstration.

L’ontologie au coeur de cette plateforme propose une extension des modèles lexicographiques existants (Ontolex, Lemon) afin de pouvoir articuler plusieurs dictionnaires entre eux et d’en capturer toutes les subtilités, et aussi d’inclure au coeur du modèle la dimension collaborative et le débat. Par exemple les notes d’étymologie des dictionnaires sources sont conçues comme les premiers messages de fils de discussions pouvant être alimentés par les usagers de la plateforme. La localisation géographique (basée sur Geonames) des définitions ou des formes lexicales permet quant à elle de traduire précisément l’ancrage géographique de mots et de leur usage. Enfin une grande variété de relations sémantiques, décrites dans un thésaurus, peuvent être tissées au sein des mots et des définitions.

En terme d’interaction, la plateforme collaborative que constitue le DDF offre aux usagers la possibilité d’explorer le contenu à travers le prisme de la géolocalisation ou des relations sémantiques, mais les invite également à l’enrichir et à l’améliorer. Tout un chacun peut contribuer à sa manière en ajoutant notamment des entrées, des exemples, en participant aux espaces de discussions, en signalant ou en validant des articles, en enrichissant les définitions existantes, ou simplement en précisant la localisation d’une forme ou d’un sens. La contribution ne peut se faire que par l’ajout d’information. C’est à dire qu’une information déjà présente ne peut être modifiée ou supprimée, ceci pour éviter des corrections abusives qui résulteraient de simples divergences d’opinion.

D’un point de vue technologique, le DDF repose sur Synaptix, le middleware open source développé par Mnémotix dont l’architecture allie la réactivité de solutions big datas à la flexibilité des systèmes de connaissances à base de graphes RDF. Synaptix est un serveurde message basé sur le protocole AMQP. Il gère les échanges entre les différents services qui composent le DDF: un service qui s’occupe du moissonnage des données provenant du dictionnaires intégrés (le ​ Wiktionnaire et l’​ Inventaire des particularités lexicales du français en Afrique noire dans un premier temps) et de leur transformation en données RDF; un service qui s’occupe de la mise à jour de ces données sémantiques et de l’alignement des données provenant de sources diverses; enfin un service qui fait l’indexation de ces données afin qu’elles soient servies rapidement à l’applications cliente. L’interface avec cette application Web cliente se fait via une API GraphQL qui permet de combiner plusieurs requêtes en un seul appel HTTP.

La présentation se déroulera en 3 temps: 1) présentation de l’ontologie DDF, 2) présentation de l’architecture de la plateforme basée sur Synaptix, et 3) démonstration.

http://www.dictionnairedesfrancophones.org

Le projet datapoc vise à *construire un « référentiel personnes » commun à l’ensemble des services du MNHN afin de consolider les bases de données existantes et de permettre aux chercheurs de croiser, lier et exploiter des données qu’il leur est difficile d’apparier compte-tenu de la dispersion des applications.

En se focalisant sur un petit nombre de personne, le projet a permis en l'espace de quelques mois de démontrer la richesse des gisements de données, de préparer le passage à l’échelle et de commencer à ouvrir les données.

Dans cette présentation, nous souhaiterions partager notre expérience et les difficultés rencontrées, en particulier concernant les choix de modélisation liés à la complexité du domaine et à la multiplicité et la diversité des sources que nous souhaitions intégrer.

Nous avons recueilli des données accessibles selon des modalités diverses : imports de fichiers, moissonnage d'entrepôts OAI, requêtes sparql, conversion de fichiers unimarc...

Nous avons associé des personnes (les naturalistes) à des "objets" divers (spécimens, taxons) à partir de la description de ces objets ce qui a été rendu compliqué par l'utilisations courante d'abbréviations et le grand nombre d'homonymes.

Nous avons fait le choix d'un modèle dynamique, de type Cidoc CRM, au sein duquel les personnes sont alignées sur des Activités.

Nous avons aligné les personnes sur un nombre important d'identifiants (idref, wikidata, orcid, zoobank, isni, bnf, bhl, ipni, viaf, harvard, etc).

Dans le but d'améliorer les données en continu par itérations successives, datapoc permet aux utilisateurs qui consultent les fiches des personnes de faire apparaître les paramètres et les résultats des calculs dont est issu un alignement. Si nécessaire, les utilisateurs peuvent signaler les incohérences et contribuer à l'amélioration de la qualité des données.

Les traitement et les algorithmes qui effectuent les alignements ont ainsi pu évoluer au fur et à mesure des semaines et nous permettre de mieux appréhender les questions liées à un futur passage à l'échelle.

Depuis 2013, un groupe de travail du Conseil international des Archives (ICA-Expert Group on Archival Description) prépare un nouveau standard pour la description des archives, Records in Contexts (RiC). L’objectif est de fournir aux archivistes, records managers et institutions patrimoniales responsables d’archives un cadre conceptuel abstrait et un modèle formel (ontologie OWL) génériques, centrés sur les entités à décrire et compatibles avec les modèles de métadonnées antérieurs. Comme CIDOC-CRM pour les œuvres d’art et IFLA-LRM pour les livres et autres objets édités conservés en bibliothèque, RiC modélise sous forme de graphe, de façon précise et flexible, les archives et les différentes couches de contexte dans lesquelles celles-ci s’inscrivent. Après la publication d’une version 0.1 du modèle conceptuel RiC-CM en août 2016 , le groupe EGAD publiera cet automne une version 0.2 de RiC-CM. En octobre 2019, une version 0.1 de l’ontologie RiC-O sera également rendue publique, accompagnée d’un appel à commentaires. Les Archives nationales sont très impliquées dans l’élaboration de RiC.

Nous nous proposons de donner un aperçu des principes qui ont guidé l’élaboration de RiC-CM v0.2 et de RiC-O v0.1, puis de leur contenu.

Nous présenterons ensuite les travaux en cours aux Archives nationales pour mettre en œuvre RiC. En effet, après la mise en ligne en mars 2018 d’une preuve de concept (PIAAF), des opérations de plus grande ampleur y sont menées. En particulier, la société Sparna a réalisé pour les Archives nationales un outil de conversion en données RDF conformes à RiC-O de l’ensemble des métadonnées de description des archives conservées dans cette institution. Le code source et la documentation de ce convertisseur seront publiés sous licence libre avant décembre 2019. Nous pourrons présenter publiquement pour la première fois cet outil ainsi que les données RDF des Archives nationales.

Retour d’expérience sur un cas concret : enrichissement d’une ontologie à partir de l’analyse de publications scientifiques sur la résistance aux antibiotiques.

Proxem est pionnier de l'analyse sémantique des données textuelles pour l'entreprise. Sa technologie est fondée sur une technologie hybride d'extraction d'informations et de gestion des connaissances grâce à l'IA, et d'outils linguistiques d'analyse sémantique.

Dans le cadre d’un projet de mise en place d’un outil de veille scientifique sur le sujet de la résistance aux antibiotiques, nous avons exploré comment, à partir d’une ontologie dédiée à la recherche scientifique (dans le cas présent CARD (The Comprehensive Antibiotic Resistance Database)), il était possible d’exploiter les ressources de ladite ontologie à des fins d’analyse automatique, et de proposer de nouvelles relations susceptibles d’enrichir l’ontologie de départ.

En particulier, il s’agissait de proposer des relations « confer resistance » entre des déterminants (ou mécanismes) de résistance, des antibiotiques et des bactéries.

Les sujets abordés dans le cadre de ce projet sont :

  • Récupération de l’ontologie source, compréhension de sa structure et sélection des éléments transformables en « lexiques » pour l’analyse automatique.
  • Problèmes liés à la lexicalisation des éléments de l’ontologie (reconnaissance des formes fléchies, des composés, identification des « unités lexicales ». Par exemple structure « syntaxique » des déterminants de résistance.
  • Problèmes de tokenisation associés Nous montrerons comment nous avons extrait des lexiques d’antibiotiques, de bactéries et de déterminants de résistance
  • Problèmes liés à l’exploitation de connaissances non « lexicalisées » dans l’ontologie : par exemple comment extraire le vocabulaire utilisé dans les définitions, pouvant servir à identifier des mécanismes complexes de résistance.
  • Les mécanismes de résistance sont complexes, mettant en jeu des mutations génétiques, des membranes cellulaires, des enzymes : l’enjeu, dans un dialogue avec des spécialistes du domaine, était d'une part de déterminer les éléments « lexicaux » permettant de donner des indices de détection d’un mécanisme de résistance exprimé dans un article scientifique et d'autre part d'identifier les structures phraséologiques plus complexes, permettant d’augmenter le rappel.
  • Association d’un score aux relations identifiées.

Nous présenterons les résultats obtenus et les pistes d’améliorations envisagées.

A major challenge in cyber-physical environments is the increasing heterogeneity that complexifies access to devices. This challenge can be addressed by hingin, a linked-data compatible property-graph-based platform promoted by Orange. Besides being able to represent cyber-physical environments at a system-level, hingin can provide uniform access to heterogeneous devices in them. However, a necessary condition for hingin to satisfy this goal is to have a description of these devices. Nevertheless, the heterogeneity related to devices are well present in their descriptions and mainly include syntactic and semantic heterogeneity that occurs as a result of the varying data formats and vocabularies respectively. Consequently, inputting these descriptions in hingin remains a challenge. To tackle this challenge, standards and technologies that were originally conceived for the Semantic Web can be used. More specifically, RDF may be used to handle syntactic heterogeneity by acting as a lingua franca as it is independent of data formats. Also, it may be used to resolve semantic heterogeneity by using vocabularies and ontologies to eliminate the ambiguity of terms as it fixes their interpretations. However, transforming the existing description of objects to RDF is again challenging. Mapping languages can be used to encode the transformation. However, their usage is complex even with the intervention of human experts as it involves manually considering data elements from the device description and looking for ontology terms to which they can be mapped. Thus, in this work, our aim is to provide a semi-automatic and generic approach to facilitate the generation of RDF from heterogeneous device description. We chose a semi-automatic approach to compensate for the lack of semantics in device description and potential imprecision in the final transformation. Moreover, our approach is generic in that it is independent of hingin and can interoperate with any other platform via its RESTful API. Our approach takes as input the raw description extracted from sources such as the object manuals, keywords that describe schema elements in the latter description and a set of ontologies. It outputs possible mappings to transform the object description to RDF. To generate these mapping rules, the approach first identifies ontology entities that can be used to model individual schema elements from the input data by calculating a similarity score between them. If the score exceeds a certain threshold specified by the human expert, an ontology entity is considered a suitable mapping for a schema element. Using the latter mappings, the mappings rules are generated. Finally, the human expert chooses, modify and refine one of the mappings that are finally used to transform the original data to RDF.
https://drive.google.com/open?id=1FmgmwrIJKi9xGvDjmjU3sosohuatb4_G

Le Web Sémantique voit d’abord les graphes comme des graphes de connaissance, dont les arcs représentent des prédicats logiques. Mais les graphes sont utilisés depuis bien plus longtemps, et plus directement, comme modèles de systèmes physiques, typiquement pour capturer leur structure en tant que relations entre leurs sous-systèmes. La plateforme Thing’in associe ces « graphes de systèmes cyber-physiques » (CPS) et les graphes RDF au travers du modèle « property graph » (PG) commun aux bases de données graphe.

Les graphes CPS ne doivent pas être réduits aux graphes RDF, pour 3 raisons principales :

1. Les graphes CPS ont une sémantique qui leur est propre, par exemple une sémantique par similarité lorsqu'un graphe capture la structure d'un réseau physique tel qu’un réseau électrique ou un réseau de transport. Ce type de sémantique s’applique aux graphes dans leur ensemble et n’est pas réductible à la sémantique par ressource individuelle que RDF décrit.

2. Le méta-modèle RDF est trop contraignant pour capturer correctement les graphes CPS en tant que modèles de systèmes physiques. : si un arc de ces graphe CPS représente une connexion physique entre deux nœuds, comme par exemple une canalisation dans un système de distribution d'eau, il doit pouvoir posséder en propre des propriétés, comme la capacité de cette canalisation. Un graphe RDF ne peut pas supporter nativement (sans recourir à une réification) de telles propriétés d’un arc.

3. Les graphes CPS sont classiquement utilisés par des algorithmes qui analysent les aspects clés de leur structure globale, comme par exemple des évaluations de distributions de degrés ou de coefficients de clustering. Les graphes RDF sont inadaptés à l’utilisation de tels outils, car ils dissolvent la structure de graphe en mélangeant des arcs structurels avec de simples liens de propriété et de typage.

Un modèle de graphe adéquat pour les graphes CPS doit donc conserver toute l'expressivité et la structure native de ces graphes sous ces trois aspects. Le modèle PG, issu des bases de données graphes, satisfait ces conditions. Les PG permettent, d’abord, de distinguer en tant que « relations » les arcs qui représentent l'échafaudage structurel d'un système; les liens physiques entre des entités physiques sous-jacentes, elles-mêmes représentées comme des nœuds du graphe. Les propriétés (proches des properties RDF ou attributs de modélisation objet) sont directement associées aux entités ET aux relations.

La sémantisation d'un PG au sens du web sémantique revient à la superposition d'un graphe RDF au-dessus du PG, associant aux ressources du graphe (nœuds, relations et propriétés) des types formellement définis dans des ontologies. Le standard NGSI-LD défini par le groupe CIM de l’ETSI permet d'exporter les PG au format JSON-LD, apportant les atouts conjoints des CPS, des BD graphes, du RDF et des « linked data ».

Sélection de publications sur le sujet. : (voir ResearchGate pour liens vers preprints)
  • Gilles Privat Thierry Coupaye, Sébastien Bolle, Philippe Raipin Parvedy, WoT Graph as Multiscale Digital-Twin for Cyber-Physical Systems-of- Systems, 2nd W3C Web of Things Workshop, Munich June 2019
  • Gilles Privat, Abdullah Abbas, , Cyber-Physical Graphs vs. RDF graphs, W3C Workshop on Web Standardization for Graph Data, Berlin, March 2019
  • Abdullah Abbas, Gilles Privat: Bridging Property Graphs and RDF for IoT Information Management. Scalable Semantic Web Knowledge Base Systems, co-located with 17th International Semantic Web Conference (ISWC 2018), Monterey, California, USA; 10/2018
  • Wenbin Li, Gilles Privat, José Manuel Cantera, Martin Bauer, Franck Le Gall: Graph-based Semantic Evolution for Context Information Management Platforms. 2018 Global Internet of Things Summit (GIoTS), Bilbao, Spain; 06/2018, DOI:10.1109/GIOTS.2018.8534538
  • Wenbin Li, Gilles Privat, Franck Le Gall: Towards a Semantics Extractor for Interoperability of IoT Platforms. Global IoT Summit, Geneva; 06/2017, DOI:10.1109/GIOTS.2017.8016247
  • Wenbin Li, Gilles Privat: Cross-Fertilizing Data through Web of Things APIs with JSON-LD. European Semantic Web Conference, Workshop on "Services and Applications over Linked APIs and Data", Heraklion, Crete; 05/2016
  • Dana Popovici, Gilles Privat: Capturing the Structure of Internet of Things Systems with Graph Databases for Open Bidirectional Multiscale Data Mediation. The Second International Workshop on Large-scale Graph Storage and Management, Rome; 05/2015
  • Mengxuan Zhao, Gilles Privat, Eric Rutten, Hassane Alla: Discrete Control for Smart Environments through a Generic Finite-State-Models-Based Infrastructure. AmI 2014, Eindhoven; 11/2014, DOI:10.13140/2.1.4196.3202
  • Gilles Privat, Mengxuan Zhao, Laurent Lemke: Towards a Shared Software Infrastructure for Smart Homes, Smart Buildings and Smart Cities. EITEC, Berlin; 04/2014
  • Mengxuan Zhao, Gilles Privat, Eric Rutten, Hassane Alla: Discrete Control for the Internet of Things and Smart Environments. Feedback Computing; 06/2013
  • Gilles Privat: Extending the Internet of Things. Communications & Strategies, Digiworld Economic Journal n° 87, 3d Q 2012, pp101-119
  • Gilles Privat: Phenotropic and stigmergic webs: The new reach of networks. Universal Access in the Information Society 08/2012; 11(3):1-13., DOI:10.1007/s10209-011-0240-1
  • Thibaud Flury, Gilles Privat, Fano Ramparany: OWL-based location ontology for context-aware services. AIMS 2004, Artificial Intelligence in Mobile Systems; 09/2004

How often, as a web developer, do you struggle with the JSON output of a SPARQL endpoint?

In a document-based world as the one of Web APIs, the triple-based output of SPARQL endpoints can be a barrier for developers who want to integrate Linked Data in their applications. As the query results represent all the valid solutions of aquery, it is possible that two bindings describe the same real-world object and differ only by a single field, appearing almost as duplicates.

In order to have a suitable structure for manipulation in any web framework, repetitive manual tasks are required, including skipping irrelevant metadata, reducing and parsing the RDF types, merging the rows referring to the same object, and mapping to a destination structure.

All these tasks are automatised in SPARQL Transformer, which relies on a single JSON object for defining which data should be extracted from the endpoint (query) and which shape should they assume (template). The library automatically merges the results on the base of identifiers, giving to the returned JSON the classic tree-based structure.

SPARQL Transformer is integrated into the grlc framework, which can build a web API from a set of queries stored in a GitHub repository, in order to create new bridges between the Web of Data and the Web of applications.

SPARQL Transformer is currently used in different projects and application. Some real-world use cases will be presented to demonstrate how easy it is to develop your Semantic Web application with SPARQL Transformer.

Lisena P., Meroño-Peñuela A., Kuhn T. & Troncy R. Easy Web API Development with SPARQL Transformer. In 18th International Semantic Web Conference (ISWC), Auckland, New Zealand, October 26-30, 2019.

Lisena P. & Troncy R. Transforming the JSON Output of SPARQL Queries for Linked Data Clients. In The Web Conference 2018, Developer Track, Lyon, France, April 23-27, 2018.

SPARQL-Generate est un langage de transformation de RDF qui permet d’interroger des jeux de données RDF et des flux de documents dans des formats hétérogènes, pour générer du RDF ou du texte. La version actuelle de SPARQL-Generate permet d’exprimer des requêtes depuis tout type de CSV, JSON, HTML, GeoJSON, CBOR (version binaire de JSON), ou encore des flux de messages WebSocket ou MQTT.

SPARQL-Generate est utilisé dans de nombreux cas d’utilisation, notamment:

  • génération de linked data à partir de flux de documents;
  • génération de linked data à partir de gros documents;
  • transformation de jeux de données RDF;
  • génération d’une ontologie à partir de documents;
  • génération de documentation d’ontologies.
  • Le langage intègre différentes astuces syntaxiques facilitant la déclaration de transformations de documents en RDF, incluant (1) l’identification des documents sources, (2) la sélection itérative de sous-parties de ces documents, (3) des IRIs et littéraux à variables, (4) l’appel à des requêtes externes, (5) la génération de listes RDF. Il inclue une sous-partie du langage de transformation STTL (SPARQL-Template), qui permet également de générer du texte. De plus, Étant une extension de SPARQL 1.1, le langage présente également les avantages suivants:

    • Ceux qui sont familiers de SPARQL peuvent apprendre facilement SPARQL-Generate.
    • SPARQL-Generate bénéficie de l’expressivité de SPARQL 1.1: agrégats, modificateurs de séquences de solutions, fonctions SPARQL et mécanisme d’extension.
    • SPARQL-Generate s’intègre naturellement avec les standards existants pour consommer le Web des données, comme SPARQL ou les frameworks de programmation Web Sémantique.

    L’implémentation, basée sur Jena et disponible sous licence Apache 2.0, est utilisable sur un site internet de démonstration, en ligne de commande, ou sous forme de librairie Java.

Lien vers présentation format 30min: https://www.slideshare.net/maximelefrancois86/overview-of-the-sparqlgenerate-language-and-latest-developments

Lien vers site web de démonstration: https://w3id.org/sparql-generate/

Suivant les principes du Linked Open Data (LOD), les fournisseurs de données hébergent publiquement des millions de triples au format RDF. Cependant, fournir un service public qui permet à n’importe qui d’exécuter n’importe quelle requête SPARQL sur ces données est toujours un problème ouvert. Comme ces services sont soumis à une charge imprévisible de requêtes, le défi est d’assurer qu’ils demeurent stables malgré des variations en termes de taux d’arrivées des requêtes et des ressources nécessaires à leur évaluation. Pour résoudre ce problème, la plupart des fournisseurs de données appliquent une politique d’utilisation équitable des serveurs basée sur des quotas. Ces derniers visent à empêcher les effets convois, c.a.d, une requête longue à exécuter bloque l’évaluation des autres. Le principal défaut de cette politique est qu’elle empêche les requêtes interrompues de délivrer des résultats complets. Cela constitue une limite sérieuse pour les utilisateurs du LOD, qui peuvent vouloir exécuter des requêtes longues.

Nous pensons que le problème lié aux quotas ne réside pas dans l’interruption des requêtes, mais dans l’impossibilité pour les clients de reprendre leur exécution après interruption. Néanmoins, il n’existe pas de modèle de préemption pour le Web qui permet la suspension et la reprise de l’exécution de requêtes SPARQL.

Dans cette présentation, nous présentons SaGe, un moteur d’évaluation de requête SPARQL basé sur la préemption Web. Il permet à un serveur Web de suspendre une requête SPARQL en cours d’exécution après un certain temps, puis de reprendre son exécution ultérieurement. Une fois suspendue, l’état d’une requête est retourné au client, qui peut reprendre son exécution en renvoyant l’état au serveur. L'article de recherche décrivant l'approche générale a été publié au congrès The Web Conference 2019. La présentation abordera le concept général de la préemption Web, les détails techniques du logiciel SaGe et une étude de ses performances. Elle sera accompagnée d'une démonstration.

Lien vers une démonstration: http://sage.univ-nantes.fr/

The semantic web is one of the most significant trends in the development of the web. It transforms the current web into a network linking structured content with formal and expressive descriptions of its meaning. A number of approaches leverage semantic web standards and tools to improve creation, representation and processing of various types of media, including text, images, audio and video. However, 3D content, which is an essential element of virtual and augmented reality environments, still lacks standardized comprehensive semantic representations as well as methods and tools of semantic creation and processing. This remains the main obstacle for integration and wide dissemination of virtual and augmented reality on the semantic web.

This presentation is devoted to the works of the X3D Semantic Web Working Group [1], which is a part of the Web3D Consortium. The goal of the group is to develop standardized comprehensive solutions integrating the current semantic web with interactive 3D contents towards building the Semantic Web3D. In particular, the group focuses on the development of semantic representations as well as methods and tools of semantic creation and processing of 3D content for web-based VR/AR environments. The intention of the group is to build upon achievements of the Web3D Consortium to date, including the results of other working groups, such as X3D, humanoid animation, medical as well as design printing and scanning.

So far, we have elaborated the concept of the Semantic Web3D content representation at different levels of abstraction, covering 3D- and domain-specific objects and properties. The representation is an extension of previous works published at the Web3D conference [2][3] and the 3D Ontology [4]. It permits querying, reasoning and processing of semantic 3D content with regards to its inherent geometrical, structural, presentational and animation properties along with properties related to an arbitrary domain in which the content is used, e.g., cultural heritage, medicine, design, engineering or e-commerce. The foundation of the representation is the X3D Ontology [5]. It is automatically generated from the X3D Unified Object Model, which makes it strictly connected to the Extensible 3D – a prominent standardized 3D format (ISO/IEC 19775) for web-based applications, which is the successor to VRML. We also explain how the current approach could be extended with additional 3D ontologies derived from other 3D formats. We plan to use the DFDL language to develop converters of 3D formats to 3D ontologies, and 3D models and scenes encoded in the formats – to knowledge bases compliant with the ontologies.

[1] Web3D Consortium, X3D Semantic Web Working Group Charter, https://www.web3d.org/working-groups/x3d-semantic-web/charter

[2] Walczak, K., and J. Flotyński, Semantic query-based generation of customized 3D scenes, in: Proceeding Web3D '15 Proceedings of the 20th International Conference on 3D Web Technology, Heraklion (Greece), June 18 - 21, 2015 , ACM New York, 2015, pp. 123-131, ISBN 978-1-4503-3647-5, DOI 10.1145/2775292.2775311.

[3] Sikos, Leslie F., "3D model indexing in videos for content-based retrieval via X3D-based semantic enrichment and automated reasoning.", Proceedings of the 22nd International Conference on 3D Web Technology. ACM, 2017.

[4] Sikos, Leslie F., 3D Ontology,https://purl.org/ontology/t3dmo/ .

[5] Web3D Consortium, X3D Ontology,https://sourceforge.net/p/x3d/code/HEAD/tree/www.web3d.org/semantics .

[6] Visualizing the Semantic Web: XML-based Internet and Information Visualization, https://books.google.fr/books?id=YbWxDNZkiaUC&pg=PA132&lpg=PA132&dq=R+to+X3D&source=bl&ots=O43rzY6uL3&sig=ACfU3U3MhOIpVsXmOUC3qZTZl_Tkb_DZnA&hl=en&sa=X&redir_esc=y#v=onepage&q=R%20to%20X3D&f=false

Inscriptions

Comme l'an dernier, le déjeuner aura lieu au restaurant Francilien, situé à l'étage, au FIAP Jean Monnet.

Les frais d'inscription sont volontairement bas et ne devraient couvrir que la location de salle et la restauration. Le comité de programme, les orateurs et les organisateurs ne sont pas rémunérés. Pour vous inciter à nous faciliter l'organisation en nous permettant de commander les bonnes quantités pour la restauration, les tarifs augmenteront à l'approche de la date de la conférence: l'entrée passera à 100€ début novembre puis à 130€ fin novembre.


Billetterie Weezevent

Pour toute demande d'informations, envoyez un courrier électronique à contact@semweb.pro.

Comment passer le temps en attendant le prochain SemWeb.Pro ?

Nous vous suggérons d'assister aux soirées du groupe Paris Web of Data.

Informations générales

Comité de programme

Cette année, le comité de programme est constitué de

Informations pratiques

SemWebPro mardi 3 décembre 2019 de 9h00 à 17h00

Contact: contact@semweb.pro / @semwebpro / #semwebpro

FIAP Jean Monnet

30 rue Cabanis
75014 Paris
Afficher sur OpenStreetMaps

Salle Bruxelles

La salle Bruxelles au FIAP Jean Monnet