SemWeb.Pro
          2016

Détail des présentations 2016

Persée et le web de données

L’UMS Persée, développe le portail www.persee.fr, une bibliothèque patrimoniale de publications scientifiques principalement en sciences humaines et sociales. Le portail diffuse aujourd’hui plus de 600.000 documents scientifiques en libre accès et en texte intégral.

L’équipe Persée est depuis longtemps convaincue de l’intérêt de lier ses données à d’autres sources d’informations. Cela se traduit par l’attribution de DOI aux documents, par un travail conséquent sur l’identification de citations entre les documents, par l’alignement de ses auteurs avec les référentiels nationaux ABES et BnF, mais également avec des sources extérieures au monde des bibliothèques : wikipédia, RePEc, etc.

Persée a fait le choix de ne pas utiliser de procédures permettant de rechercher massivement des correspondances entre ses documents et des vocabulaires et/ou référentiels. Au lieu de cela, plusieurs méthodologies ont été mises en œuvre :

  • des algorithmes de recherche ciblés permettent de dégager des liens candidats qui sont soumis à une validation humaine,
  • des outils permettant d’interroger des référentiels « pivot » lors de la production des contenus de Persée,
  • des outils exploitant le web de données et permettant de construire, à partir de ces liens validés, de nouveaux liens.

Cette démarche permet d’atteindre un haut niveau de pertinence dans les liens qui sont associés à chaque ressource diffusée par Persée.

Aujourd’hui, Persée franchit un nouveau cap en établissant des liens fondés sur les contenus des documents : deux projets aboutiront, fin 2016, à la mise en ligne de collections intégrant de nouveaux types de liens sémantiques :

Le projet ATHAR, en collaboration avec le laboratoire inVisu de l’INHA, établit des liens entre des publications anciennes et un thésaurus d’identification des monuments du Caire ;

Plusieurs collections en sciences de la vie et de la terre pour lesquelles des liens ont été établis entre les documents de Persée et la classification taxonomique exposée par GBIF (Global Biodiversity Information Facility).

Pour chacune des ressources indexées, le portail Persée proposera une page composite permettant notamment de :

  • lister les contenus présents sur Persée (documents, iconographie, etc.),
  • fournir des informations complémentaires issues des sites tiers,
  • fournir des liens permettant à l’utilisateur de rebondir vers d’autres sources d’information.

Au-delà de cette exploitation sur le portail web, l’équipe Persée mettra à disposition de la communauté (fin 2016) un triple store permettant, dans une logique d’ouverture et de partage, d’exposer toute la richesse des données produites et/ou collectées.

Viviane Boulétreau

Responsable du pôle Informatique et développement de l’UMS Persée.

Ingénieur de recherche, Viviane Boulétreau travaille depuis 1999, dans le domaine de la diffusion et la valorisation des résultats de la recherche : CyberThèses (SGML), CyberDoc (XML), archives ouvertes et www.persee.fr depuis 2003. Quelques mots clés résument son activité et son engagement : open access, open source, open data.

Actuellement, Viviane Boulétreau pilote le projet de refonte du socle technologique de l'UMS dans une logique de SI distribué.

Construction d’un référentiel taxonomique commun pour des études sur l’histoire de la zoologie, l’archéozoologie et la biologie

Une des missions du Muséum National d’Histoire Naturelle (MNHN) est d’établir une synthèse de la biodiversité et du patrimoine naturel français. Dans ce contexte, il est en charge de l’élaboration d’un référentiel taxonomique pour la faune, la flore et la fonge, TAXREF. Ce référentiel unique liste et organise les noms scientifiques de l'ensemble des êtres vivants recensés sur les territoires français, métropole et outremer, et constitue la pierre angulaire du Système d’Information sur la Nature et les Paysages (SINP). Il est utilisé par de nombreux acteurs publics, privés et de la société civile (collectivités, conservateurs, cabinets d’architecte, enseignants, citoyens, etc.). TAXREF est de plus aligné avec d'autres référentiels taxonomiques ou nomenclaturaux internationaux.

Le projet de recherche Zoomathia vise à étudier l’histoire de la connaissance zoologique à travers l’Antiquité et le Moyen-Age. Pour cela, il envisage d’utiliser les technologies du web sémantique afin d’intégrer des sources de données hétérogènes, allant d’encyclopédies médiévales à des données de biologie moderne, en passant par des rapports de fouilles archéologiques et des ressources iconographiques. Ce travail passe nécessairement par la sélection et/ou la définition de vocabulaires pouvant servir de référentiels taxonomique, culturel, géographique, chronologique etc. Afin de rendre les données intégrées interopérables sur le web, ces vocabulaires doivent faire l’objet d’un consensus et être liés à d’autres vocabulaires connexes faisant autorité. TAXREF étant le résultat d’un large consensus scientifique, et étant déjà utilisé pour l’intégration de données de biologie moderne et de données archéologiques, il a été sélectionné pour construire un thésaurus supportant l’intégration des données considérées dans le cadre du projet Zoomathia.

Dans cette présentation, je reviendrai sur les motivations exposées ci-dessus, puis je décrirai la modélisation d’un thésaurus exprimé en SKOS (Simple Knowledge Organisation System) afin de produire une version de TAXREF exploitable avec les technologies du web sémantique. J’aborderai notamment la question du lien entre ce « TAXREF-SKOS » et d’autres thésaurus et ontologies existantes. Enfin, je décrirai la méthode utilisée pour produire le résultat en RDF et son exposition sur le web de données sous forme d’URI pérennes déréférençables, et je ferai une courte démonstration via la navigation dans les URI en Linked Data et l’utilisation de requêtes SPARQL. En conclusion je reviendrai sur le fait que la construction de thésaurus SKOS n’est qu’une étape, un « enabler », visant à encourager les producteurs de données utilisant déjà TAXREF, et les concepteurs d’applications, à utiliser ces technologies et s’appuyer sur TAXREF-SKOS.

Franck Michel

Après avoir travaillé pendant 14 ans dans le secteur privé des télécommunications, Franck Michel a rejoint le CNRS en 2011 comme ingénieur de recherche au laboratoire I3S. Ses travaux de recherche concernent la publication et la fédération de données hétérogènes sur le Web de données. En particulier il étudie des méthodes permettant de traduire en RDF différents types de bases de données, avec un focus sur les bases NoSQL. Dans ce contexte il a développé un prototype permettant d'interroger une base MongoDB en SPARQL (Morph-xR2RML). Franck a participé au projet CNRS MASTODONS Credible sur la fédération de données biomédicales et participe actuellement au projet Zoomathia sur l'étude de la transmission des connaissances zoologiques antiques; il collabore avec le Muséum National d'Histoire Naturelle pour la publication du référentiel taxonomique TAXREF sur le Web de données.

Par ailleurs, Franck est impliqué dans plusieurs activités liées à l'infrastructure de calcul européenne European Grid Infrastructure (EGI). Il assure la coordination technique et le support d'une communauté d'utilisateurs en sciences de la vie, et participe à élaboration et au développement d'outils de monitoring et de gestion de ressources.

Visitez sa page personnelle !

Visualisations des thématiques d’un centre de recherche

Les mécanismes de financement et d’évaluation de la recherche ont conduit à une très forte croissance de la production d’articles scientifiques. Cette croissance a rendu difficile la recherche d’informations dans cette masse de données. Divers travaux dans le monde s’attachent à améliorer cette situation.

Dans ce cadre, le département Traitement du Signal et des Images de Telecom ParisTech a entrepris un travail d’analyse sémantique des publications scientifiques de cet organisme au cours des cinq dernières années.

Des méthodes assez classiques de traitement des langues naturelles combinées avec les travaux récents de description sémantique d’articles scientifiques permettent de proposer des regards nouveaux sur ces productions.

Par exemple, il est possible des thématiques communes à des groupes chercheurs qui ne recoupent pas nécessairement la structure organisationnelle, essentiellement arborescente, des départements de recherche ou les rapprochements entre co-auteurs de publications.

Il est également possible, par exemple, de visualiser l’évolution des thématiques pour des chercheurs ou des groupes de chercheur.

Les visualisations proposées sont destinées à faciliter en interne les collaborations, notamment pour les nouveaux arrivants, et, à donner à l’extérieur une meilleure visibilité sur les résultats produits : recherche de spécialistes, coopération sur des projets…

Le travail porte sur environ 4000 publications. Seulement 1200 environ sont directement disponibles sur la base de donnée interne à l’école. Pour les autres, divers problèmes, dont des problèmes de copyright, rendent l’accès plus complexe. La question de l’accessibilité des publications scientifiques sera abordée, mais pas traitée en profondeur.

Nous verrons la chaine de traitement mise en œuvre, les données intermédiaires produites et les visualisations qui en sont issues. Nous montrerons comment la chaîne de production retenue se prête bien à l’ajout progressif des nouvelles publications et comment celle-ci pourrait être transposée à d’autres organismes ou d’autres activités.

Jean-Claude Moissinac

Jean-Claude Moissinac est Maître de Conférences au département Traitement du Signal et des Images, dans le groupe ‘technologies du multimédia’. Depuis plusieurs années ses activités l’amènent à utiliser les technologies de la représentation sémantique en liaison avec le multimédia (interactions multimodales, web services sémantiques…).

Construction assistée de thésaurus à l'aide de Machine Learning

Le métier de Proxem est de collecter un corpus de documents sur un domaine spécifique, de l’organiser, puis celui-ci organisé, d’extraire de l’information au niveau du corpus entier. L’étape d’organisation comprend généralement deux étapes : une étape d’annotation (extraction de concepts organisés selon un thésaurus) puis une étape de classification via une certaine taxonomie définie avec le client. L’étape d’annotation nécessite un paramétrage adapté au domaine du corpus et donc généralement de connaître l’univers associé, sa terminologie, etc. Par ailleurs, une approche type « page blanche » cause des problèmes de taux de couverture.

Dans l’optique de répondre à ce problème, Proxem a développé une solution de construction de thésaurus assistée par Machine Learning, via une double approche :

  • Une approche bottom-up : après une étape d’apprentissage non-supervisé réalisé sur le corpus (calcul de clusters, de représentations distributionnelles de termes, etc.), l’ordinateur fait des propositions à l’utilisateur et ce dernier valide ou invalide ces propositions. Ensuite, via une démarche itérative, l’ordinateur prend en compte les décisions de l’utilisateur, et essaie d’améliorer ses propositions. Le nommage des clusters se fait via l'importation des données de WikiData.
  • Une approche top-down : l’utilisateur importe de la connaissance du monde, via par exemple de la donnée structurée existante. Cette donnée structurée permet d’apprendre des modèles d’apprentissage supervisés que l’on utilise directement sur notre corpus en inférence. Il peut également importer des bases de connaissances au format SKOS (ESCO pour les Ressources Humaines, EuroVoc, GEMET, AGROVOC, etc.)

Pour chacun des concepts du thésaurus, l’ordinateur propose plusieurs façons d’extraire le concept dans le corpus (désambiguïsation via termes activateurs et inhibiteurs, modèle d’extraction d’entités nommées pré-appris, etc.). L’ordinateur propose directement les termes correspondants aux concepts dans les autres langues, permettant ainsi la création d’un thésaurus multilingue, exportable au format SKOS.

Une fois que l’utilisateur est satisfait du thésaurus, il peut ensuite s’en servir pour annoter son corpus et indexer les annotations afin de les requêter dans un moteur de recherche et d'obtenir les résultats en affichant les mots en contexte comme le ferait un concordancier.

Jean-Marc Marty

Diplômé de l’Ecole Polytechnique en 2014, Jean-Marc Marty a rejoint l’équipe de Recherche et Développement de Proxem pour développer les technologies d’analyse sémantique de l’entreprise. Il est plus particulièrement spécialisé dans l’apprentissage de modèles de langues et dans le développement de modèles statistiques en vue de la classification cross-langage de documents.

Isidore et Nakala

Huma-Num est une très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines etsociales.

Pour remplir cette mission, la TGIR Huma-Num est bâtie sur une organisation originale consistant à mettre en œuvre un dispositif humain (concertation collective) et technologique (services numériques pérennes) à l’échelle nationale et européenne en s’appuyant sur un important réseau de partenaires et d’opérateurs.

La TGIR Huma-Num favorise ainsi, par l’intermédiaire de consortiums regroupant des acteurs des communautés scientifiques, la coordination de la production raisonnée et collective de corpus de sources (recommandations scientifiques, bonnes pratiques technologiques). Elle développe également un dispositif technologique unique permettant le traitement, la conservation, l'accès et l'interopérabilité des données de la recherche. Ce dispositif est composé d'une grille de services dédiés, d'une plateforme d'accès unifié et d’enrichissement des données et d'une procédure d'archivage à long terme dédiée aux données SHS.

La TGIR Huma-Num propose en outre des guides de bonnes pratiques technologiques généralistes à destination des chercheurs. Elle peut mener ponctuellement des actions d'expertise et de formation. Elle porte la participation de la France dans le projet DARIAH-EU en coordonnant les contributions nationales.

NAKALA
un service de stockage pérenne et de signalement des données de la recherche en SHS
ISIDORE
une solution complète d’enrichissement sémantique des données de la recherche et des publications scientifiques en SHS

Pour les utilisateurs recherchant de l’information et des documents :

  • Sur le web, via le portail www.rechercheisidore.fr
  • Sur les tablettes et téléphones connectés via le site m.rechercheisidore.fr
  • Au travers d’applications embarquées dans les outils d’édition électronique (blogs et site web sous WordPress)
  • Des widgets pour Windows et Mac.
  • Pour les développeurs, architecte de données, documentalistes et webmestres :

  • Une API du moteur de recherche de www.rechercheisidore.fr est disponible
  • Une interface d’interrogation SPARQL (endpoint) pour interroger en SPARQL les triplets RDF enrichis et contenus dans le triple-store ISIDORE
  • Des widgets de développement « ISIDORE à la demande » (ISIDORE on demand) dans le cadre du programme ISIDORE Motor Constructor (ISIDORE-MC)
  • Via la technologie OpenSearch
  • ISIDORE est en exploitation depuis 2011 et fonctionne en mode 24/7.

Stéphane Pouyllau

Ingénieur de recherche au CNRS (Centre National de la Recherche Scientifique), Stéphane Pouyllau est spécialisé depuis 1999 en humanités numériques (digital humanities), en information scientifique et technique et en informatisation des données de la recherche en sciences humaines et sociales. Il a co-créé en 2005 et développé le centre national pour la numérisation de sources visuelles jusqu'en 2009.

Il est l'initiateur et le co-concepteur de MédiHAL (archive ouverte pour photographies et images scientifiques) du CNRS et le concepteur de plusieurs sites web institutionnels sur le patrimoine scientifique français. Il a créé l'archive numérique d'objets et de matériaux iconographiques scientifiques destinée à héberger des fonds d'archives scientifiques.

De 2009 à fin 2011, il a travaillé au TGE Adonis (aujourd'hui Huma-Num) où il a animé les questions de digital humanities puis chef de projet en charge - avec Jean-Luc Minel (Pr. à l'Université Paris Ouest la Défense et TGE Adonis) - de la réalisation de la plateforme de recherche ISIDORE.

De janvier 2012 à mars 2013, il a été le directeur de la très grande infrastructure de recherche Corpus-IR et chargé de mission pour le développement d'ISIDORE.

Il est actuellement directeur-adjoint technique d'Huma-Num, la très grande infrastructure de recherche pour les humanités numériques et responsable de la plateforme ISIDORE. Dans ce cadre, il est le coordinateur scientifique du programme H2020 Parthenos pour Huma-Num et le CNRS.

Il a reçu en 2009, le Cristal du CNRS.

Il est également membre du conseil scientifique de l'Agence bibliographique de l'enseignement supérieur (ABES) et de l'équipex Biblissima.

L’expérimentation web sémantique du projet ISTEX

Le projet ISTEX est un investissement d'avenir soutenu par l’Agence Nationale de la Recherche visant à doter la France d'une bibliothèque numérique scientifique reposant sur deux axes complémentaires : d'une part, une acquisition massive de publications scientifiques (17 millions) couvrant l'ensemble des disciplines et d'autre part, la mise en place d'une plateforme unique d'hébergement, de gestion et d'accès à ces ressources. En janvier 2016, l’Inist­CNRS a lancé une expérimentation visant à publier, selon les normes du web sémantique, des données extraites du projet ISTEX. Cette expérience vise à développer une méthode pour mettre en ligne des jeux de données dans le respect des normes et standards du W3C. L’objectif est de répondre aux demandes des documentalistes et des chercheurs, en utilisant la structuration sémantique comme un moyen pour répondre à plusieurs besoins :

  • proposer une documentation structurée et interopérable du fond ISTEX pour les utilisateurs de portail documentaire comme pour les chercheurs­
  • mettre à disposition des équipes de recherche des jeux de données très spécifiques permettant d’alimenter leurs travaux de recherche sur du machine learning ou du data alignement
  • valoriser les jeux de données produits par des travaux de recherche
  • rendre compatible le fond ISTEX avec des entrepôts de données présents dans le web sémantique faciliter d’avantage les travaux de recherche dédiés à la fouille de textes (bibliométrie, scientométrie, ...).

Les jeux de données sont là pour venir compléter, enrichir, consolider et lier toutes les informations présentes dans la plateforme. L’objectif est de proposer un graphe de jeux de données structurées reliés à des ressources extérieures ou à des référentiels d’autorité. In fine, ce lacis de données conduira toujours à un retour vers les documents plein texte présents dans ISTEX. C’est une autre façon pour diffuser et exploiter les ressources acquises.

La structuration sémantique proposée impose la modélisation des informations à publier au travers d’une ou plusieurs ontologies existantes. Ce postulat révèle des difficultés plus ou moins attendues : choix et appropriation des ontologies, d’une structuration sur des données hétérogènes. Elle a également permis de vérifier des attentes concrètes ouvrant la voie à un passage à l'échelle plus compatible avec le volume des données présent dans le fond ISTEX.

Nicolas Thouvenin

Responsable du service “R&D et expérimentation” de l’Inist­CNRS, Nicolas s'intéresse aux technologies et standards du web sémantique depuis 2011, lors de ses premiers travaux sur la publication de terminologies scientifiques au format SKOS. En 2013 et 2014, il a participé au groupe web sémantique du GFII. Actuellement, Nicolas Thouvenin pilote les travaux de plusieurs équipes autour de 2 thématiques : le Text Data Mining et l’interopérabilité des données.

Système d'Archivage Électronique Mutualisé

Dans le cadre d'une convention de partenariat entre le Conseil départemental de la Gironde, la Métropole de Bordeaux et la Ville de Bordeaux (les partenaires), en vue de construire un système d'archivage électronique mutualisé, la construction d'un module pivot de gestion des données de référence est apparu pertinente. Avec l'aide de la société Logilab les partenaires du projet ont donc développé un référentiel de données capable de mettre à disposition des données liées aux autres modules du système ce qui permettra à terme d'envisager la réalisation d'un entrepôt de métadonnées et de fournir des services de recherche et de consultation. Cet outil permet notamment de relier des vocabulaires contrôlés, des descriptions d'organisation et de notices d'autorités et des modèles d'unités d'archives et de profils encadrant les modalités de versement de celles-ci en réutilisant des entités existantes dans des ontologies largement utilisées.

Les partenaires du projet ont construit ce projet en intégrant les principes de la gestion de projet agile, les concepts du web de données et les principes d'ouverture et de ré-utilisabilité.

Cette présentation sera l'occasion de présenter principalement les aspects fonctionnels de ce référentiel, son intégration dans les démarches en cours des autres acteurs du domaine culturel et administratif et l'importance de l'aspect Open-source de celui-ci. Si cela parait pertinent, on pourra également présenter l'organisation agile mise en place.

Pascal Romain

Depuis janvier 2014, Pascal anime des équipes de chefs de projets utilisateurs et des prestataires de services en développement logiciel pour le Département de la Gironde.

En tant qu'ingénieur documentaire, il a realisé le lien entre les métiers et le numérique dans le cadre de projets de gestion de données et de documents.

Chez Wordspace, en tant que responsable développement, Pascal a travaillé sur le développement des applications web en php.

Retour d’expérience Application Web sémantique concernant les manuscrits médiévaux, les incunables et leurs anciens possesseurs et textes divers

Début 2017, le portail Biblissima donnera un accès unifié à 40 bases de données via une application Web sémantique, dont un premier prototype a été réalisé au printemps 2015, initialement, autour de deux bases.

L’objectif de cette présentation est de faire part de l’ensemble des travaux menés par l’équipe, dont les difficultés rencontrées lors de cette élaboration et les résultats définitifs retenus à partir de différents exemples, comme, notamment,

  1. le point d’entrée “Textes”, qui liste l’ensemble des oeuvres, différentes versions textuelles d’une même oeuvre, les intervenants et aussi les livres, qui portent cette version,
  2. les expériences avec notre format pivot XML et la publication de données en RDF et 3/ le traitement des données contradictoires.

Une démonstration montrera le travail fait depuis l’année dernière à partir d’exemples concrets à savoir :

  1. Des pages Web regroupant toutes les informations disponibles et provenant de plusieurs bases sur un manuscrit ainsi un manuscrit, qui est listé et présent dans un catalogue de vente ou d’inventaire, identifié par un chercheur et mis en relation avec autres données des partenaires Biblissima et du LoD pour compléter et enrichir au maximum la fiche de ce manuscrit.
  2. Des visualisations, notamment une carte géographique où se trouvent les établissements de conservation des incunables et manuscrits médiévaux en France et ailleurs et une carte des lieux de fabrication ou d’édition des manuscrits et incunables issus de bases de données Biblissima.
  3. Des pages Web consacrées aux anciennes collections, proposant à l’utilisateur la liste des livres possédés et la numérisation de la notice du catalogue de vente ou de l’inventaire.
Stefanie Gehrke

Stefanie travaille depuis 2013 comme coordinatrice données de l'Équipex Biblissima au Campus Condorcet. De 2008 à 2012 elle a travaillé pour des différents projets à Herzog Augst Bibliothek à Wolfenbüttel en Allemagne. Pour le projet Europeana Regia, traitant des manuscrits numérisés et provenant de trois collections importantes du Moyen Âge et de la Renaissance, elle était responsable du "WP3 metadata" et a assuré la livraison du set de données du projet en RDF (selon les spécifications du Europeana Data Model) à Europeana.

Pool Biblissima

L'équipe est formée de six spécialistes de données et web, Kévin Bois (développeur Front-End), Pauline Charbonnier (équipe metadonnées), Eduard Frunzeanu (expert autorités), Stefanie Gehrke (coordinatrice données), Elizabeth MacDonald (coordinatrice projet équipex), Marie Muffat (experte fonctionnelle) et Régis Robineau (coordinateur web)"

W3C - Allocution de P. Archer

Current and next steps at W3C

In this third talk at SemWebPro in as many years, Phil Archer will describe the state of current activities at W3C related to the Semantic Web, such as Permissions and Obligations Expression, SHACL, Spatial Data on the Web Best Practices, SoLID and more, and look ahead to possible future standardisation work. For example, a current hot topic is how W3C can be better at supporting the development and management of vocabularies. What can we learn from the success of schema.org?

Phil Archer

Phil Archer is the Data Strategist at W3C, the industry standards body for the World Wide Web, coordinating W3C's work in the Semantic Web and related technologies. He is most closely involved in the Data on the Web Best Practices, Permissions and Obligations Expression and Spatial Data on the Web Working Groups. His key themes are interoperability through common terminology and URI persistence.

As well as work at the W3C, his career has encompassed broadcasting, teaching, linked data publishing, copy writing, and, perhaps incongruously, countryside conservation. The common thread throughout has been a knack for communication, particularly communicating complex technical ideas to a more general audience.

Technologies sémantiques pour l’apprentissage de la botanique en mobilité

Le projet ANR ReVeRIES (Reconnaissance de Végétaux Récréative, Interactive et Educative sur Smartphone), lancé en février 2016, vise à faciliter sur l’aide numérique à l’apprentissage de la botanique en situation réelle, c’est à dire dans la nature, ou les utilisateurs ne peuvent utiliser qu’un smartphone.

Savoir identifier les espèces végétales est un aspect fondamental de l'apprentissage botanique. Nous proposons une solution technique (sous forme d’une web application mobile), basée sur une méthode d’identification classiques en botanique : la clef d’identification. Il s’agit pour l’utilisateur de répondre à des questions successives sur la plante à identifier, (ex. la plante a-t-elle des fleurs, les fleurs sont elles symétriques, etc.). Les réponses fournies par l’utilisateur permettent de réduire l’ensemble des espèces possibles, pour finalement isoler une réponse unique, correspondant à l’espèce que l’utilisateur souhaite identifier.

Les solutions existantes pour l’assistance à l’identification sont fondées sur la construction manuelle de clés d’identifications. La spécificité de notre solution est l’utilisation de technologies sémantiques pour assister la création et la mise à jour automatique d’une clé d’identification.

En particulier, nous proposons une ontologie RDF-S décrivant les concepts botaniques principaux (famille, genre, espèce, organe, etc.), et une base de connaissances d’espèces (restreinte ici aux arbres typiques du territoire de la France Métropolitaine).

Les interactions avec l’utilisateur (questions/réponses) peuvent alors être exprimées sous forme de contraintes (ex. sous forme de requêtes SPARQL), pouvant directement être appliquées à la base de connaissance pour diminuer le nombre de candidats (espèces) possibles.

Par ailleurs, l’ajout de règles sémantiques (ex. une espèce possède au plus une famille), permet de réaliser automatiquement des inférences diminuant le nombre de solutions possibles : si la famille a été identifiée, alors les espèces des autres familles ne peuvent pas être des solutions. Lors de la proposition d’une solution, l’utilisateur a accès à la suite d'inférences réalisées menant à cette solution, ce qui offre une meilleure compréhension et favorise l’apprentissage.

Enfin, cette solution offre la possibilité d’étendre facilement la base de connaissance avec de nouvelles espèces (il suffit d’ajouter leurs descriptions dans la base de connaissances).

Il est à noter que les identifications réalisées par les utilisateurs seront capitalisées dans une approche citizen science. Ainsi ces observations pourront servir à des botanistes dans l’étude des variations de répartitions des espèces par exemple (la position de la plante observée étant relevée par le GPS de l’utilisateur).

Pierre-Yves Gicquel

Pierre-Yves Gicquel est actuellement post-doctorant à l’université du Maine. Le projet de recherche est centré sur l'apprentissage de la botanique et il s'intéresse sur le plan scientifique aux mesures de similarités/distances appliquées aux concepts d'une ontologie ou d'une base de connaissance.

Pierre-Yves Gicquel a réalisé sa thèse en partie sur cette thématique (dans le cadre d'application d'une visite de musée) : si on considère un corpus de documents annotés sémantiquement, parcouru par un utilisateur, il est naturel de proposer des suggestions en fonctions des liens entre documents (les annotations sémantique). La notion de distance généralise cette question et permet une plus grande finesse dans le calcul. Il me semble que bien que la notion de distance soit purement numérique, cela pourrait s'avérer très utile dans le cadre du web sémantique.

Il est contributeur sur OpenLaw et généralement ouvert aux applications sémantiques présentant un intérêt immédiatement visible pour les non spécialistes.

Visitez son profil Github, LinkedIn ainsi que ResearchGate.

Le Web Sémantique au service de la cuisine numérique de demain

Le programme NosRecettes (2013-2016) du projet Open Food System1 (OFS) a pour ambition d’offrir, grâce à une plate-forme numérique, une panoplie de services pour mieux assister les cuisiniers amateurs. Les recettes désormais digitales peuvent devenir un des vecteurs les plus efficaces pour accélérer la démocratisation des usages numériques dans le quotidien domestique.

NosRecettes vise donc à développer des solutions complètes innovantes, à base de Web Sémantique, qui seront la base des expériences utilisateurs dans la cuisine de demain :

  • la structuration de données de recettes numériques sur un format de données universel riche ;
  • la proposition de recettes et de menus grâce à un moteur de recommandation basé sur des profils utilisateurs individualisés ;
  • la communication, avec des appareils électroménagers automatisés qui sauront comprendre ces recettes, les réussir et les reproduire simplement ;
  • une communauté d’amateurs de cuisine de dimension internationale.

Pour répondre à ces axes, nous avons développé une chaîne sémantique pour l’enrichissement des recettes numériques. Cette chaîne intègre trois outils : Luxid de Temis pour l’extraction d’information, GraphDB de OntoText pour le raisonnement et le stockage en RDF des recettes enrichies et enfin le Content Augmentation Manager de Mondeca pour orchestrer chacune des étapes, filtrer et désambiguïser les informations extraites et optimiser les raisonnements à réaliser en fonction des scénarios du programme : calcul d’information nutritionnelle, identification de recettes génériques vs recettes variantes, identification de la saisonnalité d’une recette, identification de la complétude d’une recette, structuration fine des instructions de la recette pour identifier des adaptations possibles entre matériels, amélioration des résultats du moteur de recommandation de recettes.

Pour rendre possible chacun de ces scénarios, tous les composants de la chaîne sémantique reposent essentiellement sur une ressource termino-ontologique de la cuisine composée de 6 modules interdépendants (aliments, nutrition, matériels, unité, préparations et cuisine). En effet, elle permet de générer les lexiques utilisés par l’outil d’extraction linguistique pour l’enrichissement des recettes numériques. Mais surtout la définition de nombreuses classes construites permet de classer automatiquement les recettes enrichies tout en permettant l’inférence de nouvelles connaissances sur ces recettes. Un véritable challenge a été relevé pour pouvoir concilier représentation de l’ontologie en OWL2 DL, raisonnements dans le fragment OWL2 QL proposé par GraphDB et performance de l’ensemble de la chaine sémantique pour que les temps de traitement restent acceptables. Ce programme illustre les limites actuelles pour l’implémentation de raisonnements poussés, sur une ontologie conséquente, dans un environnement à visée hautement industrielle.

Florence Amardeilh

Florence Amardeilh est responsable du département R&D de Mondeca depuis 2007, travaillant dans les domaines de l’acquisition des connaissances et du Web Sémantique depuis 2002. Ingénieur de Recherche en Systèmes d’information et Gestion des Connaissances en 2001, elle a ensuite réalisé une thèse CIFRE chez Mondeca en partenariat avec l’Université Paris 10. La thèse a eu pour objectif de réunir et de combiner les méthodes et outils du Traitement Automatique du Langage avec ceux du Web Sémantique afin de créer des applications pour le peuplement d’ontologies et l’annotation sémantique. Florence participe, en collaboration avec des partenaires industriels et universitaires, au montage, au pilotage et à la réalisation de nombreux projets de recherche européens (IST FP5 - MOSES, IST-FP6 – TAO, IST-FP7 Virtuoso, IST-FP7 SeaBilla) et français (ANR Eiffel, ANR Tecsan VigiTermes, ANR Tecsan InterSTIS, RNTL TerraNumerica, FUI SAMAR, FUI LegiLocal, ANR CSOSG SAIMSI, ANR TecSan TerSan, FUI FIORA, PSPC Open Food System), permettant à Mondeca d'être à la pointe de l'innovation des méthodes et outils existants en Web Sémantique.

Le cadriciel Semantic_forms: vers le SI Sémantique

Au départ, il y avait ce constat : il n'a pas de solution Open Source simple pour visualiser et éditer des données RDF en s'appuyant sur une base SPARQL, et sur les ontologies, de manière collaborative. On est parti d'un générateur de formulaire robuste, générique, et en temps réel. Puis on a élargi les fonctionnalités pour proposer un framework Web (cadriciel disent nos amis Quebécois) qui vise à être aussi simple et universel que Ruby on Rails, Django, Symphony, etc. On a aussi posé des jalons pour une console d'administration SPARQL ( à la PHPMyAdmin ). Au passage on élargira le propos sur le Système d'Information avec les avantages du Sémantique, et l'ERP (Progiciel de Gestion Intégrée) sémantique.

Cas d'utilisation

Semantic_forms est fonctionnel en sortant de la boîte, une fois qu'on a dézippé le logiciel, ou qu'on l'a construit à partir des sources. Pas besoin d'installer séparément une base de données ou d'autres composants. Vous pouvez naviguer dans vos données RDF (Turtle, JSON-LD) chargées dans la base locale Jena TDB aussi facilement que dans les profils FOAF sur Internet, ou mélanger les deux. Semantic_forms ressemble aux pages de DBPedia, où en plus on peut modifier tous les champs, et charger n'importe quelles données du LOD.

Si on n'est pas content du formulaire créé automatiquement, on peut écrire une spécifications de formulaire. On peut aussi composer des pages Web statiques qui appellent via JavaScript un ou plusieurs services Web de formulaires.

La technique

En ce qui concerne la mise en œuvre, semantic_forms tire parti de Jena TDB (en embarqué), de Play! Framework, du langage Scala et de la librairie Banana-RDF. Grâce à Banana-RDF, on peut peut configurer semantic_forms pour utiliser d'autres bases de données SPARQL, en embarqué (via API) comme BlazeGraph ou Sesame, ou n'importe quelle base via HTTP.

Les composants

  • librairie de génération de formulaires (API Java et Scala)
  • application Web générique avec Play! framework
  • cache SPARQL, utilise un graphe nommé par source de source de données, plus un par utilisateur
    • le cache, via LDP, peut être utilisé comme un composant d'infrastructure qui fédère des données de différentes provenances
  • divers algorithmes: dédoublonnage, restructuration d'ontologie
  • composant IHM de création de liens vers des URI dbPedia

Le web au premier plan

La vision originale du Web sémantique était profondément enracinée dans le World Wide Web.

Cependant, en cours de route, nous nous sommes orientés vers des sujets tels que l'analyse des données. Et comment le web sémantique a tenu bon contre le Big Data et la Machine Learning, qui ont sans doute été les sujets le plus mis en avant ces derniers temps ?

Au cours de sa présentation, Ruben va expliquer pourquoi la partie "web" du "web sémantique" est si importante. Mais aussi pourquoi nous devons penser de manière plus décentralisée. Si nous souhaitons que le web soit un succès auprès de vrais utilisateurs, il doit fonctionner sur une échelle web.

Ruben Verborgh

Chercheur en hypermédia sémantique à l'Université de Gand - iMinds, en Belgique, où il a obtenu son doctorat en informatique en 2014, Ruben explore le lien entre les technologies du Web sémantique et les propriétés architecturales du Web, avec comme but la conception de clients plus intelligents. Il est passionné par le Linked Data, REST/hypermédia, les API Web et les technologies connexes.

Le raisonnement embarqué côté client : et si c’était facile ?

À l’heure où le Web est devenu une plateforme qui permet d’accéder à ses applications, ses réseaux sociaux et ses objets connectés, les technologies du Web Sémantique peinent encore à trouver un champ applicatif et sont perçues comme lourdes et peu dynamiques. Dans les applications Web, elles sont actuellement utilisées soit en back office côté serveur, soit au mieux pour déréférencer des identifiants de ressources ou comme dispositifs de stockage. Pourtant, du raisonnement peut être utilisé sur des données stockées localement côté client. Utilisé conjointement avec les nouvelles APIs HTML5, le raisonnement côté client peut être embarqué dans une application web dynamique, permettre des performances tout à fait acceptables, et même vous faire économiser de la puissance de calcul côté serveur et de la bande passante réseau.

Nous présenterons un tour d’horizon des technologies qui permettent de déployer du raisonnement côté client, sans perturber le fonctionnement d’une application. En particulier, nous présenterons le moteur d’inférences Hybrid Location-Agnostic Reasoner (HyLAR) fondé sur le profil de raisonnement OWL 2 RL qui tire à la fois parti des avancées en raisonnement incrémental et des APIs asynchrones côté client. HyLAR fournit par ailleurs un SPARQL endpoint performant pour des données applicatives locales. Enfin, nous présenterons un exemple de framework permettant d’exécuter le moteur d’inférences HyLAR indifféremment côté serveur ou côté client, en s’adaptant aux performances et aux ressources (batterie, connexion réseau) du client. HyLAR est disponible en tant que module NPM sous licence libre MIT.

Lionel Médini

Lionel Médini est enseignant-chercheur au laboratoire LIRIS de Lyon. Il s’intéresse à la fois aux technologies du Web Sémantique en recherche et du Web avancé et mobile en enseignement. Le travail présenté est à la jonction de ces deux disciplines et a été développé dans le cadre de la thèse de Mehdi Terdjimi qu’il co-encadre autour du Web des objets.

Mehdi Terdjimi

Mehdi Terdjimi est doctorant au laboratoire LIRIS de Lyon. Sa thèse s'inscrit dans le cadre du projet ANR ASAWoO et concerne l'adaptation contextuelle pour le Web des Objets. Ses intérêts se portent sur les domaines du Web sémantique, du raisonnement ainsi que sur les technologies du Web en général.

Présentation du projet ANR OpenSensingCity : travaux réalisés et à venir

Le projet OpenSensingCity financé par l’ANR vise à faciliter l’utilisation des données ouvertes dans le cadre des territoires urbains intelligents. Dans ce cadre, nous supposons que les données de capteurs déployés pour mieux gérer la ville pourront être mis à disposition sur des portails open data. L'ouverture de ces flux apporte des opportunités d'innovation en combinant les avantages usuels de l'ouverture des données à leur mise à jour en temps réel. Les données dynamiques et les flux permettent d'envisager le développement de nouveaux services au-delà de l'utilisation classique des données ouvertes pour la conception d'historiques ou plus généralement d'analyse a posteriori. Si la publication des données issues des capteurs au travers des plateformes open data est une première étape, il est nécessaire à présent de proposer des solutions pour simplifier leur utilisation. En effet, ces données sont en pratique difficiles à comprendre, à trouver et, en fin de compte, à exploiter. Ceci est d'autant plus vrai quand les données sont issues de capteurs car les contraintes de capacité et de communication obligent à minimiser l'information transmise. Par conséquent et afin de permettre le développement d'un écosystème de services urbains ouverts et intelligents, nous voulons fournir (1) des solutions technologiques pour aider à tirer profit de données ouvertes de capteurs pour les développeurs d'applications urbaines, et (2) des recommandations pour les acteurs de cet écosystème en analysant les stratégies d'acteurs, en définissant des scénarios d'usage et des terminologies. Pour atteindre ce résultat, nous combinons une analyse sociale des attentes, des exigences et des pratiques, avec une expertise technologique et technique en données liées et ingénierie des connaissances. La composante sociale doit assurer une meilleure compréhension des besoins des catégories d'utilisateurs de données ouvertes. La composante technologique se fonde sur des technologies du Web sémantique et des techniques de traitement de flux de données. Les résultats attendus sont l'enrichissement et la publication sur une plateforme ouverte, en tenant compte du nouveau paradigme des données liées, des flux de données et du raisonnement. Ceci sera faciliter par l’utilisation ou la construction d’ontologies des villes intelligentes, de même qu'un formalisme pour l'interrogation et la combinaison de flux. En outre, nous définirons des fonctionnalités de recherche et de navigation que nous mettrons en œuvre selon les attentes et besoins identifiés. Enfin, ces outils démontreront leur utilité dans une application qui aidera les conducteurs de véhicules à mieux trouver des places de stationnement.

Antoine Zimmermann

Antoine Zimmermann est enseignant chercheur à l'école des mines de Saint-Étienne et coordonne le projet OpenSensingCity démarré en avril 2015 en partenariat avec l'équipe de recherche Elico (Université de Lyon) et les entreprises Antidot et HiKoB. Ses activités de recherche sont centrées sur le Web sémantique, la représentation de connaissances et l'interrogation de données en exploitant de multiples sources et de multiples contextes de l'information.

N'hésitez pas à consulter son CV.

Présentation du projet WAVES

Le projet WAVES vise à explorer de nouvelles voies pour la fouille de flux massifs de données en temps réel via l’expérimentation d’une approche algorithmique en rupture. Au sein d’un environnement distribué sous forte contrainte de vélocité, sont expérimentées des théories avancées du web sematique : collecte, stockage, sémantisation, filtrage sémantique, qualification, interconnexion, résumé, raisonnement, rétroaction et visualisation.

Deux verrous importants et complexes – le raisonnement dans un contexte de streaming et la génération de résumé – doivent être levés pour atteindre l’objectif de création d’une plateforme de traitement de données streaming sémantisées au terme du projet.

  • Le premier verrou demande des travaux de R&D approfondis sur les méthodes de raisonnement en prenant en compte les caractéristiques de gestion des contraintes temporelles (ordonnancement des données), de l'accès efficace à différentes sources de données (captation, résumé), d'intégrer la problématique de la requête dans le raisonnement et sur de nouvelles heuristiques pour l'optimisation des inférences.
  • Le second verrou consiste à exploiter les données captées et produites par l'inférence dans l'objectif de les résumer. Cela impose de savoir traiter simultanément plusieurs flux, qu’ils soient statiques ou dynamiques et contiennent des données de volatilités différentes (adaptation de la fenêtre temporelle).

WAVES est une solution conçue pour répondre à de nombreux problèmes dans différents métiers. Dans le cadre du projet, un cas d’usage est réalisé : il concerne la détection de fuites d’eau dans les réseaux de distribution d’eau potable des cités. Il a été choisi en raison de la valorisation significative et rapide de ses résultats pour tous les partenaires. Pour illustrer la capacité de la plateforme WAVES à adresser des domaines d’une grande variété, nous pouvons en suggérer bien d’autres pour leur réalisme dans les contextes écologique, smart-city, société. Leur variété vient aussi à l’appui de notre conviction que les différents membres du consortium pourront tirer profit des travaux réalisés dans un projet aux dimensions génériques évidentes.

Badre Belabbess

Étudiant en doctorat au sein du laboratoire R&D de Atos France. De formation scientifique, sa thèse s’articule autour de la mise en place du socle technique de la plateforme Waves afin de créer une architecture modulaire, robuste et sécurisée.