L’UMS Persée, développe le portail www.persee.fr, une bibliothèque patrimoniale de publications scientifiques principalement en sciences humaines et sociales. Le portail diffuse aujourd’hui plus de 600.000 documents scientifiques en libre accès et en texte intégral.
L’équipe Persée est depuis longtemps convaincue de l’intérêt de lier ses données à d’autres sources d’informations. Cela se traduit par l’attribution de DOI aux documents, par un travail conséquent sur l’identification de citations entre les documents, par l’alignement de ses auteurs avec les référentiels nationaux ABES et BnF, mais également avec des sources extérieures au monde des bibliothèques : wikipédia, RePEc, etc.
Persée a fait le choix de ne pas utiliser de procédures permettant de rechercher massivement des correspondances entre ses documents et des vocabulaires et/ou référentiels. Au lieu de cela, plusieurs méthodologies ont été mises en œuvre :
Cette démarche permet d’atteindre un haut niveau de pertinence dans les liens qui sont associés à chaque ressource diffusée par Persée.
Aujourd’hui, Persée franchit un nouveau cap en établissant des liens fondés sur les contenus des documents : deux projets aboutiront, fin 2016, à la mise en ligne de collections intégrant de nouveaux types de liens sémantiques :
Le projet ATHAR, en collaboration avec le laboratoire inVisu de l’INHA, établit des liens entre des publications anciennes et un thésaurus d’identification des monuments du Caire ;
Plusieurs collections en sciences de la vie et de la terre pour lesquelles des liens ont été établis entre les documents de Persée et la classification taxonomique exposée par GBIF (Global Biodiversity Information Facility).
Pour chacune des ressources indexées, le portail Persée proposera une page composite permettant notamment de :
Au-delà de cette exploitation sur le portail web, l’équipe Persée mettra à disposition de la communauté (fin 2016) un triple store permettant, dans une logique d’ouverture et de partage, d’exposer toute la richesse des données produites et/ou collectées.
Responsable du pôle Informatique et développement de l’UMS Persée.
Ingénieur de recherche, Viviane Boulétreau travaille depuis 1999, dans le domaine de la diffusion et la valorisation des résultats de la recherche : CyberThèses (SGML), CyberDoc (XML), archives ouvertes et www.persee.fr depuis 2003. Quelques mots clés résument son activité et son engagement : open access, open source, open data.
Actuellement, Viviane Boulétreau pilote le projet de refonte du socle technologique de l'UMS dans une logique de SI distribué.
Une des missions du Muséum National d’Histoire Naturelle (MNHN) est d’établir une synthèse de la biodiversité et du patrimoine naturel français. Dans ce contexte, il est en charge de l’élaboration d’un référentiel taxonomique pour la faune, la flore et la fonge, TAXREF. Ce référentiel unique liste et organise les noms scientifiques de l'ensemble des êtres vivants recensés sur les territoires français, métropole et outremer, et constitue la pierre angulaire du Système d’Information sur la Nature et les Paysages (SINP). Il est utilisé par de nombreux acteurs publics, privés et de la société civile (collectivités, conservateurs, cabinets d’architecte, enseignants, citoyens, etc.). TAXREF est de plus aligné avec d'autres référentiels taxonomiques ou nomenclaturaux internationaux.
Le projet de recherche Zoomathia vise à étudier l’histoire de la connaissance zoologique à travers l’Antiquité et le Moyen-Age. Pour cela, il envisage d’utiliser les technologies du web sémantique afin d’intégrer des sources de données hétérogènes, allant d’encyclopédies médiévales à des données de biologie moderne, en passant par des rapports de fouilles archéologiques et des ressources iconographiques. Ce travail passe nécessairement par la sélection et/ou la définition de vocabulaires pouvant servir de référentiels taxonomique, culturel, géographique, chronologique etc. Afin de rendre les données intégrées interopérables sur le web, ces vocabulaires doivent faire l’objet d’un consensus et être liés à d’autres vocabulaires connexes faisant autorité. TAXREF étant le résultat d’un large consensus scientifique, et étant déjà utilisé pour l’intégration de données de biologie moderne et de données archéologiques, il a été sélectionné pour construire un thésaurus supportant l’intégration des données considérées dans le cadre du projet Zoomathia.
Dans cette présentation, je reviendrai sur les motivations exposées ci-dessus, puis je décrirai la modélisation d’un thésaurus exprimé en SKOS (Simple Knowledge Organisation System) afin de produire une version de TAXREF exploitable avec les technologies du web sémantique. J’aborderai notamment la question du lien entre ce « TAXREF-SKOS » et d’autres thésaurus et ontologies existantes. Enfin, je décrirai la méthode utilisée pour produire le résultat en RDF et son exposition sur le web de données sous forme d’URI pérennes déréférençables, et je ferai une courte démonstration via la navigation dans les URI en Linked Data et l’utilisation de requêtes SPARQL. En conclusion je reviendrai sur le fait que la construction de thésaurus SKOS n’est qu’une étape, un « enabler », visant à encourager les producteurs de données utilisant déjà TAXREF, et les concepteurs d’applications, à utiliser ces technologies et s’appuyer sur TAXREF-SKOS.
Après avoir travaillé pendant 14 ans dans le secteur privé des télécommunications, Franck Michel a rejoint le CNRS en 2011 comme ingénieur de recherche au laboratoire I3S. Ses travaux de recherche concernent la publication et la fédération de données hétérogènes sur le Web de données. En particulier il étudie des méthodes permettant de traduire en RDF différents types de bases de données, avec un focus sur les bases NoSQL. Dans ce contexte il a développé un prototype permettant d'interroger une base MongoDB en SPARQL (Morph-xR2RML). Franck a participé au projet CNRS MASTODONS Credible sur la fédération de données biomédicales et participe actuellement au projet Zoomathia sur l'étude de la transmission des connaissances zoologiques antiques; il collabore avec le Muséum National d'Histoire Naturelle pour la publication du référentiel taxonomique TAXREF sur le Web de données.
Par ailleurs, Franck est impliqué dans plusieurs activités liées à l'infrastructure de calcul européenne European Grid Infrastructure (EGI). Il assure la coordination technique et le support d'une communauté d'utilisateurs en sciences de la vie, et participe à élaboration et au développement d'outils de monitoring et de gestion de ressources.
Les mécanismes de financement et d’évaluation de la recherche ont conduit à une très forte croissance de la production d’articles scientifiques. Cette croissance a rendu difficile la recherche d’informations dans cette masse de données. Divers travaux dans le monde s’attachent à améliorer cette situation.
Dans ce cadre, le département Traitement du Signal et des Images de Telecom ParisTech a entrepris un travail d’analyse sémantique des publications scientifiques de cet organisme au cours des cinq dernières années.
Des méthodes assez classiques de traitement des langues naturelles combinées avec les travaux récents de description sémantique d’articles scientifiques permettent de proposer des regards nouveaux sur ces productions.
Par exemple, il est possible des thématiques communes à des groupes chercheurs qui ne recoupent pas nécessairement la structure organisationnelle, essentiellement arborescente, des départements de recherche ou les rapprochements entre co-auteurs de publications.
Il est également possible, par exemple, de visualiser l’évolution des thématiques pour des chercheurs ou des groupes de chercheur.
Les visualisations proposées sont destinées à faciliter en interne les collaborations, notamment pour les nouveaux arrivants, et, à donner à l’extérieur une meilleure visibilité sur les résultats produits : recherche de spécialistes, coopération sur des projets…
Le travail porte sur environ 4000 publications. Seulement 1200 environ sont directement disponibles sur la base de donnée interne à l’école. Pour les autres, divers problèmes, dont des problèmes de copyright, rendent l’accès plus complexe. La question de l’accessibilité des publications scientifiques sera abordée, mais pas traitée en profondeur.
Nous verrons la chaine de traitement mise en œuvre, les données intermédiaires produites et les visualisations qui en sont issues. Nous montrerons comment la chaîne de production retenue se prête bien à l’ajout progressif des nouvelles publications et comment celle-ci pourrait être transposée à d’autres organismes ou d’autres activités.
Jean-Claude Moissinac est Maître de Conférences au département Traitement du Signal et des Images, dans le groupe ‘technologies du multimédia’. Depuis plusieurs années ses activités l’amènent à utiliser les technologies de la représentation sémantique en liaison avec le multimédia (interactions multimodales, web services sémantiques…).
Le métier de Proxem est de collecter un corpus de documents sur un domaine spécifique, de l’organiser, puis celui-ci organisé, d’extraire de l’information au niveau du corpus entier. L’étape d’organisation comprend généralement deux étapes : une étape d’annotation (extraction de concepts organisés selon un thésaurus) puis une étape de classification via une certaine taxonomie définie avec le client. L’étape d’annotation nécessite un paramétrage adapté au domaine du corpus et donc généralement de connaître l’univers associé, sa terminologie, etc. Par ailleurs, une approche type « page blanche » cause des problèmes de taux de couverture.
Dans l’optique de répondre à ce problème, Proxem a développé une solution de construction de thésaurus assistée par Machine Learning, via une double approche :
Pour chacun des concepts du thésaurus, l’ordinateur propose plusieurs façons d’extraire le concept dans le corpus (désambiguïsation via termes activateurs et inhibiteurs, modèle d’extraction d’entités nommées pré-appris, etc.). L’ordinateur propose directement les termes correspondants aux concepts dans les autres langues, permettant ainsi la création d’un thésaurus multilingue, exportable au format SKOS.
Une fois que l’utilisateur est satisfait du thésaurus, il peut ensuite s’en servir pour annoter son corpus et indexer les annotations afin de les requêter dans un moteur de recherche et d'obtenir les résultats en affichant les mots en contexte comme le ferait un concordancier.
Diplômé de l’Ecole Polytechnique en 2014, Jean-Marc Marty a rejoint l’équipe de Recherche et Développement de Proxem pour développer les technologies d’analyse sémantique de l’entreprise. Il est plus particulièrement spécialisé dans l’apprentissage de modèles de langues et dans le développement de modèles statistiques en vue de la classification cross-langage de documents.
Huma-Num est une très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines etsociales.
Pour remplir cette mission, la TGIR Huma-Num est bâtie sur une organisation originale consistant à mettre en œuvre un dispositif humain (concertation collective) et technologique (services numériques pérennes) à l’échelle nationale et européenne en s’appuyant sur un important réseau de partenaires et d’opérateurs.
La TGIR Huma-Num favorise ainsi, par l’intermédiaire de consortiums regroupant des acteurs des communautés scientifiques, la coordination de la production raisonnée et collective de corpus de sources (recommandations scientifiques, bonnes pratiques technologiques). Elle développe également un dispositif technologique unique permettant le traitement, la conservation, l'accès et l'interopérabilité des données de la recherche. Ce dispositif est composé d'une grille de services dédiés, d'une plateforme d'accès unifié et d’enrichissement des données et d'une procédure d'archivage à long terme dédiée aux données SHS.
La TGIR Huma-Num propose en outre des guides de bonnes pratiques technologiques généralistes à destination des chercheurs. Elle peut mener ponctuellement des actions d'expertise et de formation. Elle porte la participation de la France dans le projet DARIAH-EU en coordonnant les contributions nationales.
Pour les utilisateurs recherchant de l’information et des documents :
Pour les développeurs, architecte de données, documentalistes et webmestres :
ISIDORE est en exploitation depuis 2011 et fonctionne en mode 24/7.
Ingénieur de recherche au CNRS (Centre National de la Recherche Scientifique), Stéphane Pouyllau est spécialisé depuis 1999 en humanités numériques (digital humanities), en information scientifique et technique et en informatisation des données de la recherche en sciences humaines et sociales. Il a co-créé en 2005 et développé le centre national pour la numérisation de sources visuelles jusqu'en 2009.
Il est l'initiateur et le co-concepteur de MédiHAL (archive ouverte pour photographies et images scientifiques) du CNRS et le concepteur de plusieurs sites web institutionnels sur le patrimoine scientifique français. Il a créé l'archive numérique d'objets et de matériaux iconographiques scientifiques destinée à héberger des fonds d'archives scientifiques.
De 2009 à fin 2011, il a travaillé au TGE Adonis (aujourd'hui Huma-Num) où il a animé les questions de digital humanities puis chef de projet en charge - avec Jean-Luc Minel (Pr. à l'Université Paris Ouest la Défense et TGE Adonis) - de la réalisation de la plateforme de recherche ISIDORE.
De janvier 2012 à mars 2013, il a été le directeur de la très grande infrastructure de recherche Corpus-IR et chargé de mission pour le développement d'ISIDORE.
Il est actuellement directeur-adjoint technique d'Huma-Num, la très grande infrastructure de recherche pour les humanités numériques et responsable de la plateforme ISIDORE. Dans ce cadre, il est le coordinateur scientifique du programme H2020 Parthenos pour Huma-Num et le CNRS.
Il a reçu en 2009, le Cristal du CNRS.
Il est également membre du conseil scientifique de l'Agence bibliographique de l'enseignement supérieur (ABES) et de l'équipex Biblissima.
Le projet ISTEX est un investissement d'avenir soutenu par l’Agence Nationale de la Recherche visant à doter la France d'une bibliothèque numérique scientifique reposant sur deux axes complémentaires : d'une part, une acquisition massive de publications scientifiques (17 millions) couvrant l'ensemble des disciplines et d'autre part, la mise en place d'une plateforme unique d'hébergement, de gestion et d'accès à ces ressources. En janvier 2016, l’InistCNRS a lancé une expérimentation visant à publier, selon les normes du web sémantique, des données extraites du projet ISTEX. Cette expérience vise à développer une méthode pour mettre en ligne des jeux de données dans le respect des normes et standards du W3C. L’objectif est de répondre aux demandes des documentalistes et des chercheurs, en utilisant la structuration sémantique comme un moyen pour répondre à plusieurs besoins :
Les jeux de données sont là pour venir compléter, enrichir, consolider et lier toutes les informations présentes dans la plateforme. L’objectif est de proposer un graphe de jeux de données structurées reliés à des ressources extérieures ou à des référentiels d’autorité. In fine, ce lacis de données conduira toujours à un retour vers les documents plein texte présents dans ISTEX. C’est une autre façon pour diffuser et exploiter les ressources acquises.
La structuration sémantique proposée impose la modélisation des informations à publier au travers d’une ou plusieurs ontologies existantes. Ce postulat révèle des difficultés plus ou moins attendues : choix et appropriation des ontologies, d’une structuration sur des données hétérogènes. Elle a également permis de vérifier des attentes concrètes ouvrant la voie à un passage à l'échelle plus compatible avec le volume des données présent dans le fond ISTEX.
Responsable du service “R&D et expérimentation” de l’InistCNRS, Nicolas s'intéresse aux technologies et standards du web sémantique depuis 2011, lors de ses premiers travaux sur la publication de terminologies scientifiques au format SKOS. En 2013 et 2014, il a participé au groupe web sémantique du GFII. Actuellement, Nicolas Thouvenin pilote les travaux de plusieurs équipes autour de 2 thématiques : le Text Data Mining et l’interopérabilité des données.
Dans le cadre d'une convention de partenariat entre le Conseil départemental de la Gironde, la Métropole de Bordeaux et la Ville de Bordeaux (les partenaires), en vue de construire un système d'archivage électronique mutualisé, la construction d'un module pivot de gestion des données de référence est apparu pertinente. Avec l'aide de la société Logilab les partenaires du projet ont donc développé un référentiel de données capable de mettre à disposition des données liées aux autres modules du système ce qui permettra à terme d'envisager la réalisation d'un entrepôt de métadonnées et de fournir des services de recherche et de consultation. Cet outil permet notamment de relier des vocabulaires contrôlés, des descriptions d'organisation et de notices d'autorités et des modèles d'unités d'archives et de profils encadrant les modalités de versement de celles-ci en réutilisant des entités existantes dans des ontologies largement utilisées.
Les partenaires du projet ont construit ce projet en intégrant les principes de la gestion de projet agile, les concepts du web de données et les principes d'ouverture et de ré-utilisabilité.
Cette présentation sera l'occasion de présenter principalement les aspects fonctionnels de ce référentiel, son intégration dans les démarches en cours des autres acteurs du domaine culturel et administratif et l'importance de l'aspect Open-source de celui-ci. Si cela parait pertinent, on pourra également présenter l'organisation agile mise en place.
Depuis janvier 2014, Pascal anime des équipes de chefs de projets utilisateurs et des prestataires de services en développement logiciel pour le Département de la Gironde.
En tant qu'ingénieur documentaire, il a realisé le lien entre les métiers et le numérique dans le cadre de projets de gestion de données et de documents.
Chez Wordspace, en tant que responsable développement, Pascal a travaillé sur le développement des applications web en php.
Début 2017, le portail Biblissima donnera un accès unifié à 40 bases de données via une application Web sémantique, dont un premier prototype a été réalisé au printemps 2015, initialement, autour de deux bases.
L’objectif de cette présentation est de faire part de l’ensemble des travaux menés par l’équipe, dont les difficultés rencontrées lors de cette élaboration et les résultats définitifs retenus à partir de différents exemples, comme, notamment,
Une démonstration montrera le travail fait depuis l’année dernière à partir d’exemples concrets à savoir :
Stefanie travaille depuis 2013 comme coordinatrice données de l'Équipex Biblissima au Campus Condorcet. De 2008 à 2012 elle a travaillé pour des différents projets à Herzog Augst Bibliothek à Wolfenbüttel en Allemagne. Pour le projet Europeana Regia, traitant des manuscrits numérisés et provenant de trois collections importantes du Moyen Âge et de la Renaissance, elle était responsable du "WP3 metadata" et a assuré la livraison du set de données du projet en RDF (selon les spécifications du Europeana Data Model) à Europeana.
Pool Biblissima
L'équipe est formée de six spécialistes de données et web, Kévin Bois (développeur Front-End), Pauline Charbonnier (équipe metadonnées), Eduard Frunzeanu (expert autorités), Stefanie Gehrke (coordinatrice données), Elizabeth MacDonald (coordinatrice projet équipex), Marie Muffat (experte fonctionnelle) et Régis Robineau (coordinateur web)"
Current and next steps at W3C
In this third talk at SemWebPro in as many years, Phil Archer will describe the state of current activities at W3C related to the Semantic Web, such as Permissions and Obligations Expression, SHACL, Spatial Data on the Web Best Practices, SoLID and more, and look ahead to possible future standardisation work. For example, a current hot topic is how W3C can be better at supporting the development and management of vocabularies. What can we learn from the success of schema.org?
Phil Archer is the Data Strategist at W3C, the industry standards body for the World Wide Web, coordinating W3C's work in the Semantic Web and related technologies. He is most closely involved in the Data on the Web Best Practices, Permissions and Obligations Expression and Spatial Data on the Web Working Groups. His key themes are interoperability through common terminology and URI persistence.
As well as work at the W3C, his career has encompassed broadcasting, teaching, linked data publishing, copy writing, and, perhaps incongruously, countryside conservation. The common thread throughout has been a knack for communication, particularly communicating complex technical ideas to a more general audience.
Le projet ANR ReVeRIES (Reconnaissance de Végétaux Récréative, Interactive et Educative sur Smartphone), lancé en février 2016, vise à faciliter sur l’aide numérique à l’apprentissage de la botanique en situation réelle, c’est à dire dans la nature, ou les utilisateurs ne peuvent utiliser qu’un smartphone.
Savoir identifier les espèces végétales est un aspect fondamental de l'apprentissage botanique. Nous proposons une solution technique (sous forme d’une web application mobile), basée sur une méthode d’identification classiques en botanique : la clef d’identification. Il s’agit pour l’utilisateur de répondre à des questions successives sur la plante à identifier, (ex. la plante a-t-elle des fleurs, les fleurs sont elles symétriques, etc.). Les réponses fournies par l’utilisateur permettent de réduire l’ensemble des espèces possibles, pour finalement isoler une réponse unique, correspondant à l’espèce que l’utilisateur souhaite identifier.
Les solutions existantes pour l’assistance à l’identification sont fondées sur la construction manuelle de clés d’identifications. La spécificité de notre solution est l’utilisation de technologies sémantiques pour assister la création et la mise à jour automatique d’une clé d’identification.
En particulier, nous proposons une ontologie RDF-S décrivant les concepts botaniques principaux (famille, genre, espèce, organe, etc.), et une base de connaissances d’espèces (restreinte ici aux arbres typiques du territoire de la France Métropolitaine).
Les interactions avec l’utilisateur (questions/réponses) peuvent alors être exprimées sous forme de contraintes (ex. sous forme de requêtes SPARQL), pouvant directement être appliquées à la base de connaissance pour diminuer le nombre de candidats (espèces) possibles.
Par ailleurs, l’ajout de règles sémantiques (ex. une espèce possède au plus une famille), permet de réaliser automatiquement des inférences diminuant le nombre de solutions possibles : si la famille a été identifiée, alors les espèces des autres familles ne peuvent pas être des solutions. Lors de la proposition d’une solution, l’utilisateur a accès à la suite d'inférences réalisées menant à cette solution, ce qui offre une meilleure compréhension et favorise l’apprentissage.
Enfin, cette solution offre la possibilité d’étendre facilement la base de connaissance avec de nouvelles espèces (il suffit d’ajouter leurs descriptions dans la base de connaissances).
Il est à noter que les identifications réalisées par les utilisateurs seront capitalisées dans une approche citizen science. Ainsi ces observations pourront servir à des botanistes dans l’étude des variations de répartitions des espèces par exemple (la position de la plante observée étant relevée par le GPS de l’utilisateur).
Pierre-Yves Gicquel est actuellement post-doctorant à l’université du Maine. Le projet de recherche est centré sur l'apprentissage de la botanique et il s'intéresse sur le plan scientifique aux mesures de similarités/distances appliquées aux concepts d'une ontologie ou d'une base de connaissance.
Pierre-Yves Gicquel a réalisé sa thèse en partie sur cette thématique (dans le cadre d'application d'une visite de musée) : si on considère un corpus de documents annotés sémantiquement, parcouru par un utilisateur, il est naturel de proposer des suggestions en fonctions des liens entre documents (les annotations sémantique). La notion de distance généralise cette question et permet une plus grande finesse dans le calcul. Il me semble que bien que la notion de distance soit purement numérique, cela pourrait s'avérer très utile dans le cadre du web sémantique.
Il est contributeur sur OpenLaw et généralement ouvert aux applications sémantiques présentant un intérêt immédiatement visible pour les non spécialistes.
Visitez son profil Github,
LinkedIn
ainsi que ResearchGate.
Le programme NosRecettes (2013-2016) du projet Open Food
System1 (OFS) a pour ambition d’offrir, grâce à une
plate-forme numérique, une panoplie de services pour mieux
assister les cuisiniers amateurs. Les recettes désormais
digitales peuvent devenir un des vecteurs les plus efficaces
pour accélérer la démocratisation des usages numériques dans
le quotidien domestique. NosRecettes vise donc à développer des solutions complètes
innovantes, à base de Web Sémantique, qui seront la base des
expériences utilisateurs dans la cuisine de demain : Pour répondre à ces axes, nous avons développé une chaîne
sémantique pour l’enrichissement des recettes
numériques. Cette chaîne intègre trois outils : Luxid de
Temis pour l’extraction d’information, GraphDB de OntoText
pour le raisonnement et le stockage en RDF des recettes
enrichies et enfin le Content Augmentation Manager de
Mondeca pour orchestrer chacune des étapes, filtrer et
désambiguïser les informations extraites et optimiser les
raisonnements à réaliser en fonction des scénarios du
programme : calcul d’information nutritionnelle,
identification de recettes génériques vs recettes variantes,
identification de la saisonnalité d’une recette,
identification de la complétude d’une recette, structuration
fine des instructions de la recette pour identifier des
adaptations possibles entre matériels, amélioration des
résultats du moteur de recommandation de recettes. Pour rendre possible chacun de ces scénarios, tous les
composants de la chaîne sémantique reposent essentiellement
sur une ressource termino-ontologique de la cuisine composée
de 6 modules interdépendants (aliments, nutrition,
matériels, unité, préparations et cuisine). En effet, elle
permet de générer les lexiques utilisés par l’outil
d’extraction linguistique pour l’enrichissement des recettes
numériques. Mais surtout la définition de nombreuses classes
construites permet de classer automatiquement les recettes
enrichies tout en permettant l’inférence de nouvelles
connaissances sur ces recettes. Un véritable challenge a été
relevé pour pouvoir concilier représentation de l’ontologie
en OWL2 DL, raisonnements dans le fragment OWL2 QL proposé
par GraphDB et performance de l’ensemble de la chaine
sémantique pour que les temps de traitement restent
acceptables. Ce programme illustre les limites actuelles
pour l’implémentation de raisonnements poussés, sur une
ontologie conséquente, dans un environnement à visée
hautement industrielle. Florence Amardeilh est responsable du département R&D de
Mondeca depuis 2007, travaillant dans les domaines de
l’acquisition des connaissances et du Web Sémantique
depuis 2002. Ingénieur de Recherche en Systèmes
d’information et Gestion des Connaissances en 2001, elle a
ensuite réalisé une thèse CIFRE chez Mondeca en
partenariat avec l’Université Paris 10. La thèse a eu pour
objectif de réunir et de combiner les méthodes et outils
du Traitement Automatique du Langage avec ceux du Web
Sémantique afin de créer des applications pour le
peuplement d’ontologies et l’annotation
sémantique. Florence participe, en collaboration avec des
partenaires industriels et universitaires, au montage, au
pilotage et à la réalisation de nombreux projets de
recherche européens (IST FP5 - MOSES, IST-FP6 – TAO,
IST-FP7 Virtuoso, IST-FP7 SeaBilla) et français (ANR
Eiffel, ANR Tecsan VigiTermes, ANR Tecsan InterSTIS, RNTL
TerraNumerica, FUI SAMAR, FUI LegiLocal, ANR CSOSG SAIMSI,
ANR TecSan TerSan, FUI FIORA, PSPC Open Food System),
permettant à Mondeca d'être à la pointe de l'innovation
des méthodes et outils existants en Web Sémantique. Au départ, il y avait ce constat : il n'a pas de solution
Open Source simple pour visualiser et éditer des données RDF
en s'appuyant sur une base SPARQL, et sur les ontologies, de
manière collaborative. On est parti d'un générateur de
formulaire robuste, générique, et en temps réel. Puis on a
élargi les fonctionnalités pour proposer un framework Web
(cadriciel disent nos amis Quebécois) qui vise à être aussi
simple et universel que Ruby on Rails, Django, Symphony,
etc. On a aussi posé des jalons pour une console
d'administration SPARQL ( à la PHPMyAdmin ). Au passage on
élargira le propos sur le Système d'Information avec les
avantages du Sémantique, et l'ERP (Progiciel de Gestion
Intégrée) sémantique. Cas d'utilisation Semantic_forms est fonctionnel en sortant de la
boîte, une fois qu'on a dézippé le logiciel, ou qu'on
l'a construit à partir des sources. Pas besoin
d'installer séparément une base de données ou d'autres
composants. Vous pouvez naviguer dans vos données RDF
(Turtle, JSON-LD) chargées dans la base locale Jena
TDB aussi facilement que dans les profils FOAF sur
Internet, ou mélanger les deux. Semantic_forms
ressemble aux pages de DBPedia, où en plus on peut
modifier tous les champs, et charger n'importe quelles
données du LOD. Si on n'est pas content du formulaire créé
automatiquement, on peut écrire une spécifications de
formulaire. On peut aussi composer des pages Web
statiques qui appellent via JavaScript un ou plusieurs
services Web de formulaires. La technique En ce qui concerne la mise en œuvre, semantic_forms
tire parti de Jena TDB (en embarqué), de Play!
Framework, du langage Scala et de la librairie
Banana-RDF. Grâce à Banana-RDF, on peut peut
configurer semantic_forms pour utiliser d'autres bases
de données SPARQL, en embarqué (via API) comme
BlazeGraph ou Sesame, ou n'importe quelle base via
HTTP. Les composants La vision originale du Web sémantique était profondément enracinée dans le World Wide Web. Cependant, en cours de route, nous nous sommes orientés vers des sujets tels que l'analyse des données. Et comment le web sémantique a tenu bon contre le Big Data et la Machine Learning, qui ont sans doute été les sujets le plus mis en avant ces derniers temps ? Au cours de sa présentation, Ruben va expliquer pourquoi la partie "web" du "web sémantique" est si importante. Mais aussi pourquoi nous devons penser de manière plus décentralisée.
Si nous souhaitons que le web soit un succès auprès de vrais utilisateurs, il doit fonctionner sur une échelle web. Chercheur en hypermédia sémantique à l'Université de Gand
- iMinds, en Belgique, où il a obtenu son doctorat en
informatique en 2014, Ruben explore le lien entre les
technologies du Web sémantique et les propriétés
architecturales du Web, avec comme but la conception de
clients plus intelligents. Il est passionné par le Linked
Data, REST/hypermédia, les API Web et les technologies
connexes. À l’heure où le Web est devenu une plateforme qui permet
d’accéder à ses applications, ses réseaux sociaux et ses
objets connectés, les technologies du Web Sémantique peinent
encore à trouver un champ applicatif et sont perçues comme
lourdes et peu dynamiques. Dans les applications Web, elles
sont actuellement utilisées soit en back office côté serveur,
soit au mieux pour déréférencer des identifiants de ressources
ou comme dispositifs de stockage. Pourtant, du raisonnement
peut être utilisé sur des données stockées localement côté
client. Utilisé conjointement avec les nouvelles APIs HTML5,
le raisonnement côté client peut être embarqué dans une
application web dynamique, permettre des performances tout à
fait acceptables, et même vous faire économiser de la
puissance de calcul côté serveur et de la bande passante
réseau. Nous présenterons un tour d’horizon des technologies qui
permettent de déployer du raisonnement côté client, sans
perturber le fonctionnement d’une application. En
particulier, nous présenterons le moteur d’inférences Hybrid
Location-Agnostic Reasoner (HyLAR) fondé sur le profil de
raisonnement OWL 2 RL qui tire à la fois parti des avancées
en raisonnement incrémental et des APIs asynchrones côté
client. HyLAR fournit par ailleurs un SPARQL endpoint
performant pour des données applicatives locales. Enfin,
nous présenterons un exemple de framework permettant
d’exécuter le moteur d’inférences HyLAR indifféremment côté
serveur ou côté client, en s’adaptant aux performances et
aux ressources (batterie, connexion réseau) du client. HyLAR
est disponible en tant que module NPM sous licence libre
MIT. Lionel Médini est enseignant-chercheur au laboratoire
LIRIS de Lyon. Il s’intéresse à la fois aux technologies du
Web Sémantique en recherche et du Web avancé et mobile en
enseignement. Le travail présenté est à la jonction de ces
deux disciplines et a été développé dans le cadre de la
thèse de Mehdi Terdjimi qu’il co-encadre autour du Web des
objets. Mehdi Terdjimi est doctorant au laboratoire LIRIS de Lyon. Sa thèse s'inscrit dans le cadre du projet ANR ASAWoO et concerne l'adaptation contextuelle pour le Web des Objets. Ses intérêts se portent sur les domaines du Web sémantique, du raisonnement ainsi que sur les technologies du Web en général. Le projet OpenSensingCity financé par l’ANR vise à
faciliter l’utilisation des données ouvertes dans le cadre des
territoires urbains intelligents. Dans ce cadre, nous
supposons que les données de capteurs déployés pour mieux
gérer la ville pourront être mis à disposition sur des
portails open data. L'ouverture de ces flux apporte des
opportunités d'innovation en combinant les avantages usuels de
l'ouverture des données à leur mise à jour en temps réel. Les
données dynamiques et les flux permettent d'envisager le
développement de nouveaux services au-delà de l'utilisation
classique des données ouvertes pour la conception
d'historiques ou plus généralement d'analyse a posteriori. Si
la publication des données issues des capteurs au travers des
plateformes open data est une première étape, il est
nécessaire à présent de proposer des solutions pour simplifier
leur utilisation. En effet, ces données sont en pratique
difficiles à comprendre, à trouver et, en fin de compte, à
exploiter. Ceci est d'autant plus vrai quand les données sont
issues de capteurs car les contraintes de capacité et de
communication obligent à minimiser l'information
transmise. Par conséquent et afin de permettre le
développement d'un écosystème de services urbains ouverts et
intelligents, nous voulons fournir (1) des solutions
technologiques pour aider à tirer profit de données ouvertes
de capteurs pour les développeurs d'applications urbaines, et
(2) des recommandations pour les acteurs de cet écosystème en
analysant les stratégies d'acteurs, en définissant des
scénarios d'usage et des terminologies. Pour atteindre ce
résultat, nous combinons une analyse sociale des attentes, des
exigences et des pratiques, avec une expertise technologique
et technique en données liées et ingénierie des
connaissances. La composante sociale doit assurer une
meilleure compréhension des besoins des catégories
d'utilisateurs de données ouvertes. La composante
technologique se fonde sur des technologies du Web sémantique
et des techniques de traitement de flux de données. Les
résultats attendus sont l'enrichissement et la publication sur
une plateforme ouverte, en tenant compte du nouveau paradigme
des données liées, des flux de données et du
raisonnement. Ceci sera faciliter par l’utilisation ou la
construction d’ontologies des villes intelligentes, de même
qu'un formalisme pour l'interrogation et la combinaison de
flux. En outre, nous définirons des fonctionnalités de
recherche et de navigation que nous mettrons en œuvre selon
les attentes et besoins identifiés. Enfin, ces outils
démontreront leur utilité dans une application qui aidera les
conducteurs de véhicules à mieux trouver des places de
stationnement. Antoine Zimmermann est enseignant chercheur à l'école des
mines de Saint-Étienne et coordonne le projet
OpenSensingCity démarré en avril 2015 en partenariat avec
l'équipe de recherche Elico (Université de Lyon) et les
entreprises Antidot et HiKoB. Ses activités de recherche
sont centrées sur le Web sémantique, la représentation de
connaissances et l'interrogation de données en exploitant de
multiples sources et de multiples contextes de
l'information. Le projet WAVES vise à explorer de nouvelles voies pour
la fouille de flux massifs de données en temps réel via
l’expérimentation d’une approche algorithmique en
rupture. Au sein d’un environnement distribué sous forte
contrainte de vélocité, sont expérimentées des théories
avancées du web sematique : collecte, stockage,
sémantisation, filtrage sémantique, qualification,
interconnexion, résumé, raisonnement, rétroaction et
visualisation. Deux verrous importants et complexes – le raisonnement
dans un contexte de streaming et la génération de résumé –
doivent être levés pour atteindre l’objectif de création
d’une plateforme de traitement de données streaming
sémantisées au terme du projet. WAVES est une solution conçue pour répondre à de nombreux
problèmes dans différents métiers. Dans le cadre du
projet, un cas d’usage est réalisé : il concerne la
détection de fuites d’eau dans les réseaux de distribution
d’eau potable des cités. Il a été choisi en raison de la
valorisation significative et rapide de ses résultats pour
tous les partenaires. Pour illustrer la capacité de la
plateforme WAVES à adresser des domaines d’une grande
variété, nous pouvons en suggérer bien d’autres pour leur
réalisme dans les contextes écologique, smart-city,
société. Leur variété vient aussi à l’appui de notre
conviction que les différents membres du consortium
pourront tirer profit des travaux réalisés dans un projet
aux dimensions génériques évidentes. Étudiant en doctorat au sein du laboratoire R&D de Atos
France. De formation scientifique, sa thèse s’articule
autour de la mise en place du socle technique de la
plateforme Waves afin de créer une architecture
modulaire, robuste et sécurisée.Le Web Sémantique au service de la cuisine numérique de
demain
Le cadriciel Semantic_forms: vers le SI Sémantique
Le web au premier plan
Le raisonnement embarqué côté client : et si c’était
facile ?
Présentation du projet ANR OpenSensingCity : travaux
réalisés et à venir
Présentation du projet WAVES