La fédération de données par les technologies sémantiques

Intervenant⋅e⋅s

Résumé

François Paulus est fondateur et président de la société Semsoft. Auparavant, François Paulus a travaillé à Orange Labs pendant 9 ans ou il a développé un véritable savoir-faire dans l’exploitation et la mise en œuvre de solution de fédération de données basée sur les technologies sémantiques. Il est titulaire d’un diplôme d'ingénieur de l’Ecole National Supérieure des Télécommunications de Bretagne (promotion 1999).

Semsoft (acronyme de « Semantic Software ») avec le soutien d’une équipe de recherche mixte INRIA/CNRS a développé une solution de fédération de données reposant sur les technologies sémantiques. Cette solution est la concrétisation de 10 ans de R&D.

L’objectif majeur de notre solution est de permettre l’agrégation de données hébergées par des sources d’information hétérogènes et accessibles uniquement au travers d’interfaces de service. De façon plus précise, notre solution propose une interface d’interrogation unique au dessus de sources d’information réparties et hétérogènes afin d’offrir une vue unifiée des données opérationnelles de l’entreprise.

Cette interface d’interrogation unique est définie sous la forme d’une ontologie RDFS qui s’attache à décrire précisément la sémantique des informations sujettes à interrogation. Notre solution a à sa charge la recherche des réponses aux requêtes SPARQL qui lui sont posées en identifiant les sources d’information pertinentes, en les interrogeant dans leur langage et leur vocabulaire de requêtes (qui varient d’une source à l’autre), et éventuellement en combinant (pour des besoins d’orchestration et/ou d’agrégation) leurs données (dont le format peut varier d’une source à l’autre).

Contrairement à un moteur de recherche, notre solution ne dispose pas directement des données pour répondre à la requête mais seulement de descriptions abstraites appelées vues décrivant par des formules logiques et dans le vocabulaire de l’ontologie le contenu des différentes sources d’informations qu’il peut interroger. Ces vues peuvent être décrites sous la forme de fichiers de description de services web en utilisant la syntaxe SA-WSDL et les mécanismes d’extension prévus dans le langage WSDL2.0.

Pour répondre à une requête, notre solution reformule donc la requête initiale en un plan de requêtes directement exécutable auprès des sources d’information pertinentes. Cette reformulation est obtenue par réécriture de la requête en termes de vues (approche de type « LAV » [1]). L’interrogation des sources d’information s'effectue par le biais d'adaptateurs qui servent de passerelle entre la description abstraite des données (sous la forme de vues) et les données stockées dans les sources. Concrètement les sources d’information sont invoquées au travers d’API.

Semsoft propose également des extensions permettant:

  • d’enrichir le modèle sémantique sur lequel se base notre solution par la définition de règles de confidentialité [2] afin de garantir le respect de la politique de sécurité définie au sein de l’entreprise.
  • de visualiser les résultats dans un environnement 3D généré de façon dynamique [3].

[1] : Alon Y. Halevy (2001). « Answering queries using views: A survey ». The VLDB Journal

[2] : Said Oulmakhzoune, Nora Cuppens-Boulahia, Frédéric Cuppens and Stephane Morucci (2010). « fQuery: SPARQL Query Rewriting to Enforce Data Confidentiality ». Lecture Notes in Computer Science.

[3] : Esnault, N., Royan, J., Cozot, R., and Bouville, C., "A flexible framework to personalize 3D web users experience", In Proceedings of the 15th international Conference on Web 3D Technology (Los Angeles, California, July 24 - 25, 2010). Web3D '10. ACM.