Exploration de grands graphes de connaissance avec SemSpect
Intervenant⋅e⋅s
Résumé
Il est difficile de se faire une idée du contenu des grands graphes de connaissance. Les outils traditionnels de visualisation de graphes s'avèrent peu pratiques dès que le nombre d'objets et leur degré de connexion augmente, et les interfaces de requête textuelles ou à base de formulaires sont peu adéquates pour accompagner les tâtonnements inhérents aux tâches exploratoires. Pour éviter les requêtes incompatibles avec les données, certains outils guident l'interrogation grâce à l'utilisation de facettes, mais la présentation linéaire ou tabulaire des résultats rend leur interprétation laborieuse.
Le logiciel SemSpect, basé sur une architecture REST avec une interface HTML5, permet l'exploration visuelle de graphes de connaissances RDFS/OWL contenant plusieurs millions d'objets. La particularité de l'approche utilisée réside dans la vue d'ensemble arborescente très synthétique de relations entre groupes d'objets construite pas à pas par l'utilisateur. Cette interaction, guidée à la fois par le schéma et par les données, rend tangibles les relations existant entre les différents types d'objets du graphe tout en limitant la quantité d'informations présentées, les détails sur les objets d'un groupe ou leurs relations restant accessibles à la demande.
Pour pouvoir répondre à des requêtes spécifiques, chaque groupe d'objets de la vue d'ensemble peut être filtré en utilisant la classification prédéfinie par le modèle ainsi que les attributs des objets qu'il contient. Cette fonctionnalité associée à la possibilité d'enregistrer les explorations pour une utilisation ultérieure permet de réaliser l'équivalent de requêtes paramétrées complexes. De plus, tout groupe d'objets obtenu lors d'une exploration peut être utilisé pour créer une nouvelle catégorie (définie par les requêtes implicites qui ont permis son obtention) qui vient affiner la classification initiale. L'utilisateur peut ainsi se constituer peu à peu une boîte à outils d'exploration personnalisée.
La configuration du système permet d'adapter les informations accessibles aux besoins des différents groupes d'utilisateurs (types et attributs des d'objets, critères et granularité de classification, ...) et la déclaration de classes facettes dans le modèle initial donne un accès automatique à des informations statistiques et des moyens de filtrage rapide dans l'interface pour les types d'objets concernés.
Nous présenterons l'architecture du système puis ses principales fonctionnalités à l'aide d'une exploration en direct des données extraites des Panama Papers par l'ICIJ [1]. SemSpect étant actuellement utilisé par une unité policière et par une entreprise produisant des systèmes d'automatisme industriel, nous ferons également part de notre retour d'expérience.
Auteurs/Autrices
Vincent Vialard a rejoint la société derivo GmbH en 2013 comme ingénieur de recherche dans le cadre du projet GraphScale, une coopération avec l'université d'Ulm ayant pour but le développement d'un moteur d'inférence pour bases de données sémantiques. Il est aujourd'hui responsable du développement de GraphScale et de SemSpect.