DAGOBAH : Des outils pour l'interprétation automatique de données tabulaires

Intervenant⋅e⋅s

Résumé

La valorisation des données tabulaires est un enjeu stratégique pour les organisations car leurs connaissances sont en grande partie intégrées dans ces structures (csv, excel, ods, gsheet). L'entreprise Orange ne fait pas exception à cet état de fait. Avec plus de 140 000 employés à travers le monde et un portfolio de clients et de domaines variés, Orange produit quotidiennement une quantité phénoménale de données tabulaires hétérogènes. Ces tables servent à la fois de vecteur et de support de stockage des connaissances. Elles sont profondément intégrées au sein de nombreux services administratifs (RH, finances, etc.), techniques (logs produits par les infrastructures de réseau, etc.) et commerciaux (catalogues de produits multimédias, etc.). Par conséquent, leur interprétation automatique ouvre la voie à une meilleure efficacité opérationnelle et à des services innovants tirant partie de la sémantique des données.

L'utilisation de techniques d'interprétation automatique de tables (Semantic Table Interpretation, STI) permet d'adresser efficacement ce challenge. Ces techniques ont pour objectif de rendre la sémantique des données plus explicite en établissant des correspondances entre les éléments de la tables (les colonnes et les cellules) et des entités décrites dans des graphes de connaissances (encyclopédiques comme Wikidata/DBPedia ou d'entreprise). Les annotations sémantiques produites par les techniques de STI peuvent être valorisées dans plusieurs domaines d'applications : l'enrichissement de graphes de connaissances, la correction et l'augmentation des données brutes, les moteurs de questions réponses, la recherche et la gouvernance de jeux de données ou encore plus généralement la gestion des connaissances. En particulier, nous proposons d'établir une boucle vertueuse dans laquelle le graphe de connaissances est tout d'abord utilisé pour interpréter sémantiquement les données tabulaires puis enrichi grâce aux annotations qui en résultent.

Cette présentation introduit DAGOBAH, une approche de STI développée par la recherche d'Orange en collaboration avec EURECOM. DAGOBAH permet de réaliser des tâches allant du pré-traitement des tables (extraction d'en-têtes, détection de l'orientation, etc.) jusqu'à l'identification de propriétés sémantiques entre les colonnes en passant par la désambiguïsation des mentions contenues dans les cellules et le typage des colonnes.

Pour améliorer la pertinence des outils DAGOBAH et favoriser l'adoption des technologies de STI au sein de l'entreprise, notre équipe de recherche utilise deux leviers qui seront l'objet de la deuxième partie de cette présentation :

  • La participation, depuis trois années (avec un 1er prix en 2021), au challenge SemTab (intégré à la conférence ISWC), une compétition scientifique internationale de référence pour les techniques de STI.

  • Une approche Test&Learn matérialisée par la mise à disposition au sein de l'entreprise d'une API et d'une interface graphique pour l'annotation de données tabulaires dont une démonstration sera proposée en fin d'intervention.

Références

  • Présentation effectuée dans le cadre de l'Industry Track ISWC2021

  • Présentation effectuée dans le cadre du challenge SemTab2021 ISWC2021 Cette vidéo comprend notamment une démo de l'interface graphique de DAGOBAH (5'55)

Auteurs/Autrices

Yoan Chabot est chercheur au sein de l'entité Orange Innovation/DATA-AI d'Orange depuis Novembre 2014. Il a obtenu un double doctorat Université de Bourgogne/University College Dublin en 2014 suite à des travaux s'intéressant à l'application des techniques d'ingénierie des connaissances au domaine de la criminalistique informatique. Au sein d'Orange, il dirige des projets de recherche visant à utiliser des graphes de connaissances dans des domaines variés (data management, cybersécurité).

Pierre Monnin est chercheur au sein de l'entité Orange Innovation/DATA-AI d'Orange depuis Septembre 2020. Il a obtenu son doctorat à l'Université de Lorraine en 2020 pendant lequel il a travaillé sur l'extraction et la comparaison de connaissances dans le domaine biomédical de la pharmacogénomique dans le cadre du projet ANR PractiKPharma. Ses travaux à Orange portent sur l'extraction de connaissances à partir de données tabulaires et l'intégration de données incertaines dans des graphes de connaissances. Il a été general co-chair d'ALGOS 2020 et sera Proceedings & Metadata co-chair d'ISWC 2022.

Thomas Labbé est chercheur au sein de l'entité Orange Innovation/IT&Services depuis 2013, ainsi qu'au laboratoire d'Intelligence Artificielle de l'IRT b<>com depuis 2020. Diplômé de l'ENSEA et de l'Université Polytechnique de Valencia, il contribue à différents domaines de recherche avant de se spécialiser dans l'exploitation des données textuelles. Après avoir élaboré des algorithmes de recommandation basés sur des taxonomies et des graphes de connaissances, il travaille aujourd'hui sur l'extraction d'information à partir de données non structurées et semi-structurées sur des domaines ouverts ou plus spécialisés comme la génétique.