Comment exploiter une ontologie de recherche scientifique à des fins d'analyse automatique de documents

Intervenant⋅e⋅s

Résumé

Retour d’expérience sur un cas concret : enrichissement d’une ontologie à partir de l’analyse de publications scientifiques sur la résistance aux antibiotiques.

Proxem est pionnier de l'analyse sémantique des données textuelles pour l'entreprise. Sa technologie est fondée sur une technologie hybride d'extraction d'informations et de gestion des connaissances grâce à l'IA, et d'outils linguistiques d'analyse sémantique.

Dans le cadre d’un projet de mise en place d’un outil de veille scientifique sur le sujet de la résistance aux antibiotiques, nous avons exploré comment, à partir d’une ontologie dédiée à la recherche scientifique (dans le cas présent CARD (The Comprehensive Antibiotic Resistance Database)), il était possible d’exploiter les ressources de ladite ontologie à des fins d’analyse automatique, et de proposer de nouvelles relations susceptibles d’enrichir l’ontologie de départ.

En particulier, il s’agissait de proposer des relations « confer resistance » entre des déterminants (ou mécanismes) de résistance, des antibiotiques et des bactéries.

Les sujets abordés dans le cadre de ce projet sont :

  • Récupération de l’ontologie source, compréhension de sa structure et sélection des éléments transformables en « lexiques » pour l’analyse automatique.

  • Problèmes liés à la lexicalisation des éléments de l’ontologie (reconnaissance des formes fléchies, des composés, identification des « unités lexicales ». Par exemple structure « syntaxique » des déterminants de résistance.

  • Problèmes de tokenisation associés Nous montrerons comment nous avons extrait des lexiques d’antibiotiques, de bactéries et de déterminants de résistance

  • Problèmes liés à l’exploitation de connaissances non « lexicalisées » dans l’ontologie : par exemple comment extraire le vocabulaire utilisé dans les définitions, pouvant servir à identifier des mécanismes complexes de résistance.

  • Les mécanismes de résistance sont complexes, mettant en jeu des mutations génétiques, des membranes cellulaires, des enzymes : l’enjeu, dans un dialogue avec des spécialistes du domaine, était d'une part de déterminer les éléments « lexicaux » permettant de donner des indices de détection d’un mécanisme de résistance exprimé dans un article scientifique et d'autre part d'identifier les structures phraséologiques plus complexes, permettant d’augmenter le rappel.

  • Association d’un score aux relations identifiées.

Nous présenterons les résultats obtenus et les pistes d’améliorations envisagées.

Auteurs/Autrices

Jocelyn Coulmance - Directeur scientifique, en charge de la R&D chez Proxem, diplômé de l’École Nationale Supérieure d'Informatique pour l'Industrie et l'Entreprise.

Cécile Potier - Cheffe de projet infolinguiste chez Proxem, docteure en Linguistique théorique et formelle (Paris VII).