Elaboration d’une ontologie pour la structuration et l’indexation fine d’un corpus de littérature nativement numérique.

Intervenant⋅e⋅s

Résumé

Nous constituons un corpus de littérature numérique en ligne à partir du répertoire de la BNF constitué de sites web et de blogs d’écrivains publiant des œuvres originales. Aujourd’hui, la BNF a indexé et répertorié plus de 4000 sites et blogsi. Ils sont décrits sous format MARC. Nous proposons à partir de ce répertoire un corpus en ligne qui soit à la fois un outil d’observation et d’analyse d’une production littéraire en cours et un corpus disponible pour diverses analyses automatiques. La richesse lexicale, syntaxique et sémantique mais également d’articulation entre les textes et d’autres formats (vidéos, images fixes, dessins) constituent aussi l’intérêt de ce corpus. Enfin, l’actualisation fréquente de ces sites et blogs permettent d’observer l’activité de production d’une œuvre. Ce projet pose à la fois des questions relatives à la constitution des corpus et à l’indexation fine des productions web. Le problème initial associé aux corpus est la segmentation d’unités minimales d’intervention d’auteur et la façon dont ces unités minimales sont insérées dans la structure des pages donc du site (qui constituent des unités plus larges). Ces entités sont indexées et représentées de façon à permettre une navigation élaborée et des mises en commun d’entités hétérogènes par des paramètres communs. Enfin, on ne dispose pas de langages contrôlés pertinents pour caractériser les contenus des objets littéraires.

Nous élaborons un modèle ontologique : on considère un site ou un blog de publication d’auteur comme un flux d’informationii et non uniquement comme un document. On définit le flux (actualisation, hypermédia et canal d’information) par des propriétés de domaine qui s’appliquent à des objets identifiés par des concepts FRBRiii. Ces objets sont enfin annotés par des profils construits à partir du DCiv. On réutilise des concepts élaborés dans le cadre de la BFO/IAOv pour caractériser les propriétés associées au flux et donc à la dimension informationnelle des objets. Cette ontologie s’applique sur les concepts de groupe 1 de FRBR. Nous reformulons le modèle, notamment sa représentation OWL 2 dans FABIOvi. Les concepts que nous retenons (œuvre, expression, manifestation) acceptent des profils DC qui représentent chacun des niveaux par des éléments spécifiques et distincts. La structuration hiérarchique (descendante dans le FRBR avec propriétés de flux et remontante dans le DC) permet d’inférer les descriptions des autres niveaux à partir d’un niveau. Ces éléments DC sont utilisés comme des outils d’annotation. Nous souhaitons donc présenter ce modèle avant son application à grande échelle.

Auteurs/Autrices

Christian Cote, Maître de Conférences HDR en SIC, membre de l’équipe MARGE, dans le cadre du projet LIFRANUM, financement BOURGEON-Université Lyon3.