IRPIA : Outil d’indexation de ressources pédagogiques intelligent et assisté : un projet du Ministère de l’Education Nationale et de la Jeunesse
Intervenant⋅e⋅s
Résumé
IRPIA est un prototype d’outil d’indexation de ressources pédagogiques intelligent et assisté.
L’objectif est d’aider les éditeurs à créer les notices de leurs ressources pédagogiques dans le GAR. Le GAR (Gestionnaire d’accès aux ressources) est le catalogue des ressources pédagogiques aux services des élèves et enseignants.
Une approche plurielle pour réduire la charge de description Dans le cadre du projet, six axes ont été sélectionnés en vue de réduire la charge de description des ressources numériques pédagogiques:
- Simplification du modèle de description La réduction du modèle à un sous-ensemble de champs jugés essentiels, prenant en compte les exigences spécifiques du GAR, est une démarche simple mais indispensable pour réduire le coût de l’adoption du standard ScoLOMFR.
- Suggestion par machine learning L’existence de grandes bases de ressources numériques manuellement indexées au standard ScoLOMFR rend possible l’entraînement de modèles d’apprentissage profond, notamment les algorithmes modernes de classification exploitant les techniques de “plongement lexical” sous leur forme la plus récente, les transformers. On suggère à l’utilisateur, à partir de valeurs saisies dans certains champs tels que le titre, les valeurs qui ont le plus de chance d’être pertinentes pour les autres champs.
- Optimisation UX/UI L’un des défauts des interfaces de description basées sur les standards est souvent leur apparence peu attrayante. L’application de principes simples d’optimisation UX/UI (user experience/user interface) a permis de remédier à ce problème.
- Suggestion par inférence Construits selon les standards du web sémantique, les vocabulaires ScoLOMFR contiennent des assertions de relations entre entités (ex. “point de programme enseigné dans niveau” ) qui sont exploitées pour suggérer des valeurs pertinentes pour certains champs.
- Suggestion par extraction des contenus (scraping) Lorsque les ressources sont des pages web certains champs de métadonnées sont extraits par scraping : typiquement, le titre, la description.
- La suggestion depuis des API de référentiels Nous disposons au niveau national de référentiels accessibles via des APIs : annuaire administratif des entreprises (Sirène), référentiels d’autorités : ISNI, BNF, Idref qui sont utilisés pour récupérer la description et les identifiants des auteurs et éditeurs de la ressource pédagogique. Ce projet combine deux approches: les technologies du web sémantique (ontologies, raisonneurs...) qui se rattachent au domaine de l'IA symbolique et le machine learning qui fait appel à l'IA probabiliste.
En résumé, l’objectif de ce projet est d'appréhender ce qui est possible de réaliser en termes d’assistance à la saisie d’informations structurées en mobilisant toutes les technologies à notre disposition, mais aussi de préparer une nouvelle génération d’outils de saisie pour simplifier le travail des éditeurs et améliorer la qualité et complétude des notices des ressources au format ScoLOMFR.