Accueil > Sudoc > Produire dans le Sudoc > Automatisation des process : le Hub de métadonnées

Automatisation des process : le Hub de métadonnées

L'objectif du projet Hub de métadonnées consiste à se doter de nouveaux outils et méthodes pour drainer davantage de données de qualité, ce en cohérence avec les principes du web de données.

Le Hub de métadonnées est une partie de la réponse aux enjeux suivants :

  • le signalement de la documentation électronique ne peut suivre le même modèle que le catalogage partagé traditionnel : les masses et les flux de documents sont trop importants ; les éditeurs sont aujourd'hui en mesure de fournir des métadonnées réutilisables
  • les métadonnées fournies par les éditeurs sont souvent de qualité inférieure aux attendus. En effet, la qualité des métadonnées est un facteur décisif pour la recherche, l'identification et la garantie de l'accès aux documents, notamment via les résolveurs de lien
  • les catalogues de bibliothèque ne sont plus les outils privilégiés des lecteurs. Les métadonnées doivent donc être redistribuées le plus largement possible, y compris en direction des outils de découverte ou des résolveurs de liens commerciaux. Sur ce marché, dont les principaux clients sont les bibliothèques, la concurrence doit se faire sur les services et les fonctionnalités, mais pas sur les données, qui doivent être libres et réutilisables, intégrées au web de données. Avec le hub, l'ABES réaffirme sa volonté de contribuer à cet effort international de libération des métadonnées bibliographiques et associées.

Repères / historique du projet

Projet d'établissement 2012-2015 : introduction de la notion et de l'ambition d'un hub de métadonnées

"Dans le cadre du hub de métadonnées, l’ABES offrira aux établissements un nouveau service de redistribution (dans n’importe quel format) des métadonnées enrichies après leur récupération (dans n’importe quel format) auprès des éditeurs. Outre la conversion de format, l’ABES apportera une plus-value aux métadonnées en termes de structuration, de richesse et d’interconnexion de l’information avec d’autres bases."

Étude de faisabilité (septembre 2012-avril 2013)

Pour évaluer concrètement la faisabilité et le positionnement précis d'un Hub de métadonnées, une étude a été menée. Elle incluait la conception d'un prototype de traitement de corpus de métadonnées de différentes natures.

Objectifs

  • agréger les données des différents corpus
  • évaluer leur qualité et leur complétude
  • corriger les données - autant que possible - de façon automatique
  • enrichir les données : normaliser, compléter, lier, etc...
  • rendre les données accessibles, interrogeables et réutilisables par des tiers

Corpus étudiés

  • Springer revues et articles (licence nationale)
  • Springer ebooks (licence nationale)
  • Thèses avant 1985 (Sudoc - documentation imprimée)
  • Ebooks Dalloz (documentation électronique sous abonnement)
  • Revues.org (Open Access)

Au terme de cette étude, il a été possible d'y voir plus clair sur les traitements pouvant apporter une réelle plus-value aux données de départ et sur les solutions techniques rendant viables ces traitements automatiques de masse.

Agrandir le schéma

Rapport final

Il comporte :

  • une introduction reprenant les éléments de contexte et les objectifs
  • les principes méthodologiques et techniques ayant guidé la conception et le développement du prototype
  • la présentation des données de départ, des problèmes spécifiques et des traitements effectués pour chacun des corpus de métadonnées étudiés
  • les enseignements généraux que l'on peut tirer de l'analyse des cinq corpus
  • une liste motivée de recommandations opérationnelles

Lire le rapport

Lire l'annexe "Métadonnées des Ebooks Springer"

Après l'étude, l'action

Les recommandations de l'étude ont été présentées au Conseil d'Administration du 31 mai 2013. En septembre 2013, une équipe projet était constituée avec pour double mission  de transformer progressivement le prototype en outil de production et d'initier le traitement de certaines données.

Les métadonnées des documents acquis dans le cadre du programme ISTEX ont été traitées en priorité. Dans un premier temps, il s'agissait de vérifier, préciser et corriger les listes de documents livrés, puis de communiquer ces listes vers les outils s'appuyant sur elles (bases de connaissance, exemplarisation automatique dans le Sudoc, etc). Dans un second temps, il s'est agi d'enrichir ces métadonnées, notamment en les liant à divers référentiels (IdRef, VIAF, RAMEAU, Dewey, etc.). Enfin, il a été prévu de multiplier les canaux de sortie pour faciliter la récupération des métadonnées par les professionnels et leur exposition sur le web - et notamment le web de données.

Le hub, la base de connaissance nationale (BACON) et le SGB mutualisé (SGBm)

Le hub fait partie de la stratégie globale relative au signalement de la documentation électronique, tel que recommandé par le rapport du cabinet Pleiade .

Conçu comme l'une des sources de métadonnées de la base de connaissance nationale (BACON ), en gardant à l'esprit que ni le hub ni la base de connaissances nationale ne sauront couvrir tout le périmètre documentaire :  il s'agit de faire des choix, de fixer collectivement les niveaux et objectifs de qualité prioritaires. Pour le Hub comme pour BACON, la stratégie de l'Abes et de ses réseaux est d'ajouter une pierre à un édifice nécessairement international et coopératif.

Par ailleurs, le Hub et le SGBm sont les deux faces d'une même politique : le SGBm vise à fluidifier les circuits et moderniser les interfaces de travail au sein d'un système hébergé ; le hub vise à améliorer les données, en qualité et en quantité, dans l'environnement ouvert du web. Tout en migrant vers un système dans les nuages, il convient de veiller à conserver et même renforcer la maîtrise collective sur les données - et pas seulement celles du Sudoc, de theses.fr et de Calames.

Remonter