Accueil > Projets en cours > Hub de métadonnées

Hub de métadonnées

De septembre 2012 à avril 2013, l'ABES a mené une étude visant à préciser les priorités et les modalités d'un hub de métadonnées, annoncé dans le projet d'établissement 2012-2015 . Cette étude a pris la forme d'un prototype, d'un rapport ainsi que de son annexe consacrée aux Ebooks Springer . L'étude s'étant avérée concluante, le développement du hub de métadonnées a débuté en septembre 2013.

Avec le hub, il ne s'agit pas de concevoir une nouvelle application, à côté du Sudoc, du SGBm ou de la future base de connaissance nationale pour la documentation électronique (BACON). Il s'agit avant tout pour l'ABES de se doter de nouveaux outils et de nouvelles méthodes pour drainer davantage de données de qualité vers ces différentes applications ainsi que vers le web de données.

Projet d'établissement 2012-2015 : introduction de la notion et de l'ambition d'un hub de métadonnées

"Dans le cadre du hub de métadonnées, l’ABES offrira aux établissements un nouveau service de redistribution (dans n’importe quel format) des métadonnées enrichies après leur récupération (dans n’importe quel format) auprès des éditeurs. Outre la conversion de format, l’ABES apportera une plus-value aux métadonnées en termes de structuration, de richesse et d’interconnexion de l’information avec d’autres bases."

Le hub de métadonnées est une partie de la réponse aux enjeux suivants :

  • le signalement de la documentation électronique ne peut suivre le même modèle que le catalogage partagé traditionnel : les masses et les flux de documents sont trop importants ; les éditeurs sont aujourd'hui capables de fournir des métadonnées, qu'il s'agit de réutiliser.
  • les métadonnées fournies par les éditeurs sont souvent inexactes, pauvres et mal structurées. Pourtant, la qualité des métadonnées est un facteur décisif pour la recherche et l'identification des documents mais également pour garantir l'accès à ces documents, notamment via les résolveurs de lien
  • les catalogues de bibliothèque ne sont plus les outils privilégiés des lecteurs. Les métadonnées qui passent par l'ABES et ses réseaux doivent être redistribuées le plus largement possible, y compris en direction des outils de découverte ou des résolveurs de liens commerciaux. Sur ce marché, où les clients sont les bibliothèques, la concurrence doit se faire sur les services et les fonctionnalités, et pas sur les données. Ces données doivent être libres et réutilisables, intégrées au web de données. Avec le hub, l'ABES réaffirme sa volonté de contribuer à cet effort international de libération des métadonnées bibliographiques et associées (bases de connaissance pour la gestion de la documentation électronique).

L'étude (septembre 2012-avril 2013)

Avant de se lancer dans un projet aussi ambitieux que le hub de métadonnées, il convenait d'évaluer concrètement sa faisabilité et son positionnement précis. Cette première approche s'est concrétisée par une étude ayant pour objectif de construire un prototype de traitement de corpus de métadonnées de différentes natures.

Les objectifs énoncés

  • agréger les données des différents corpus
  • évaluer leur qualité et leur complétude
  • les corriger - autant que possible - de façon automatique
  • les enrichir (normaliser, compléter, lier, etc.)
  • les rendre accessibles, interrogeables et réutilisables par des tiers

Les corpus étudiés

  • Springer revues et articles (licence nationale)
  • Springer ebooks (licence nationale)
  • Thèses avant 1985 (Sudoc - documentation imprimée)
  • Ebooks Dalloz (documentation électronique sous abonnement)
  • Revues.org (Open Access)

Au terme de cette étude, il est  possible d'y voir clair:

  • sur les traitements pouvant apporter une réelle plus-value aux données de départ
  •  sur les solutions techniques qui rendent viables ces traitements automatiques de masse

Agrandir le schéma

Le rapport final

Le rapport final est structuré ainsi :

  • une introduction reprenant les éléments de contexte et les objectifs
  • une partie présentant les principes méthodologiques et techniques qui ont guidé la conception et le développement du prototype, selon l’esprit et la lettre du web sémantique
  • une partie centrale présentant les données de départ, les problèmes spécifiques qu'il pose et les traitements effectués ou envisagés pour chacun des cinq corpus de métadonnées étudiés
  • une partie présentant les treize enseignements généraux que l'on peut tirer de l'analyse des cinq corpus
  • une partie finale qui liste et motive douze recommandations opérationnelles

Lire le rapport

Lire l'annexe "Métadonnées des Ebooks Springer"

Après l'étude, l'action

Les recommandations de l'étude ont été présentées au Conseil d'Administration du 31 mai 2013.

En septembre 2013, une équipe projet a été constituée. Sa mission est double : transformer progressivement le prototype en outil de production et commencer le traitement de certaines données.

Il a été décidé de traiter en priorité les métadonnées des documents acquis dans le cadre du programme ISTEX . Dans un premier temps, il s'agit surtout de vérifier, préciser et corriger les listes de documents négociés puis livrés. Il s'agit ensuite de communiquer ces listes aux outils qui s'appuient sur elles : bases de connaissance, exemplarisation automatique dans le Sudoc, etc.

Plus tard, il s'agira d'enrichir ces métadonnées, notamment en les liant à divers référentiels (IdRef, VIAF, RAMEAU, Dewey, etc.). Enfin, il est prévu de multiplier les canaux de sortie pour faciliter la récupération des métadonnées par les professionnels et leur exposition sur le web - et notamment le web de données.

Le travail du hub sur les données du projet ISTEX (2012-2016) aura certainement des retombées concrètes sur le traitement des métadonnées de la documentation électronique courante. En effet, pourquoi ce qui vaut pour les ebooks qu'un éditeur vend sous forme d'archives ne vaudrait-il pas pour les ebooks plus récents qu'il propose sous la forme d'un abonnement ?

Le hub, la base de connaissance nationale (BACON) et le SGB mutualisé (SGBm)

Le hub fait partie de la stratégie globale relative au signalement de la documentation électronique recommandée par le rapport commandé par l'ABES au cabinet Pleiade .

Conçu comme l'une des sources de métadonnées de la base de connaissance nationale (BACON ), en gardant à l'esprit que ni le hub ni la base de connaissances nationale ne sauront couvrir tout le périmètre documentaire :  il s'agit de faire des choix, de fixer collectivement les niveaux et objectifs de qualité prioritaires. Pour le Hub comme pour BACON, la stratégie de l'ABES et de ses réseaux est d'ajouter une pierre à un édifice nécessairement international et coopératif.

Par ailleurs, le hub et le SGBm sont les deux faces d'une même politique : le SGBm vise à fluidifier les circuits et moderniser les interfaces de travail au sein d'un système hébergé ; le hub vise à améliorer les données, en qualité et en quantité, dans l'environnement ouvert du web. Tout en migrant vers un système dans les nuages, il convient de veiller à conserver et même renforcer la maîtrise collective sur les données - et pas seulement celles du Sudoc, de theses.fr et de Calames.

Remonter