FAQ

Questions générales sur TEF

Qu'est-ce que TEF ?

La recommandation TEF (Thèses Electroniques Françaises) définit un jeu de métadonnées pour les thèses électroniques soutenues en France. Son objectif est d'organiser de manière cohérente des métadonnées de thèse riches et normalisées, pour faciliter leur échange et leur diffusion, au niveau national ou international. Ces métadonnées sont hétérogènes. Elles recouvrent des métadonnées descriptives (bibliographiques) et des métadonnées de gestion (administration, droits, conservation).

Cette recommandation propose à la fois une modélisation de ces métadonnées et un format XML. Ce format est un format d'échange et un outil de validation. Il consiste en un schéma XML qui permet de spécifier la structure et le contenu d'une notice TEF. S'y ajoutent des règles de validation Schematron qui expriment avec précision les contraintes propres à TEF, qui elles-mêmes reflètent les textes réglementaires nationaux qui organisent le circuit des thèses électroniques . Ce format XML s'appuie sur le schéma METS qui permet d'articuler les différents types de métadonnées.

En s'appuyant sur METS et Schematron, TEF n'est pas tant un nouveau format qu'une structure modulaire et souple qui pourra s'adapter aux évolutions du cadre réglementaire ou à un contexte d'utilisation particulier.

A qui s'adresse cette recommandation ?

Cette recommandation n'est pas un manuel de catalogage des thèses.

D'une part, TEF ne concerne pas que la description bibliographique des thèses. Elle intéresse donc d'autres métiers que celui des bibliothèques, en particulier les écoles doctorales, les services de scolarité ou encore les centres de ressources informatiques.

D'autre part, TEF n'est pas tant un guide d'utilisation des métadonnées au quotidien qu'un document normatif technique destiné aux concepteurs et gestionnaires de systèmes d'information (dédiés ou non aux thèses).

Quel est le cadre réglementaire en vigueur sur les thèses électroniques ?

TEF obéit à des contraintes qui proviennent des textes réglementaires encadrant les thèses électroniques. Le texte de référence est à ce jour la circulaire de mars 2005, qui précède la publication d'un nouvel arrêté sur les thèses.

A quoi sert TEF ?

La vocation première de TEF est d'offrir un cadre rigoureux pour faciliter les échanges de métadonnées de thèse entre diverses applications. TEF est avant tout un format d'échange. Dans le circuit national, TEF sera utilisé pour échanger des métadonnées entre les systèmes d'information des établissements de soutenance et l'application nationale STAR, gérée par l'ABES.

Sur les différents usages possibles de TEF, cf. la recommandation elle-même.

Quel est le statut de TEF ?

TEF est une recommandation produite par un groupe d'experts ad hoc CG46/CN357/GE5 qui, dans le cadre de l'AFNOR, rassemble des documentalistes, des bibliothécaires et des informaticiens issus de divers établissements de l'Enseignement Supérieur et de la Recherche.

Le groupe est en train d'examiner les réponses reçues pendant la phase d'appel à commentaires. Le texte amendé de la recommandation sera bientôt disponible.

TEF s'applique-t-elle à toutes les thèses ?

Sont concernées par cette recommandation toutes les thèses validées par un établissement d'enseignement supérieur et de recherche français habilités à délivrer le diplôme de docteur. Ce périmètre englobe les thèses d'Etat, les thèses de troisième cycle et les thèses de doctorat (dites "nouveau régime"). TEF s'applique à toutes les thèses appartenant à ces trois catégories et à elles seules.

Pour en savoir plus

Comme les métadonnées TEF sont en XML, seules les thèses en XML sont-elles concernées ?

NON, toutes les thèses numériques sont concernées, indépendamment de leur format. Les métadonnées TEF peuvent s'appliquer à une édition PDF ou HTML, aussi bien qu'à une édition XML.

Certes, dans le cas d'une thèse en XML, certaines métadonnées peuvent en principe être extraites de la thèse elle-même, notamment de la page de titre structurée (titre, auteur, résumé, date...). Néanmoins, d'une manière générale, les métadonnées sont traitées indépendamment du document lui-même.

TEF s'appuie sur un noyau de métadonnées Dublin Core ? Pourquoi aller au-delà ?

Les métadonnées Dublin Core servent essentiellement à identifier et décrire les documents numériques. A ce titre, elles ne peuvent suffire à exprimer toutes les métadonnées de gestion qu'exige le traitement des thèses électroniques. En particulier, il leur manque des métadonnées de droits fines, des métadonnées administratives relatives au diplôme et des métadonnées de conservation. Enfin, il est difficile voire impossible d'exprimer en Dublin Core et son encodage XML certaines informations bibliographiques essentielles, comme la référence à des notices d'autorité.

Questions sur la modélisation des métadonnées dans TEF

Pourquoi un modèle dans TEF ?

La recommandation comprend une modélisation des thèses qui permet de structurer les métadonnées des thèses indépendamment d'une syntaxe ou d'un format particuliers, ce qui a au moins trois vertus :

  • identifier de manière explicite les entités dont "parlent" les métadonnées ;

  • proposer différentes syntaxes. Aujourd'hui, la recommandation propose un format XML. Un schéma RDF est en préparation.

  • mieux organiser la structure des données. Dans le cas du format XML, la modélisation a aidé à définir des blocs de métadonnées de manière modulaire et extensible. Quant au format RDF, il dérive presque immédiatement de la modélisation.

Pourquoi expliciter la notion de version ?

La modélisation TEF distingue entre la thèse comme oeuvre, la thèse comme version et la thèse comme édition. En principe, la thèse n'existe qu'à travers la version qui a été validée par le jury (version complète). Dans les faits, pour des raisons administratives, juridiques voire techniques, la thèse peut être publiée sous une forme tronquée. TEF parle alors de "version incomplète".

Il existe aussi d'autres versions de la thèse, comme les différents états de la thèse avant la soutenance ou après la soutenance, sous la forme d'une édition commerciale par exemple. Ces cas ne correspondent pas à une "version incomplète" car il ne s'agit pas de versions partielles du texte officiel, mais de textes voisins.

C'est donc avant tout pour des raisons administratives que la notion de version est si importante dans le cas des thèses : une thèse est un document administratif, délivrant un diplôme, en regard d'un texte précis validé par un jury - c'est la version complète de la thèse.

Si la version complète ne peut être publiée, un établissement, avec l'accord de l'auteur, peut choisir de publier une version incomplète. Il importe alors d'identifier cette version, d'en décrire le contenu (que lui manque-t-il ?) et d'en connaître le statut (est-elle diffusable ?).

Pourquoi donner tant d'importance et de détails aux métadonnées de droits ?

Une thèse est un document à plusieurs facettes, au centre d'intérêts juridiques et administratifs divers et parfois contradictoires. Sa diffusion suppose l'autorisation d'un jury (validation scientifique), celle de l'établissement (validation administrative), celle de l'auteur (cession de droits d'auteur) et enfin, éventuellement, l'autorisation des tiers qui détiennent des droits sur des oeuvres tierces que la thèse intègre, en tout ou partie. C'est seulement en croisant ces différentes sources légales qu'on peut savoir si telle ou telle version de la thèse est diffusable.

C'est pourquoi TEF distingue entre, d'une part, ces différentes autorisations, qu'il est important de documenter, et d'autre part, le statut de chaque version (compte tenu des autorisations et de son contenu, est-elle diffusable ?).

En structurant ces métadonnées de droits, TEF permet d'automatiser en partie la gestion des thèses, notamment l'extinction de la période de confidentialité.

Les récents accords entre le Ministère de Education Nationale et les sociétés de gestion collective portant sur l'utilisation des oeuvres protégées dans les contextes d'enseignement et de recherche obligent à aller dans ce sens. TEF prévoit les mécanismes pour exprimer qu'une oeuvre protégée est utilisée dans une thèse, pour la citer, pour exprimer son statut juridique et les conséquences sur le statut juridique de la thèse en tant que telle. Voir, par exemple, l'accord sur l'utilisation des livres et de la musique imprimée (27 février 2006).

Questions sur le format XML de TEF

Pourquoi XML ?

XML est, avec HTML, la lingua franca du Web. Mais, alors qu'HTML structure l'information pour la rendre visible à l'écran, XML permet une exploitation de l'information par des programmes, et donc sa réutilisation par différents acteurs, dans différents contextes. De plus, XML n'est pas seulement une syntaxe, mais aussi un famille de technologies qui permettent de valider, transformer ou interroger l'information. Les différents types de schémas XML, en particulier, permettent de contrôler finement les données, de vérifier qu'elles sont bien conformes à ce qu'on souhaite. C'est pourquoi XML est le bon instrument pour écrire un format d'échange de métadonnées.

Pourquoi METS ?

METS (Metadata Encoding and Transmission Standard) est un standard maintenu par la Bibliothèque du Congrès. C'est un vocabulaire XML qui permet d'organiser des métadonnées variées se rapportant à un objet numérique complexe (revues numériques, sites Web...). Dans la perspective de TEF, METS présente quatre caractéristiques particulièrement intéressantes :

  • la carte de structure (mets:structMap) qui permet d'inventorier les différentes composantes logiques ou physiques d'un objet numérique complexe

  • la section des fichiers (mets:fileSec) qui permet d'inventorier les fichiers et de consigner leur mode d'organisation physique

  • le fait que METS ne prescrive aucun langage de métadonnées particulier. C'est une enveloppe vide dans laquelle tout type de métadonnées peut être utilisé.

  • l'organisation modulaire des métadonnées : à chaque type de métadonnées correspond un bloc XML particulier

C'est pourquoi le format XML de TEF repose sur METS.

Pourquoi la technologie W3C XML Schema ? Pourquoi pas Relax NG ?

Etant donné que TEF s'appuie sur des ensembles de métadonnées préexistant (METS, MetsRights, Dublin Core, MADS) et que ces derniers ne proposent que des schémas de type W3C XML Schema, TEF dans son ensemble a dû utiliser ce type de schémas. Pour utiliser Relax, il aurait fallu réécrire en Relax tous les schémas mentionnés. Par ailleurs, TEF concentre le maximum de ses contraintes dans les règles Schematron, et non dans ses schémas.

Pourquoi Schematron ?

TEF a fait le choix d'exprimer le maximum de ses contraintes sous la forme de règles Schematron. Au prix d'une certaine verbosité, ce parti-pris est le garant de la plus grande souplesse possible dans l'appropriation de TEF, pour les raisons qui suivent :

  • Chaque contrainte est exprimée de manière autonome, ce qui permet de la renforcer, de la relâcher, de la supprimer ou de la compléter avec facilité et précision.

  • La notion de phase permet d'appliquer des contraintes différentes selon l'étape d'un processus (workflow, imports/exports).

  • Schematron est techniquement abordable et pérenne car il repose sur des technologies fondamentales de la famille XML (XPATH et XSLT). En conséquence, Schematron n'exige pas de compétence ni d'outil spécifiques.

  • Les messages qui indiquent l'échec de la validation ne sont pas générés automatiquement. Ils sont écrits en langage naturel par l'auteur des règles, ce qui peut aider à la compréhension des erreurs et à leur correction.

Pourquoi mon validateur XML n'accepte-t-il pas le schéma XML TEF ?

Certains outils de validation XML (comme XMLSPY) refusent d'importer deux fois les mêmes éléments. Or, comme le schéma TEF importe le schéma METS et le schéma MADS qui importent tous deux un schéma XLINK déclarant les mêmes éléments, TEF importe deux fois les éléments XLINK. XMLSPY considère cela comme une erreur, sans doute à tort. C'est un problème bien connu (cf. ces discussions sur la liste METS).

Que faire ? Si on ne veut pas abandonner XMLSPY, on peut faire une copie locale du schéma METS et faire en sorte qu'il importe le même schéma XLINK que MADS. On peut aussi utiliser un autre outil de validation, qui n'ait pas ce comportement. Si on utilise Oxygen et que la même erreur se produit, il suffit de changer une option (dans Options/Préférences/Analyseur XML, décocher http://apache.org/xml/features/honour-all-schemaLocations).

Questions sur l'utilisation de TEF

Mon système a son propre format interne de métadonnées ? Comment le faire évoluer vers TEF ?

TEF n'est qu'un format d'échnage. Un système local n'a pas à supporter TEF en interne si son objectif est d'échanger des métadonnées TEF avec l'extérieur. Il doit seulement exporter du TEF. Si le format interne est en XML, écrire un script de conversion XSLT est souvent la bonne méthode.

Mon système ne gère que le Dublin Core. Comment faire pour gérer toute la richesse de TEF ?

On n'a pas forcément besoin de toute la richesse de TEF. Ainsi, bien des établissements ne gère la thèse qu'en PDF. Autrement dit, pour une thèse, ils ne gèrent qu'une version (complète), publiée sous une seule édition (en PDF), ne correspondant qu'à un fichier. Dans ce cas, le format interne peut demeurer une structure Dublin Core plate. Ce n'est qu'au cours de la conversion vers TEF que seront générées automatiquement certaines spécificités de la structure de TEF.

Cette question de structure ne résout pas la question de fond : quels sont les éléments d'information TEF qu'une structure Dublin Core qualifié ne peut exprimer ? Un comparatif précis est en préparation ainsi qu'un script XSLT de conversion qui pourra servir d'exemple.

TEF est-il assez souple pour s'adapter à des besoins spécifiques ?

Le choix de METS comme colonne vertébrale de TEF et de Schematron comme outil de validation principal donne à TEF une certaine souplesse. Sur Schematron, voir plus haut.

TEF n'utilise pas toutes les fonctionnalités de METS. Pour autant, TEF n'interdit pas les fonctionnalités de METS qu'il n'exploite pas. Par ailleurs, à côté des blocs de métadonnées explicitement prévus dans la recommandation, il est toujours possible d'en ajouter de nouveaux, ce qui rend TEF très extensible.

Pour en savoir plus