TEF n'est pas seulement un format de données. TEF entend structurer les informations portant sur les thèses indépendamment d'une syntaxe ou d'un langage particuliers. Certes, l'élaboration d'un format XML est apparu comme une priorité pour TEF, dans la mesure où XML (et les technologies de validation associées) se prête le mieux à la création d'un format d'échange de métadonnées (cf. plus loin). Pourtant, le coeur de TEF ne réside pas dans sa syntaxe XML, mais plutôt dans son modèle conceptuel.
Ce chapitre présente le modèle conceptuel[7] de TEF. En l'état, ce modèle vise à lister de manière explicite les différentes entités dont on parle implicitement quand on emploie le mot "thèse". Ainsi, malgré les apparences grammaticales, aucune de ces phrases ne parle de la même "chose" :
Cette thèse traite de la danse traditionnelle.
Cette thèse comprend 20 images.
Cette thèse a 459 pages.
La première porte sur la thèse comme oeuvre, la deuxième sur la thèse comme version, la troisième sur la thèse comme édition.
En s'appuyant sur le modèle FRBR**, le modèle de TEF décrit les différentes entités en jeu, leurs propriétés et leurs relations.
Les quatre entités principales du modèle TEF sont :
THESE
Dans TEF, une thèse est une oeuvre au sens des FRBR (FRBR Report 3.2.1).
En tant que thèse, cette oeuvre a été évaluée par un jury et sanctionnée par un doctorat. En ce sens, dans TEF, la thèse n'a qu'une version de référence, à savoir celle qui a été acceptée par le jury, éventuellement après corrections.
Par extension, une variante abrégée de ce texte officiel peut être considérée comme une autre version de la thèse.
Propriétés d'une thèse : titre, titre traduit, sujet, type de ressource, langue, auteur, numéro national, diplôme, directeur de thèse, autorisation du chef d'établissement, autorisation de l'auteur...
VERSION
Dans TEF, une version est une expression au sens des FRBR (FRBR Report 3.2.2).
Une version de la thèse correspond soit au texte validé par le jury, soit à une variante abrégée de ce texte. Dans le premier cas, la version sera dite "complète", dans le second "incomplète". TEF considère qu'une version incomplète est bien une version de la thèse, même si elle n'équivaut pas à la version complète. Il n'existe qu'une version complète. Il peut exister plusieurs versions incomplètes, puisqu'il y a différentes manières d'abréger un texte. Le texte contenu par le brouillon de la thèse ou par une édition commerciale remaniée n'est pas considéré ici comme une version de la thèse.
Une même version peut exister sous différentes éditions.
Propriétés d'une version : contenu (ressources externes présentes et manquantes), identifiant, état juridique.
EDITION
Dans TEF, une édition est une manifestation au sens des FRBR (FRBR Report 3.2.3).
Pour une version donnée de la thèse, il peut exister, par exemple, une édition XML et une édition HTML. Il peut également exister deux éditions XML différentes ou deux éditions PDF différentes.
TEF ne prend en compte que les éditions électroniques d'une thèse, même si une édition électronique et une édition imprimée d'une même thèse ont en commun la plupart de leurs métadonnées.
Une édition peut correspondre à un seul fichier. C'est en général le cas pour les éditions PDF. Une édition peut aussi correspondre à plusieurs fichiers. C'est en général le cas pour les éditions XML ou HTML.
Propriétés d'une édition : format, taille, identifiant, éditeur, date d'édition.
FICHIER
Dans TEF, un fichier est une partie de manifestation au sens des FRBR (FRBR Report 5.3.4.1). En l'occurrence, il s'agit d'une partie de manifestation électronique. Cette partie étant un fichier informatique, elle est matériellement indépendante du tout. Un fichier d'image JPEG, par exemple, peut être lu indépendamment des autres fichiers qui constituent la manifestation complète.
Propriétés d'un fichier : encodage, format, structure, taille...
RESSOURCE EXTERNE
Dans TEF, une ressource externe est une ressource qui préexiste à la thèse, que l'auteur a intégrée en tout ou partie dans son propre travail.
Dans le cas des thèses sur travaux, il s'agit en général d'un article publié auparavant par l'auteur et par d'éventuels coauteurs ("TRAVAUX"). Dans les autres cas, il peut s'agir de toutes sortes de ressources (images, textes, schémas, sons...) que l'auteur emprunte pour enrichir ou illustrer son propos ("RESSOURCE_TIERS").
Ces ressources externes sont incorporées à la thèse dans leur intégralité ou sous forme d'extrait. Dans le cas d'un extrait, il suffit d'en référencer la source, sans référencer ou décrire l'extrait pour lui-même.
Une ressource externe (ou son extrait) peut correspondre à un fichier séparé. C'est le cas d'une image pour l'édition XML d'une thèse. Dans d'autres cas, la ressource externe est incluse dans le même fichier que le reste de la thèse. C'est le cas d'une image dans une édition PDF ou d'une longue citation textuelle dans un fichier XML.
En termes FRBR, ces ressources externes peuvent être interprétées comme des oeuvres, des expressions ou des manifestations, selon les cas.
Propriétés d'une ressource externe : titre, auteur.... (et autres propriétés correspondant à des métadonnées descriptives), autorisation des ayants droit.
Autour de ces entités gravitent différents agents. Il s'agit de personnes physiques ou de personnes morales.
Auteur
Propriétés de l'auteur : nom, prénom, nom d'usage, date de naissance, nationalité, autorité.
Etablissement de soutenance
Propriétés de l'établissement de soutenance : nom, autorité.
Directeur de thèse
Propriétés du directeur de thèse : nom, prénom, autorité.
Président du jury
Propriétés du président du jury : nom, prénom, autorité.
Membre du jury
Propriétés du membre du jury : nom, prénom, autorité.
Rapporteur
Propriétés du rapporteur : nom, prénom, autorité.
Partenaire de recherche (Etablissement, Laboratoire, Equipe de recherche, Entreprise, Fondation...)
Propriétés du partenaire de recherche : nom, autorité.
Editeur
Propriétés de l'éditeur : nom, lieu d'édition, autorité.
[7] Ce modèle conceptuel sera complété, affiné et formalisé à l'occasion de la conception du schéma RDF-S/OWL pour TEF. En l'état, il suffit à expliciter les entités principales de TEF et à justifier la forme qu'il prend en XML.