Outils pour utilisateurs

Outils du site


public:spec_conservation

Conservation d'un corpus, d'un texte, d'une édition de texte ou de leurs métadonnées identifiés à long terme

Objectif

Dans un premier temps cette spécification concerne l'accès en ligne à des ressources par le biais d'un portail TXM.

Un corpus (sources ou binaire), un texte (sources), une édition de texte ou leurs métadonnées (auteur, titre, date…) sont identifiés de façon unique par le biais d'un portail TXM.

Cette identification peut reposer sur différentes stratégies:

  • un DOI
  • une URL
  • etc.

L'identifiant donne accès à une ressource.

On peut distinguer différents cas d'usage :

A) Sources

On souhaite accéder de façon pérenne aux sources (au format Word, PDF, TXT, XML, Transcriber, TMX, XML-TEI ou autre) d'une édition critique, d'une transcription, etc. se trouvant dans un corpus hébergé dans un portail TXM.

L'idée est de pouvoir reprendre un résultat scientifique à la base. C'est une demande récurrente de la communauté TEI de pouvoir accéder aux sources en ligne de l'objet dont on parle - si c'est possible en termes de licence. Le projet BFM a par exemple décidé de donner accès bientôt au téléchargement des sources XML-TEI de la majorité de ses textes aux utilisateurs identifiés dans le portail BFM.

La question du versionnage de ces sources n'a pas encore été abordée (car les éditions sont régulièrement corrigées sur tel ou tel aspect et donc mises à jour dans la BFM). Nous suivrons probablement le modèle de versionage de HAL-SHS.

B) Sources XML-TXM

On souhaite accéder de façon pérenne aux sources XML-TXM d'une édition critique etc.

Cette version intermédiaire des sources est la version standard manipulée par TXM qui encode tout le modèle de données traité par TXM (dont la tokenization, l'étiquetage à la volée des mots ou pas, etc.) en TEI. Donc elle permet de reproduire de façon standard au plus près des calculs donnés, même à partir de sources qui ne sont pas TEI à l'origine. C'est une variante du cas A).

C) Médias primaires

On souhaite accéder de façon pérenne aux médias primaires d'une édition critique, d'une transcription, etc.

Dans le cas de la BFM par exemple, l'édition de la Quête du Graal héberge de façon pérenne les images des facsimilés de folios du manuscrit de base (provenant de la bibliothèque municipale de Lyon). Comme on peut le voir dans l'édition synoptique de la Quête en accédant à l'URL suivante (qui met en évidence deux mots particuliers en passant) : http://portal.textometrie.org/demo/?command=edition&path=/GRAAL&textid=qgraal_cm&editions=ms-colonne,diplomatique,courante&wordids=w_106_030047,w_106_030049
En fait dans ce cas il serait probablement plus intéressant de faire héberger les images à la BM de Lyon et d'y accéder à la demande.

Des questions similaires se posent pour les vidéos ou les enregistrements sonores à l'origine de transcriptions, pour les jouer en ligne ou pour les télécharger comme base de référence pour vérifier une transcription par exemple.

D) Édition

On souhaite accéder de façon pérenne à l'édition d'un texte, d'une transcription, etc.

L'édition est la forme mise en page et stylée d'une édition critique qui est la forme qu'il faut lire quand on souhaite lire l'édition critique ou la transcription. Cette édition peut être imprimée pour le confort de la lecture ou être lue dans une liseuse (au format EPub par exemple).

Elle a potentiellement le statut d'un livre numérique publié par un éditeur. Dans ce cas on est proche des problématiques du dépôt légal dans le domaine français.

Un portail TXM donne accès en standard à une version HTML d'une telle édition pour chaque texte d'un corpus. Par exemple, l'URL : http://portal.textometrie.org/demo/?command=edition&path=/ESLO&textid=ESLO1_DIA_115_C
donne accès à la première page de la transcription ESLO1_DIA_115_C (qui n'a pas de page de garde présentant les métadonnées éditoriales comme pour les textes de la BFM).

Dans la liste des textes de la BFM en ligne, dont l'URL est indiquée ci-dessous, les icones 'PDF' donnent un accès supplémentaire au téléchargement d'une version PDF de certaines éditions (libres de droits).

E) Métadonnées

On souhaite accéder de façon pérenne aux métadonnées (seulement) des textes composant un corpus.

Par exemple dans le cas d'un corpus à l'origine d'une publication on souhaite pouvoir vérifier son contenu précisément ou pouvoir le reconstruire - directement ou indirectement - afin de reproduire et vérifier les résultats de la publication.

Pour la BFM l'URL suivante donne accès à une liste de référence des textes composant la base en 2013 : http://portal.textometrie.org/bfm/?command=texts&path=/BFM2013
(ce sera probablement 'http://portal.textometrie.org/bfm/?command=texts&path=/BFM2014' à partir du 10 août 2014)

Dans le cas de la BFM, la liste des textes donne également accès aux notices bibliographiques de référence de chaque texte (en cliquant sur l'icone de notice dans la liste des textes, cf URL précédente).

Le projet BFM cherche à pérenniser l'accès à ces fiches de description tout en proposant différentes listes de textes publiques au fur et à mesure des mises à jour annuelles de la BFM en tant que corpus.

Pour l'instant nous nous sommes orientés vers la création d'une URL de référence pérenne pour chaque texte.
Par exemple : http://catalog.bfm-corpus.org/Lapidal est l'URL de référence pour le texte suivant :
Philippe de Thaon (probable), Lapidaire alphabétique, édité par P. Studer et J. Evans, Paris, Champion, 1924. Publié en ligne par la Base de français médiéval, http://catalog.bfm-corpus.org/Lapidal. Dernière révision le 2009-10-21.

Ces adresses pérennes alimenteront l'entrepôt OAI-PMH activé dans un portail TXM donné qui exposera alors les SETs correspondant aux corpus qu'il héberge.

Un portail TXM hébergeant ces adresses répond également une page HTML donnant accès aux diverses versions du texte, comme on peut le voir en ouvrant par exemple l'adresse 'http://catalog.bfm-corpus.org/Lapidal' dans un navigateur.

F) Binaire

On souhaite accéder de façon pérenne à la version binaire d'un corpus.

Le logiciel TXM pour bureau permet d'exporter un corpus sous une forme appelée 'corpus binaire'. C'est-à-dire sous la forme d'un fichier d'extension '.txm' transmissible entre machines et facilement 'chargeable' dans un TXM (en fait une archive ZIP de tous les éléments composant un corpus une fois importé dans TXM - selon une stratégie d'encapsulation de données similaire à celle d'un fichier LibreOffice ODT). Un corpus binaire contient tous les éléments exploitables d'un corpus importé dans TXM (dont ses éditions HTML de texte, les indexes du moteur de recherche CQP, parfois les versions XML-TXM des sources des textes, etc.). Le corpus binaire est la forme la plus facilement diffusable d'un corpus exploitable dans TXM (par opposition aux sources d'un corpus qu'il faut importer dans TXM en suivant un processus plus long comportant de nombreux paramétrages). Le projet Textométrie diffuse plusieurs corpus binaires de démonstration ou pédagogiques sous licence Creative Commons (notamment à partir du site de diffusion du logiciel sur Sourceforge). Un portail TXM peut donner accès au téléchargement des corpus binaires de certains corpus qu'il héberge.

Méthode

Description de la méthode de travail pour atteindre l'objectif

État de la plateforme

Avancement dans l'élaboration de la solution

Solution

État de l'art

Éléments de solution

Prototypes

Version finale

Documentation

Utilisateur

Développeur

Recette

Protocole de test

Alpha

Beta

État courant

public/spec_conservation.txt · Dernière modification: 2014/09/10 21:30 par slh@ens-lyon.fr