Outils pour utilisateurs

Outils du site


public:spec_conservation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
public:spec_conservation [2014/09/10 21:23]
slh@ens-lyon.fr
public:spec_conservation [2014/09/10 21:30] (Version actuelle)
slh@ens-lyon.fr
Ligne 16: Ligne 16:
 On peut distinguer différents cas d'​usage : On peut distinguer différents cas d'​usage :
  
-**A) on souhaite accéder de façon pérenne aux sources, XML-TEI ou autred'une édition critique, d'une transcription,​ etc. se trouvant dans un corpus hébergé dans un portail TXM**+==== A) Sources ==== 
 + 
 +On souhaite accéder de façon pérenne aux sources ​(au format Word, PDF, TXT, XML, Transcriber,​ TMX, XML-TEI ou autred'une édition critique, d'une transcription,​ etc. se trouvant dans un corpus hébergé dans un portail TXM.
  
 L'​idée est de pouvoir reprendre un résultat scientifique à la base. C'est une demande récurrente de la communauté TEI de pouvoir accéder aux sources en ligne de l'​objet dont on parle - si c'est possible en termes de licence. Le projet BFM a par exemple décidé de donner accès bientôt au téléchargement des sources XML-TEI de la majorité de ses textes aux utilisateurs identifiés dans le portail BFM. L'​idée est de pouvoir reprendre un résultat scientifique à la base. C'est une demande récurrente de la communauté TEI de pouvoir accéder aux sources en ligne de l'​objet dont on parle - si c'est possible en termes de licence. Le projet BFM a par exemple décidé de donner accès bientôt au téléchargement des sources XML-TEI de la majorité de ses textes aux utilisateurs identifiés dans le portail BFM.
Ligne 22: Ligne 24:
 La question du versionnage de ces sources n'a pas encore été abordée (car les éditions sont régulièrement corrigées sur tel ou tel aspect et donc mises à jour dans la BFM). Nous suivrons probablement le modèle de versionage de HAL-SHS. La question du versionnage de ces sources n'a pas encore été abordée (car les éditions sont régulièrement corrigées sur tel ou tel aspect et donc mises à jour dans la BFM). Nous suivrons probablement le modèle de versionage de HAL-SHS.
  
-**B) on souhaite accéder de façon pérenne aux sources XML-TXM d'une édition critique etc**+==== B) Sources XML-TXM ==== 
 + 
 +On souhaite accéder de façon pérenne aux sources XML-TXM d'une édition critique etc.
  
 Cette version intermédiaire des sources est la version standard manipulée par TXM qui encode tout le modèle de données traité par TXM (dont la tokenization,​ l'​étiquetage à la volée des mots ou pas, etc.) en TEI. Donc elle permet de reproduire de façon standard au plus près des calculs donnés, même à partir de sources qui ne sont pas TEI à l'​origine. C'est une variante du cas A). Cette version intermédiaire des sources est la version standard manipulée par TXM qui encode tout le modèle de données traité par TXM (dont la tokenization,​ l'​étiquetage à la volée des mots ou pas, etc.) en TEI. Donc elle permet de reproduire de façon standard au plus près des calculs donnés, même à partir de sources qui ne sont pas TEI à l'​origine. C'est une variante du cas A).
  
-**C) on souhaite accéder de façon pérenne aux médias primaires d'une édition critique, d'une transcription,​ etc**+==== C) Médias primaires ==== 
 + 
 +On souhaite accéder de façon pérenne aux médias primaires d'une édition critique, d'une transcription,​ etc.
  
 Dans le cas de la BFM par exemple, l'​édition de la Quête du Graal héberge de façon pérenne les images des facsimilés de folios du manuscrit de base (provenant de la bibliothèque municipale de Lyon). Comme on peut le voir dans l'​édition synoptique de la Quête en accédant à l'URL suivante (qui met en évidence deux mots particuliers en passant) : Dans le cas de la BFM par exemple, l'​édition de la Quête du Graal héberge de façon pérenne les images des facsimilés de folios du manuscrit de base (provenant de la bibliothèque municipale de Lyon). Comme on peut le voir dans l'​édition synoptique de la Quête en accédant à l'URL suivante (qui met en évidence deux mots particuliers en passant) :
Ligne 34: Ligne 40:
 Des questions similaires se posent pour les vidéos ou les enregistrements sonores à l'​origine de transcriptions,​ pour les jouer en ligne ou pour les télécharger comme base de référence pour vérifier une transcription par exemple. Des questions similaires se posent pour les vidéos ou les enregistrements sonores à l'​origine de transcriptions,​ pour les jouer en ligne ou pour les télécharger comme base de référence pour vérifier une transcription par exemple.
  
-**D) on souhaite accéder de façon pérenne à l'​édition d'un texte, d'une transcription,​ etc**+==== D) Édition ==== 
 + 
 +On souhaite accéder de façon pérenne à l'​édition d'un texte, d'une transcription,​ etc.
  
 L'​édition est la forme mise en page et stylée d'une édition critique qui est la forme qu'il faut lire quand on souhaite lire l'​édition critique ou la transcription. Cette édition peut être imprimée pour le confort de la lecture ou être lue dans une liseuse (au format EPub par exemple). L'​édition est la forme mise en page et stylée d'une édition critique qui est la forme qu'il faut lire quand on souhaite lire l'​édition critique ou la transcription. Cette édition peut être imprimée pour le confort de la lecture ou être lue dans une liseuse (au format EPub par exemple).
Ligne 46: Ligne 54:
 Dans la liste des textes de la BFM en ligne, dont l'URL est indiquée ci-dessous, les icones '​PDF'​ donnent un accès supplémentaire au téléchargement d'une version PDF de certaines éditions (libres de droits). Dans la liste des textes de la BFM en ligne, dont l'URL est indiquée ci-dessous, les icones '​PDF'​ donnent un accès supplémentaire au téléchargement d'une version PDF de certaines éditions (libres de droits).
  
-**E) on souhaite accéder de façon pérenne aux métadonnées (seulement) des textes composant un corpus**+==== E) Métadonnées ==== 
 + 
 +On souhaite accéder de façon pérenne aux métadonnées (seulement) des textes composant un corpus.
  
 Par exemple dans le cas d'un corpus à l'​origine d'une publication on souhaite pouvoir vérifier son contenu précisément ou pouvoir le reconstruire - directement ou indirectement - afin de reproduire et vérifier les résultats de la publication. Par exemple dans le cas d'un corpus à l'​origine d'une publication on souhaite pouvoir vérifier son contenu précisément ou pouvoir le reconstruire - directement ou indirectement - afin de reproduire et vérifier les résultats de la publication.
Ligne 65: Ligne 75:
 Un portail TXM hébergeant ces adresses répond également une page HTML donnant accès aux diverses versions du texte, comme on peut le voir en ouvrant par exemple l'​adresse '​%%http://​catalog.bfm-corpus.org/​Lapidal%%'​ dans un navigateur. Un portail TXM hébergeant ces adresses répond également une page HTML donnant accès aux diverses versions du texte, comme on peut le voir en ouvrant par exemple l'​adresse '​%%http://​catalog.bfm-corpus.org/​Lapidal%%'​ dans un navigateur.
  
-**F) on souhaite accéder de façon pérenne à la version binaire d'un corpus**+==== F) Binaire ==== 
 + 
 +On souhaite accéder de façon pérenne à la version binaire d'un corpus.
  
 Le logiciel TXM pour bureau permet d'​exporter un corpus sous une forme appelée '​corpus binaire'​. C'​est-à-dire sous la forme d'un fichier d'​extension '​.txm'​ transmissible entre machines et facilement '​chargeable'​ dans un TXM (en fait une archive ZIP de tous les éléments composant un corpus une fois importé dans TXM - selon une stratégie d'​encapsulation de données similaire à celle d'un fichier LibreOffice ODT). Un corpus binaire contient tous les éléments exploitables d'un corpus importé dans TXM (dont ses éditions HTML de texte, les indexes du moteur de recherche CQP, parfois les versions XML-TXM des sources des textes, etc.). Le corpus binaire est la forme la plus facilement diffusable d'un corpus exploitable dans TXM (par opposition aux sources d'un corpus qu'il faut importer dans TXM en suivant un processus plus long comportant de nombreux paramétrages). Le projet Textométrie diffuse plusieurs corpus binaires de démonstration ou pédagogiques sous licence Creative Commons (notamment à partir du site de diffusion du logiciel sur Sourceforge). Un portail TXM peut donner accès au téléchargement des corpus binaires de certains corpus qu'il héberge. Le logiciel TXM pour bureau permet d'​exporter un corpus sous une forme appelée '​corpus binaire'​. C'​est-à-dire sous la forme d'un fichier d'​extension '​.txm'​ transmissible entre machines et facilement '​chargeable'​ dans un TXM (en fait une archive ZIP de tous les éléments composant un corpus une fois importé dans TXM - selon une stratégie d'​encapsulation de données similaire à celle d'un fichier LibreOffice ODT). Un corpus binaire contient tous les éléments exploitables d'un corpus importé dans TXM (dont ses éditions HTML de texte, les indexes du moteur de recherche CQP, parfois les versions XML-TXM des sources des textes, etc.). Le corpus binaire est la forme la plus facilement diffusable d'un corpus exploitable dans TXM (par opposition aux sources d'un corpus qu'il faut importer dans TXM en suivant un processus plus long comportant de nombreux paramétrages). Le projet Textométrie diffuse plusieurs corpus binaires de démonstration ou pédagogiques sous licence Creative Commons (notamment à partir du site de diffusion du logiciel sur Sourceforge). Un portail TXM peut donner accès au téléchargement des corpus binaires de certains corpus qu'il héberge.
public/spec_conservation.txt · Dernière modification: 2014/09/10 21:30 par slh@ens-lyon.fr