Outils pour utilisateurs

Outils du site


public:spec_corpus_binaire

Ceci est une ancienne révision du document !


Architecture d'un corpus binaire

TXM 0.7.8

Un corpus binaire est soit

  • une archive (zip) : qui est désarchivée lors du chargement
  • un répertoire

Le corpus binaire peut contenir un ou plusieurs corpus CQP.

Son identifiant est en majuscule sans caractère spécial et ne commence pas par un chiffre, il est construit :

  • lors de l'import du corpus
  • lors de la récupération d'un ancien corpus

On s'assure

  • lors de la récupération des corpus après chargement
  • au chargement

Fichiers :

  • obligatoires pour être chargé dans TXM :
    • répertoire “registry”
    • répertoire “data”
    • répertoire “HTML
    • fichier “import.xml”
  • obligatoire pour faire de l'annotation
    • répertoire “txm”
  • temporaires
    • répertoire “wtc”, il est généré lors de l'import d'un corpus source ou d'une mise à jour du corpus binaire
      • contient un dossier par corpus CQP
      • chaque sous-dossier contient un fichier wtc par “texte”
    • répertoire “treetagger”, contient la sortie brute de l'annotation TreeTagger
    • répertoire “annotations”, contient les fichiers stand-off du résultat de TreeTagger
    • répertoire “tokenized”, contient le résultat du Tokenizer appliqué lors de l'import
    • répertoire “temporary_annotations”, il est généré lors que l'on débute une session d'annotation
public/spec_corpus_binaire.1456751775.txt.gz · Dernière modification: 2016/02/29 14:16 par alexei.lavrentev@ens-lyon.fr