Architecture d'un corpus binaire

TXM 0.7.8

Un corpus binaire est soit

  • une archive (zip) : qui est désarchivée lors du chargement
  • un répertoire

Le corpus binaire peut contenir un ou plusieurs corpus CQP.

Son identifiant est en majuscule sans caractère spécial et ne commence pas par un chiffre, il est construit :

  • lors de l'import du corpus
  • lors de la récupération d'un ancien corpus

On s'assure

  • lors de la récupération des corpus après chargement
  • au chargement

Fichiers :

  • obligatoires pour être chargé dans TXM :
    • répertoire “registry”
    • répertoire “data”
    • répertoire “HTML
    • fichier “import.xml”
  • obligatoire pour faire de l'annotation
    • répertoire “txm”
  • temporaires
    • répertoire “wtc”, il est généré lors de l'import d'un corpus source ou d'une mise à jour du corpus binaire
      • contient un dossier par corpus CQP
      • chaque sous-dossier contient un fichier wtc par “texte”
    • répertoire “treetagger”, contient la sortie brute de l'annotation TreeTagger
    • répertoire “annotations”, contient les fichiers stand-off du résultat de TreeTagger
    • répertoire “tokenized”, contient le résultat du Tokenizer appliqué lors de l'import
    • répertoire “temporary_annotations”, il est généré lors que l'on débute une session d'annotation

Évolutions possibles pour séparer les paramètres d'import des fichiers sources

La nouvelle architecture de corpus doit permettre de séparer la configuration spécifique à TXM des sources du corpus.

WORKSPACE (=$HOME/TXM/corpora)
	CORPUS
		src -> pointeur vers un répertoire local ou distant
			images
			fichier1		
			fichier...
			fichierN
		bin
			CORPUSNAME1
				cqp
				tiger
				media
				annotations
				analec
				edition
				xml-txm
			CORPUSNAME2
				cqp
				edition
				xml-txm
		configuration
			CORPUSNAME1
				import.xml
				css
				xsl
				groovy
			CORPUSNAME2
				import.xml
				css
				xsl
				groovy

public/spec_corpus_binaire.txt · Dernière modification: 2017/10/06 10:45 par matthieu.decorde@ens-lyon.fr