Outils pour utilisateurs

Outils du site


Panneau latéral

public:spec_corpus_binaire

Architecture d'un corpus binaire

TXM 0.7.8

Un corpus binaire est soit

  • une archive (zip) : qui est désarchivée lors du chargement
  • un répertoire

Le corpus binaire peut contenir un ou plusieurs corpus CQP.

Son identifiant est en majuscule sans caractère spécial et ne commence pas par un chiffre, il est construit :

  • lors de l'import du corpus
  • lors de la récupération d'un ancien corpus

On s'assure

  • lors de la récupération des corpus après chargement
  • au chargement

Fichiers :

  • obligatoires pour être chargé dans TXM :
    • répertoire “registry”
    • répertoire “data”
    • répertoire “HTML
    • fichier “import.xml”
  • obligatoire pour faire de l'annotation
    • répertoire “txm”
  • temporaires
    • répertoire “wtc”, il est généré lors de l'import d'un corpus source ou d'une mise à jour du corpus binaire
      • contient un dossier par corpus CQP
      • chaque sous-dossier contient un fichier wtc par “texte”
    • répertoire “treetagger”, contient la sortie brute de l'annotation TreeTagger
    • répertoire “annotations”, contient les fichiers stand-off du résultat de TreeTagger
    • répertoire “tokenized”, contient le résultat du Tokenizer appliqué lors de l'import
    • répertoire “temporary_annotations”, il est généré lors que l'on débute une session d'annotation

TXM 0.8.0

L'architecture des fichiers reprend celle de TXM 0.7.8 mais change la localisation et la technologie de persistance des paramètres d'import et des paramètres de corpus : le fichier import.xml n'est plus utilisé et est remplacer par le répertoire “.settings” qui contient les fichiers de préférences RCP du projet RCP hébergeant le projet de corpus TXM.

Contenu type du répertoire “.settings” :

  • 1 txm_XYZ_Project.prefs : contient les paramètres d'import
  • 1 EditionDefinition.prefs : contient les paramètres d'import concernant la création d'édition
  • 1 txm_XYZ_MainCorpus.prefs : contient les paramètres de corpus
  • 1 ou plusieurs txm_XYZ_Text.prefs : contiennent les paramètres de textes
  • 1 ou plusieurs txm_XYZ_Edition.prefs : contiennent les paramètres d'édition et les index mots ↔ page d'édition

Les fichiers “txm_XTZ_NomDeClasseJava.prefs” sont des persistances de résultats introduit dans TXM 0.8.0: les champs généraux sont décrit dans la page de spécification de la persistance des résultats de TXM.

txm_XYZ_Project.prefs :

  • décrit les paramètre d'import : le projet de (création de) corpus
  • champs :
    • annotate : true/false → déclanche l'annotation TreeTagger ou pas
    • clean.directories : true/false : supprime les fichiers temporaires ou pas
    • encoding : UTF-8 par défaut : encodage des textes
    • font : vide par défaut : règle la font d'affichage des résultats
    • import_module_name : pas de valeur par défaut : nom du module d'import à utiliser. TXM utilisera ce nom pour lancer le script point d'entrée xyzLoader.groovy du package org.txm.scripts.importer du répertoire de sources Groovy TXMHOME/scripts/groovy/user
    • lang : la langue du corpus (aussi utilisé pour résoudre le nom du modèle TreeTagger à utiliser)
    • user_name : nom du corpus à créer
    • source : répertoire des fichiers sources à lire

Évolutions possibles pour séparer les paramètres d'import des fichiers sources

La nouvelle architecture de corpus doit permettre de séparer la configuration spécifique à TXM des sources du corpus.

WORKSPACE (=$HOME/TXM/corpora)
	CORPUS
		src -> pointeur vers un répertoire local ou distant
			images
			fichier1		
			fichier...
			fichierN
		bin
			CORPUSNAME1
				cqp
				tiger
				media
				annotations
				analec
				edition
				xml-txm
			CORPUSNAME2
				cqp
				edition
				xml-txm
		configuration
			CORPUSNAME1
				import.xml
				css
				xsl
				groovy
			CORPUSNAME2
				import.xml
				css
				xsl
				groovy
public/spec_corpus_binaire.txt · Dernière modification: 2019/08/23 11:33 par matthieu.decorde@ens-lyon.fr