Tutoriel de mise à jour de corpus

La mise à jour de corpus consiste à retirer certains textes et à en ajouter d'autres.

Ce tutoriel ne s'applique qu'aux corpus importés avec l'import XTZ+CSV.

Il permet notamment de préserver les annotations simples et avancées par concordances, ainsi que les annotations de mots.

Soit un corpus A à mettre à jour.

A) faire une copie de sauvegarde

  • dans TXM :
    • si nécessaire, sauvegarder toute annotation encours dans le corpus A
    • faire un export du corpus A au format binaire avec la commande 'Fichier > Exporter > Corpus au format binaire…'
  • dans l'explorateur de fichiers : préserver le fichier A.txm dans un endroit sûr (il contient les textes et les annotations d'origine)
    → en cas de problème, il suffira de re-charger le corpus binaire exporté pour rétablir l'état initial du corpus A

B) créer avec le module XTZ+CSV un corpus B comprenant les textes à ajouter

  • dans l'explorateur de fichiers : préparer un nouveau répertoire de sources
    • utiliser les mêmes paramètres que celui du corpus A
      • copier des répertoires xsl, css et le fichier import.xml des sources du corpus A
    • ajouter un fichier metadata.csv des métadonnées des textes à ajouter avec les mêmes colonnes que le fichier metadata.csv des sources du corpus A
    • ajouter les fichiers sources des textes à ajouter
    • choisir un nouveau nom de corpus à créer, par exemple corpus B
  • dans TXM : importer les sources du corpus B avec le module d'import XTZ+CSV
    → on obtient le corpus B

C) supprimer des textes

  • dans l'explorateur de fichiers : retirer les fichiers pivots des textes à retirer du corpus A
    • les textes se trouvent dans le répertoire $HOME/TXM/corpora/A/txm
    • il s'agit de fichiers avec l'extension .xml

D) ajouter des textes

  • dans l'explorateur de fichiers : copier les fichiers pivots des textes du corpus B dans le répertoire de la représentation pivot du corpus binaire du corpus A
    • il faut copier les textes se trouvant dans le répertoire $HOME/TXM/corpora/B/txm dans le répertoire $HOME/TXM/corpora/A/txm

E) mettre à jour le corpus A

  • dans TXM :
    • passer TXM en mode avancé en sélectionnant la préférence 'TXM > Avancé > Mode avancé'
    • sélectionner le corpus A
    • lancer la commande 'Update corpus' de la barre d'outils
      → le corpus A est mis à jour sans certains textes et avec de nouveaux textes
public/tutoriel_update.txt · Dernière modification: 2018/06/08 11:18 par slh@ens-lyon.fr