Outils pour utilisateurs

Outils du site


public:tutoriel_source_alceste

Tutoriel de transformation d'un fichier source Alceste pour TXM

Un corpus source du logiciel Alceste est constitué d'un fichier unique où l'on trouve d'éventuelles lignes étoilées séparant les unités textuelles.

Un corpus source du logiciel TXM est constitué d'un répertoire contenant autant de fichiers source que d'unités textuelles.

Le module d'import Alceste de TXM permet d'importer un répertoire contenant un fichier corpus source Alceste.

Mais pour un travail plus complet avec TXM, il est préférable d'organiser ses sources pour pouvoir utiliser un module d'import plus complet, comme les modules d'import TXT+CSV ou XML/w+CSV.

Ce tutoriel va montrer comment utiliser les outils de l'environnement de préparation des sources de TXM pour transformer le fichier source Alceste en autant de fichiers source que nécessaire pour pouvoir réaliser un import TXT+CSV.

Première opération : éclater le fichier source Alceste en plusieurs fichiers

La macro SplitFileRegExp permet d'éclater un fichier en plusieurs en utilisant le repérage d'un patron des lignes séparatrices au sein du fichier de départ.

Le fichier source Alceste exemple utilisé par ce tutoriel est constitué des 3 premiers discours du corpus VOEUX : voeux-alceste-extrait.txt.zip.

Déposer ce fichier '.txt' dans un répertoire et lancer la macro SplitFileRegExp depuis la vue macro.

Paramètres :

  • infile : désigner le fichier voeux-alceste-extrait.txt sur votre disque dur
  • outdir : désigner le répertoire où seront créés les fichiers à extraire
  • prefix : ne pas renseigner (on peut éventuellement mettre une chaine de caractère qui préfixera le nom de tous les fichiers créés pour contenir les extraits)
  • regex : laisser la valeur par défaut ^\*\*\*\* \*([^_\n]+)_([^*\n]+) \*([^_\n]+)_([^*\n]+)

Glose :

Deuxième opération : récupérer les métadonnées pour créer le fichier metadata.csv

public/tutoriel_source_alceste.txt · Dernière modification : 19/05/2015 18:16 de slh@ens-lyon.fr