Tutoriel pour importer des textes bruts (ou 'plain text') dans TXM

Ce tutoriel va vous montrer, étape par étape, comment importer dans TXM des corpus de simples textes bruts (ou séquences de caractères Unicode), ou 'plain text' ou 'raw text' en anglais, à partir du module d'import 'TXT+CSV'.

Contrairement au module d'import le plus simple de TXM, le module 'Import Clipboard' (ou 'Import Presse-Papier') qui importe du texte brut depuis n'importe quelle source liée au presse-papier (traitement de texte, navigateur Internet, etc.) sous forme d'un corpus composé d'un seul texte, le module d'import TXT+CSV permet de créer des corpus comprenant plusieurs textes que l'on peut comparer entre eux à l'aide de leurs métadonnées (encodées dans un fichier 'metadata.csv' situé dans le répertoire de sources à côté des textes sources).

TXT+CSV signifie que l'on va importer dans TXM des fichiers au format TXT. Le format TXT a une définition assez lâche, il s'agit de fichiers d'extension “*.txt” produits par les logiciels de type Bloc-note, Notepad, Notepad++ (sous Windows), TextEdit (sous Mac OS X), Gedit (Sous Linux)… ou exportés en 'texte brut (TXT)' par les logiciels de traitement de texte (MS Word, LibreOffice Writer).

Le dossier comprenant les fichiers sources '.txt' correspondra au “Corpus” et chaque fichier TXT correspondra à un “Texte”.permettant d'

Voir aussi le manuel de TXM :

Préparation du corpus

  1. Créer un dossier
  2. Copier les fichiers TXT dans le dossier créé

LibreOffice et Word sont capables d'enregistrer vos fichier au format TXT

Dans ce dossier ne devront se trouver que les fichiers sources du corpus.

Paramétrer et lancer l'import

  1. Lancer TXM
  2. Aller dans le menu : Fichier > Import > TXT+CSV ;
  3. Un éditeur de paramétrage de l'import s'ouvre ;
  4. Sélectionner le répertoire des sources du corpus à importer. (À l'aide du bouton dossier ou de l'hyperlien “sélectionner le répertoire des sources”) ;
  5. Choisir le nom du corpus. (À l'aide du champ “Nom du corpus*”) ;
  6. Paramétrages supplémentaires : voir section suivante ;
  7. Lancer l'import. (À l'aide du bouton rond, vert avec une flèche blanche ou de l'hyperlien “commencer l'import”).

Paramétrages supplémentaires

Encodage des fichiers TXT

L'encodage des fichiers TXT est lié au système d'exploitation de la machine. Pour plus d'informations, vous pouvez lire cette page : http://doc.ubuntu-fr.org/tutoriel/encodage_caracteres

  • Par défaut, TXM considère que l'encodage des caractères des fichiers TXT est 'Unicode UTF-8'.
  • Sinon il faut ouvrir la zone “Encodage des caractères” et sélectionner l'encodage dans la liste déroulante
  • Si vous n'avez aucune idée de l'encodage utilisé, TXM peut essayer de détecter l'encodage. Pour cela cocher “Deviner”

Si dans l'édition du corpus produit, il y a des caractères qui ne s'affichent pas ou qui s'affichent mal, alors c'est sûrement que l'encodage sélectionné n'est pas le bon.

Annotation en morphosyntaxe et en lemme

Si vous ne souhaitez pas associer à chaque mot de votre corpus sa propriété morphosyntaxique (catégorie grammaticale) et son lemme (entrée de dictionnaire), vous pouvez ignorer cette étape.

TXM utilise TreeTagger (site : http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/) pour annoter les corpus lors de l'import. Il faut installer TreeTagger pour TXM en suivant les instructions du menu Aide > Installer TreeTagger

Dans l'éditeur de paramétrage de l'import, ouvrir la zone “Langue principale”

  • Cocher “Annoter le corpus”
  • Sélectionner la langue des textes
Métadonnées des textes

Pour associer des propriétés, appelées métadonnées, à chaque texte du corpus (par exemple, auteur, titre, date de production, genre, etc.), vous devez placer un fichier “metadata.csv” dans le même dossier que les textes à importer. Ce fichier est décrit dans la section 16.1 du Manuel de TXM (http://txm.sourceforge.net/doc/manual/manual59.xhtml#toc193).

Vous pouvez créer et éditer les métadonnées dans un logiciel tableur (Calc ou Excel, par exemple) et l'enregistrer au format CSV en utilisant les paramètres suivants (sous Excel, il faut sélectionner le format d'export “texte” et non “csv” afin de pouvoir contrôler ces paramètres) :

  • le séparateur de colonne est virgule « , » ;
  • le séparateur de texte est apostrophe droite double « ” » ;
  • l'encodage des caractères doit être Unicode UTF-8 ;

Dans le tableau de métadonnées :

  • la première ligne - d'entête - sert à nommer chaque métadonnée ;
  • la première colonne de la première ligne - nommée « id » en minuscule - est obligatoire. Elle définit la métadonnée « id » qui nommera chaque fichier de texte sans son extension ;
  • les colonnes suivantes de la première ligne sont nommées librement (en utilisant les lettres latines minuscules sans accent et les chiffres, sans espaces blancs) ;
  • chaque ligne du fichier (en dehors de la première) définit les métadonnées d'un seul texte, en commençant dans la première colonne par le nom du fichier contenant le texte (sans extension : « .txt ») et en continuant dans les colonnes qui suivent avec les métadonnées du texte.

Pour vérifier si les métadonnées sont correctement lues par TXM, vous pouvez ouvrir l'onglet “Métadonnées” du formulaire d'import.

public/tutoriel_import_txt_csv.txt · Dernière modification: 2015/04/29 09:19 par benedicte.pincemin@ens-lyon.fr