Ce tutoriel va vous montrer, étape par étape, comment importer dans TXM des corpus de simples textes bruts (ou séquences de caractères Unicode), ou 'plain text' ou 'raw text' en anglais, à partir du module d'import 'TXT+CSV'.
Contrairement au module d'import le plus simple de TXM, le module 'Import Clipboard' (ou 'Import Presse-Papier') qui importe du texte brut depuis n'importe quelle source liée au presse-papier (traitement de texte, navigateur Internet, etc.) sous forme d'un corpus composé d'un seul texte, le module d'import TXT+CSV permet de créer des corpus comprenant plusieurs textes que l'on peut comparer entre eux à l'aide de leurs métadonnées (encodées dans un fichier 'metadata.csv' situé dans le répertoire de sources à côté des textes sources).
TXT+CSV signifie que l'on va importer dans TXM des fichiers au format TXT. Le format TXT a une définition assez lâche, il s'agit de fichiers d'extension “*.txt” produits par les logiciels de type Bloc-note, Notepad, Notepad++ (sous Windows), TextEdit (sous Mac OS X), Gedit (Sous Linux)… ou exportés en 'texte brut (TXT)' par les logiciels de traitement de texte (MS Word, LibreOffice Writer).
Le dossier comprenant les fichiers sources '.txt' correspondra au “Corpus” et chaque fichier TXT correspondra à un “Texte”.permettant d'
Voir aussi le manuel de TXM :
Dans ce dossier ne devront se trouver que les fichiers sources du corpus.
L'encodage des fichiers TXT est lié au système d'exploitation de la machine. Pour plus d'informations, vous pouvez lire cette page : http://doc.ubuntu-fr.org/tutoriel/encodage_caracteres
Si dans l'édition du corpus produit, il y a des caractères qui ne s'affichent pas ou qui s'affichent mal, alors c'est sûrement que l'encodage sélectionné n'est pas le bon.
Si vous ne souhaitez pas associer à chaque mot de votre corpus sa propriété morphosyntaxique (catégorie grammaticale) et son lemme (entrée de dictionnaire), vous pouvez ignorer cette étape.
TXM utilise TreeTagger (site : http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/) pour annoter les corpus lors de l'import. Il faut installer TreeTagger pour TXM en suivant les instructions du menu Aide > Installer TreeTagger
Dans l'éditeur de paramétrage de l'import, ouvrir la zone “Langue principale”
Pour associer des propriétés, appelées métadonnées, à chaque texte du corpus (par exemple, auteur, titre, date de production, genre, etc.), vous devez placer un fichier “metadata.csv” dans le même dossier que les textes à importer. Ce fichier est décrit dans la section 16.1 du Manuel de TXM (http://txm.sourceforge.net/doc/manual/manual59.xhtml#toc193).
Vous pouvez créer et éditer les métadonnées dans un logiciel tableur (Calc ou Excel, par exemple) et l'enregistrer au format CSV en utilisant les paramètres suivants (sous Excel, il faut sélectionner le format d'export “texte” et non “csv” afin de pouvoir contrôler ces paramètres) :
Dans le tableau de métadonnées :
Pour vérifier si les métadonnées sont correctement lues par TXM, vous pouvez ouvrir l'onglet “Métadonnées” du formulaire d'import.