(restauration de la version du 8/08/2014)
Ce tutoriel vous explique comment utiliser les macros BuildWordPropTable et InjectWordPropTable pour corriger n'importe quelles propriétés de mots (comme 'frpos' et 'frlemma'), ou en ajouter de nouvelles de votre propre cru (comme des catégories lexicales particulières ou des catégories d'analyse associées au discours par l'intermédaire de mots), dans un corpus déjà importé dans TXM.
La stratégie est la suivante :
Le tutoriel est composé de trois sections :
Dans un premier temps, nous vous recommandons de lire, voire de réaliser vous-même car les sources de l'exemple sont fournis, le contenu de la section C) pour découvrir et comprendre rapidement la procédure en vous exerçant sur un cas concret.
Notes :
(*) en attendant de pouvoir les faire directement dans des concordances de TXM
1. Les macros sont disponibles dans TXM depuis la version 0.7.5. Nous vous recommandons de toujours récupérer la dernière version des macros sur le site de SourceForge : http://sourceforge.net/projects/txm/files/software/TXM%20macros
(les versions en ligne sont toujours plus à jour que les versions livrées avec le logiciel)
2. Vérifiez que le corpus que vous souhaitez corriger contient les textes sources dans le dossier <TXMHOME>/corpora/<MONCORPUS>/txm/<MONCORPUS>
Cette session de travail se déroule dans un environnement Windows 7, sous le nom d'utilisateur “demo”. Il faut adapter les chemins de répertoires et de fichiers pour les autres systèmes (Mac OS X et Linux).
Nous allons utiliser la version XML des sources du mini-corpus échantillon du corpus VOEUX utilisé lors de l'atelier préparation&import dans TXM.
Pour cela :
Nous allons corriger la propriété morphosyntaxique et le lemme des mots débutants la séquence “NOM suivi de NAM”. Cette succession de catégories est en effet souvent mal étiquetée par TreeTagger comme on peut le voir dans la concordance suivante dans ce corpus :
t0022 Mes chères_NOM_chère Françaises_NAM_Françaises et mes chers Français, Ce soir est une fête pour la t0036 Mes Chers_NOM_Chers Compatriotes_NAM_Compatriotes , Parmi les événements qui marqueront l’année 1994, le sauvetage t0036 pour l’emploi est-elle ainsi bloquée ? Mes Chers_NOM_Chers Compatriotes_NAM_Compatriotes , c’est la dernière fois que je m’adresse à vous
Le fichier “annotation-voeux.tsv” est créé et contient les lignes suivantes :
n Références ContexteGauche Pivot frpos frlemma ContexteDroit id text_id 706 t0022, Mes chères Françaises NOM chère et mes chers Français, w_t0022_2 t0022 1845 t0036, 0 Mes Chers Compatriotes NOM Chers , Parmi les événements qui w_t0036_2 t0036 2531 t0036, 4 est-elle ainsi bloquée ? Mes Chers Compatriotes NOM Chers , c’est la dernière w_t0036_688 t0036
La table est composée des colonnes suivantes :
Nous allons corriger la catégorie NOM en ADJ, et les lemmes en passant.
Le fichier “annotation-voeux.tsv” contient désormais les lignes suivantes :
n Références CG keyword frpos frlemma CD id text_id 706 t0022, Mes chères Françaises ADJ cher et mes chers Français, w_t0022_2 t0022 1845 t0036, 0 Mes Chers Compatriotes ADJ cher , Parmi les événements qui w_t0036_2 t0036 2531 t0036, 4 est-elle ainsi bloquée ? Mes Chers Compatriotes ADJ cher , c’est la dernière w_t0036_688 t0036
Notes :
(**) Le répertoire C:/Users/demo/TXM/corpora/voeuxxml/txm/VOEUXXML contient
une version interne à TXM des fichiers sources du corpus VOEUXXML qui a été construite automatiquement
lors du premier import du corpus dans TXM.
Il est situé dans le répertoire TXM de l'utilisateur
parce qu'il est supposé être interne au processus d'import du corpus dans TXM.
Il est tout à fait possible d'y accéder directement, vous n'avez pas besoin d'en faire une copie à l'extérieur du répertoire de TXM, la macro n'y accède d'ailleurs qu'en lecture.
Il est nécessaire d'utiliser cette version des sources du corpus parce que pour réinjecter les corrections de propriétés de mots dans les sources,
TXM doit savoir où se trouvent les mots, ce qui n'est pas forcément le cas pour tous les formats de fichiers sources comme dans
le cas du corpus VOEUXXML où les mots ne sont pas encodés (texte brut).
Cette version interne des sources d'un corpus est encodée en format XML-TXM, où chaque mot est encodé en détail en XML.
Pour un corpus MONCORPUS donné, la version interne est stockée dans le répertoire C:\Users\demo\TXM\corpora\moncorpus\txm\MONCORPUS.
Pour vérifier les corrections, vous pouvez faire la concordance de [word="c.*"%c][frpos="NAM"] dans ce corpus en affichant les propriétés word_frpos_frlemma dans la colonne de pivot. Vous devriez obtenir :
t0022 Mes chères_ADJ_cher Françaises_NAM_Françaises et mes chers Français, Ce soir est une fête pour la t0022 Mes chères Françaises et mes chers_ADJ_cher Français_NAM_Français , Ce soir est une fête pour la plupart d’entre vous t0036 Mes Chers_ADJ_cher Compatriotes_NAM_Compatriotes , Parmi les événements qui marqueront l’année 1994, le sauvetage t0036 pour l’emploi est-elle ainsi bloquée ? Mes Chers_ADJ_cher Compatriotes_NAM_Compatriotes , c’est la dernière fois que je m’adresse à vous