Ceci est une ancienne révision du document !
Cette page recense les différentes discussions autour de projets d'analyse de corpus du laboratoire EVS avec TXM.
Elle doit servir à faire la liaison entre IHRIM et EVS et au suivi des développements de solutions.
Dans la mesure où cette page est pour l'instant publique, il est intéressant de veiller à ne pas trop désigner de personnes et de projets concrets.
La macro NIndex assiste le décompte de séquences de mots dans des corpus ou sous-corpus. Elle généralise la commande Index de TXM 0.7.8 à N requêtes CQL. Les séquences sont fournies dans un fichier d'entrée (paramètre inputFile
), au format général d'une séquence par ligne. Trois formats de séquences sont proposés :
Cathédrale Notre-Dame rue de la Chanvrerie ...
Tour.* rue|avenue|boulevard de la [A-Z].*
"Cathédrale"%cd "Notre-Dame"%cd "rue|avenue|boulevard"%c "de"%c "la"%c [word="[A-Z].*"] ...
Dans les séquences de formes de mots et d'expressions régulières sur les formes de mots, les formes et les expressions régulières sont séparées par un caractère espace (pour chercher une forme contenant un espace il faut utiliser une expression régulière exprimant ce caractère Unicode).
Le type de séquences interprété par NIndex est déterminé par le paramètre inputIsCQL
. Si ce paramètre est sélectionné (vrai), les séquences sont interprétées comme des requêtes CQL ; sinon elles sont interprétées soit comme des formes soit comme des expressions régulières de formes en fonction du contenu de chaque ligne.
Le paramètre inputWordProperty
permet de choisir la propriété de mot qui sera utilisée pour les recherches de séquences de formes ou de séquences d'expression régulière de forme. Par exemple :
Le paramètre outputWordProperty
permet de choisir quelle propriété de mot sera utilisée pour réaliser le dénombrement des séquences trouvées. Par exemple :
Quand les séquences sont des requêtes CQL ou des expressions régulières, il est possible de regrouper les décomptes de leurs réalisations en sélectionnant le paramètre groupByQuery
. Dans ce cas il y a une fréquence par séquence dans le tableau de sortie.
Les corpus dans lesquels chercher sont soit sélectionnés dans la vue corpus (avant de lancer la macro), soit fournis sous la forme d'une liste de noms de corpus à l'appel de la macro par une autre macro.
La macro NIndex écrit son résultat dans un fichier de sortie (paramètre outputFile
), deux formats sont proposés :
Dans TXM 0.7.8 ou inférieur, pour pouvoir écrire au format ODS il faut installer une librairie complémentaire au préalable :
<répertoire utilisateur>/TXM/scripts/lib
Quand le paramètre odsOutputFormat
est sélectionné la sortie se fait au format ODS, sinon TSV.
La sortie au format tableur est composée de deux feuilles :
groupByQuery
est sélectionné.Certains fichiers Word produisent un message d'erreur de conversion comprenant des '###'.
ERROR 01:00:00.0 'not in Turn and not a comment' line 240 : ################################################ ERROR 01:00:00.0 'not in Turn and not a comment' line 209 : ####
Certaines partitions du corpus ne semblent pas possible (portions de cours d'eau) → il faut :
On peut procéder en deux temps :
A. décrire le contraste entre les portions de cours d'eau puis décrire le contraste entre les catégories de personnes
(décrire ici quelles opérations TXM seraient intéressantes à produire à partir du corpus in fine)
B. décrire le contraste combiné entre les portions de cours d'eau et les catégories de personnes
(décrire ici quelles opérations TXM seraient intéressantes à produire à partir du corpus in fine)
Si on décide d'associer une transcription au discours d'un seul locuteur, alors on peut essayer de répondre à la demande B dans l'état actuel de TXM.
Sinon il faudra discuter d'évolutions possibles.