Analyse de corpus EVS avec TXM

Cette page recense les différentes discussions autour de projets d'analyse de corpus du laboratoire EVS avec TXM.

Elle doit servir à faire la liaison entre IHRIM et EVS et au suivi des développements de solutions.

Dans la mesure où cette page est pour l'instant publique, il est intéressant de veiller à ne pas trop désigner de personnes et de projets concrets.

Toponymes de Paris

macro NIndex

Installation de la macro

  1. télécharger la macro NIndexMacro.groovy
  2. copier le fichier dans <répertoire utilisateur>/TXM/scripts/macro/org/txm/macro/commands
  3. ouvrir la vue Macro
  4. accéder au répertoire 'commands'
  5. double-cliquer sur l'icone de la macro NIndex pour la lancer

Fonctionnement de la macro

La macro NIndex assiste le décompte de séquences de mots dans des corpus ou des sous-corpus. Elle généralise la commande Index de TXM 0.7.8 à N requêtes CQL. Les séquences sont fournies dans un fichier d'entrée (paramètre inputFile), au format général d'une séquence par ligne. Trois formats de séquences sont proposés :

  • séquences de formes de mots (ou de forme de lemme ou de forme de pos, etc.) comme par exemple des séquences déjà repérées par TXM ou par un autre logiciel, exemple :
    Cathédrale Notre-Dame
    rue de la Chanvrerie
    ...
  • séquences d'expressions régulières sur les formes de mots, exemple :
    Tour.*
    rue|avenue|boulevard de la [A-Z].*
    
  • requêtes CQL, exemple :
    "Cathédrale"%cd "Notre-Dame"%cd
    "rue|avenue|boulevard"%c "de"%c "la"%c [word="[A-Z].*"]
    ...

Dans les séquences de formes de mots et d'expressions régulières sur les formes de mots, les formes et les expressions régulières sont séparées par un caractère espace (pour chercher une forme contenant un espace il faut utiliser une expression régulière exprimant ce caractère Unicode).

Types de séquences

Le type de séquences interprété par NIndex est déterminé par le paramètre inputIsCQL. Si ce paramètre est sélectionné (vrai), les séquences sont interprétées comme des requêtes CQL ; sinon elles sont interprétées soit comme des formes soit comme des expressions régulières de formes en fonction du contenu de chaque ligne.

Le paramètre inputWordProperty permet de choisir la propriété de mot qui sera utilisée pour les recherches de séquences de formes ou de séquences d'expression régulière de forme. Par exemple :

  • avec la valeur 'word' (par défaut) ce seront les séquences de forme graphiques qui seront recherchées
  • avec la valeur 'frlemma' ce seront les séquences de formes de lemmes qui seront recherchées
  • avec la valeur 'frpos' ce seront les séquences d'étiquettes morphosyntaxiques qui seront recherchées
  • etc. en fonction de l'étiquetage des mots du corpus

Propriété de mot dénombrée

Le paramètre outputWordProperty permet de choisir quelle propriété de mot sera utilisée pour réaliser le dénombrement des séquences trouvées. Par exemple :

  • avec la valeur 'frlemma' ce seront les séquences de formes de lemmes qui seront dénombrées
  • avec la valeur 'word' (par défaut) ce seront les séquences de formes graphiques qui seront dénombrées
  • avec la valeur 'frpos' ce seront les séquences d'étiquettes morphosyntaxiques qui seront dénombrées
  • etc. en fonction de l'étiquetage des mots du corpus

Regroupement des décomptes par séquence

Quand les séquences sont des requêtes CQL ou des expressions régulières, il est possible de regrouper les décomptes de leurs réalisations en sélectionnant le paramètre groupByQuery. Dans ce cas il y a une fréquence par séquence dans le tableau de sortie.

Liste des corpus à interroger

Les corpus dans lesquels chercher sont soit sélectionnés dans la vue corpus (avant de lancer la macro), soit fournis sous la forme d'une liste de noms de corpus à l'appel de la macro par une autre macro.

Format de sortie

La macro NIndex écrit son résultat dans un fichier de sortie (paramètre outputFile), deux formats sont proposés :

  • ODS : format tableur Calc de Libre Office (extension .ods)
  • TSV : format texte tabulé TSV (caractère tabulation pour séparer les colonnes)

Remarque : dans TXM 0.7.8 ou inférieur, pour pouvoir écrire au format ODS il faut installer au préalable des bibliothèques Java complémentaires :

  1. télécharger l'archive office.zip
  2. copier dans <répertoire utilisateur>/TXM/scripts/lib les 7 fichiers qu'elle contient :
    • commons-validator-1.4.0.jar
    • java-rdfa-0.4.2.jar
    • jena-core-2.7.4.jar
    • jena-iri-0.9.4.jar
    • odfdom-java-0.8.10-incubating.jar
    • org.apache.xerces_2.9.0.v201101211617.jar
    • simple-odf-0.8.1-incubating.jar
  3. quitter puis relancer TXM
  4. la macro peut alors utiliser ces librairies

Quand le paramètre odsOutputFormat est sélectionné la sortie se fait au format ODS, sinon TSV.

Sortie au format ODS

La sortie au format tableur est composée de deux feuilles :

  • feuille principale (Sheet1) : contient le tableau des décomptes avec les colonnes suivantes :
    • corpus : nom du corpus, au format chaine
    • word query ou CQL : la requête de séquence, au format chaine
    • word values : les réalisations de la séquence, au format chaine (cette colonne n'est pas présente si le paramètre groupByQuery est sélectionné)
    • f : la fréquence des réalisations ou de la requête si groupByQuery est sélectionné, au format nombre entier
  • feuille de renseignement des résultats (properties), contient le tableau des paramètres du calcul avec les informations suivantes :
    • date : date de lancement de la macro
    • time : heure de lancement de la macro
    • machine : nom de la machine utilisée
    • user : identifiant de l'utilisateur ayant lancé le calcul
    • macro : nom de la macro
    • valeurs des paramètres : corpora, inputFile, inputIsCQL, inputWordProperty, outputFile, odsOutputFormat, outputWordProperty, groupByQuery

Autres projets

Conversion de transcriptions d'entretien en Word vers TRS

Certains fichiers Word produisent un message d'erreur de conversion comprenant des '###'.

ERROR 01:00:00.0 'not in Turn and not a comment' line 240 : ################################################  

ERROR 01:00:00.0 'not in Turn and not a comment' line 209 : ####

Import de corpus TRS dans TXM

Certaines partitions du corpus ne semblent pas possible (portions de cours d'eau) → il faut :

  • a) vérifier avec la commande Informations que toutes les informations se trouvant dans les transcriptions et le fichier metadata.csv sont bien disponibles dans le corpus, c'est-à-dire que l'import s'est bien déroulé ;
  • b) si ce n'est pas le cas, il faut vérifier les messages produits lors de l'import Transcriber+CSV dans la console de TXM.

Comparaison entre portions de cours d'eau et catégories de personnes

On peut procéder en deux temps :

A. décrire le contraste entre les portions de cours d'eau puis décrire le contraste entre les catégories de personnes

(décrire ici quelles opérations TXM seraient intéressantes à produire à partir du corpus in fine)

B. décrire le contraste combiné entre les portions de cours d'eau et les catégories de personnes

(décrire ici quelles opérations TXM seraient intéressantes à produire à partir du corpus in fine)

Si on décide d'associer une transcription au discours d'un seul locuteur, alors on peut essayer de répondre à la demande B dans l'état actuel de TXM.

Sinon il faudra discuter d'évolutions possibles.



Retour à la liste des projets.

public/analyse_de_corpus_evs_avec_txm.txt · Dernière modification: 2017/05/20 21:38 par slh@ens-lyon.fr