Analyse de corpus EVS avec TXM

Cette page recense les différentes discussions autour de projets d'analyse de corpus du laboratoire EVS avec TXM.

Elle doit servir à faire la liaison entre IHRIM et EVS et au suivi des développements de solutions.

Dans la mesure où cette page est pour l'instant publique, il est intéressant de veiller à ne pas trop désigner de personnes et de projets concrets.

Toponymes de Paris

Import du corpus

Pour pouvoir utiliser l'outil d'annotation par concordances, il est nécessaire d'importer le corpus avec le module d'import XTZ+CSV qui prend des sources au format XML (le module d'import XTZ+CSV et l'annotation sont disponibles à partir de TXM 0.7.8) :

  • lancer 'Fichier > Importer > XML-XTZ+CSV'
    • pointer le répertoire des sources XML 'Paris_corrige'
    • lancer l'import en cliquant sur la flèche verte

Annotation du corpus

  • faire une concordance, par exemple de "rue|avenue|boulevard"%c ("d[ue]|des|aux"%c|"de"%c "la"%c)? [word="[A-Z].*"] :
    conc-rues.jpg
  • cliquer sur le bouton 'Annoter' (bouton crayon situé en haut à gauche de la concordance)
    • saisir l'identifiant de l'annotation, par exemple 'id_rue_neuve'
    • garder l'option 'lignes sélectionnées'
    • sélectionner les deux lignes correspondant à “rue Neuve” :
      conc-rues-annotation.jpg
  • cliquer sur 'OK' pour poser l'annotation
    • on voit que les pivots ont bien reçu l'annotation :
      conc-rues-annotation-neuve.jpg

Enregistrement de l'annotation

Une fois qu'on a cliqué dans une concordance sur le bouton “Annoter”, qui a une icone de crayon, pour lancer une session d'annotation, il bascule en bouton “Enregistrer les annotations” avec l'icone crayon+disquette. Cliquer sur le bouton crayon+disquette sauvegarde les annotations de la session courante, ce qui permet ensuite d'exploiter les annotations par requêtes CQL.

La sauvegarde des annotations est un calcul encore assez long parce que TXM ré-importe en partie le corpus.

Exploitation de l'annotation du corpus

Après la sauvegarde, on voit que des structures 'span' sont disponibles avec le contenu des annotations dans leur propriété 'ref' :

Extrait de la Description du corpus

...
Propriétés des structures (max 20 valeurs)

doc
  n (1) = 0.
p
  n (18972) = 0, 1, 10990, 10991, 10992, 10993, 10994, 10995, 10996, 10997, 10998, 10999, 2, 3, 4, 5, 6, 7, 8, 9.
span
  author (1) = sheiden.
  date (1) = 2017-06-01.
  end (2) = 3778, 5576.
  n (1) = "".
  ref (1) = id_rue_neuve.
  start (2) = 3777, 5575.
...

Concordance basée sur l'annotation

Pour faire une concordance basée sur l'annotation, on peut utiliser une requête de la forme suivante :
<span_ref="id_rue_neuve"> []+ expand to span :
conc-annotation-neuve.jpg

On peut utiliser 3 variantes de ce type de requêtes :

A)

<span_ref="id_rue_neuve"> []

  • glose : pour ne chercher que le premier mot de la séquence annotée

B)

<span_ref="id_rue_neuve"> []+ expand to span

  • glose : pour chercher tous les mots de la séquence annotée

C)

[_.span_ref="id_rue_neuve"]

  • glose : pour chercher chaque mot de la séquence annotée

Chacune des variantes aura son utilité selon l'outil mobilisé, Concordance ou Index par exemple, et l'objectif visé.

Exportation de l'annotation

Après la sauvegarde des annotations, le corpus contient en lui-même les annotations indépendamment de l'outil d'annotation. On peut donc exporter ce corpus au format binaire (avec la commande 'Fichier > Exporter > Corpus au format binaire) dans un fichier .txm que l'on peut transmettre à un correspondant. Le correspondant charge alors le corpus binaire (avec la commande 'Fichier > Charger) puis exploite le corpus et ses annotations comme pour n'importe quel corpus binaire.

Annotation d'un corpus annoté chargé

Ceci n'a pas encore été beaucoup testé mais le correspondant peut à son tour annoter le corpus lui-même avec la contrainte actuelle qui est qu'il n'a pas le référentiel des annotations déjà réalisées sur le TXM d'origine. Donc :

  • a) il doit pouvoir ajouter des annotations, qui doivent se conformer au système d'étiquettes d'origine (mêmes noms) si on veut pouvoir faire une exploitation conjointe des annotations d'origines et des nouvelles annotations
  • b) il peut peut-être corriger des annotations d'origine, en se conformant au système d'étiquettes d'origine pour les mêmes raisons que précédemment

Comme nous n'avons pas encore fait de tests dans ce domaine, nous serions intéressés d'avoir des retours d'expérience. Il faudra qu'on prévoit d'exporter les référentiels (jeux d'étiquettes) dans les corpus binaires.

Autres projets

Conversion de transcriptions d'entretien en Word vers TRS

Certains fichiers Word produisent un message d'erreur de conversion comprenant des '###'.

ERROR 01:00:00.0 'not in Turn and not a comment' line 240 : ################################################  

ERROR 01:00:00.0 'not in Turn and not a comment' line 209 : ####

Import de corpus TRS dans TXM

Certaines partitions du corpus ne semblent pas possible (portions de cours d'eau) → il faut :

  • a) vérifier avec la commande Informations que toutes les informations se trouvant dans les transcriptions et le fichier metadata.csv sont bien disponibles dans le corpus, c'est-à-dire que l'import s'est bien déroulé ;
  • b) si ce n'est pas le cas, il faut vérifier les messages produits lors de l'import Transcriber+CSV dans la console de TXM.

Comparaison entre portions de cours d'eau et catégories de personnes

On peut procéder en deux temps :

A. décrire le contraste entre les portions de cours d'eau puis décrire le contraste entre les catégories de personnes

(décrire ici quelles opérations TXM seraient intéressantes à produire à partir du corpus in fine)

B. décrire le contraste combiné entre les portions de cours d'eau et les catégories de personnes

(décrire ici quelles opérations TXM seraient intéressantes à produire à partir du corpus in fine)

Si on décide d'associer une transcription au discours d'un seul locuteur, alors on peut essayer de répondre à la demande B dans l'état actuel de TXM.

Sinon il faudra discuter d'évolutions possibles.



Retour à la liste des projets.

public/analyse_de_corpus_evs_avec_txm.txt · Dernière modification: 2017/06/14 18:23 par slh@ens-lyon.fr