Table des matières

Analyse de corpus EVS avec TXM

Cette page recense les différentes discussions autour de projets d'analyse de corpus du laboratoire EVS avec TXM.

Elle doit servir à faire la liaison entre IHRIM et EVS et au suivi des développements de solutions.

Dans la mesure où cette page est pour l'instant publique, il est intéressant de veiller à ne pas trop désigner de personnes et de projets concrets.

Toponymes de Paris

Import du corpus

Pour pouvoir utiliser l'outil d'annotation par concordances, il est nécessaire d'importer le corpus avec le module d'import XTZ+CSV qui prend des sources au format XML (le module d'import XTZ+CSV et l'annotation sont disponibles à partir de TXM 0.7.8) :

Annotation du corpus

Enregistrement de l'annotation

Une fois qu'on a cliqué dans une concordance sur le bouton “Annoter”, qui a une icone de crayon, pour lancer une session d'annotation, il bascule en bouton “Enregistrer les annotations” avec l'icone crayon+disquette. Cliquer sur le bouton crayon+disquette sauvegarde les annotations de la session courante, ce qui permet ensuite d'exploiter les annotations par requêtes CQL.

La sauvegarde des annotations est un calcul encore assez long parce que TXM ré-importe en partie le corpus.

Exploitation de l'annotation du corpus

Après la sauvegarde, on voit que des structures 'span' sont disponibles avec le contenu des annotations dans leur propriété 'ref' :

Extrait de la Description du corpus

...
Propriétés des structures (max 20 valeurs)

doc
  n (1) = 0.
p
  n (18972) = 0, 1, 10990, 10991, 10992, 10993, 10994, 10995, 10996, 10997, 10998, 10999, 2, 3, 4, 5, 6, 7, 8, 9.
span
  author (1) = sheiden.
  date (1) = 2017-06-01.
  end (2) = 3778, 5576.
  n (1) = "".
  ref (1) = id_rue_neuve.
  start (2) = 3777, 5575.
...

Concordance basée sur l'annotation

Pour faire une concordance basée sur l'annotation, on peut utiliser une requête de la forme suivante :
<span_ref="id_rue_neuve"> []+ expand to span :
conc-annotation-neuve.jpg

On peut utiliser 3 variantes de ce type de requêtes :

A)

<span_ref="id_rue_neuve"> []

B)

<span_ref="id_rue_neuve"> []+ expand to span

C)

[_.span_ref="id_rue_neuve"]

Chacune des variantes aura son utilité selon l'outil mobilisé, Concordance ou Index par exemple, et l'objectif visé.

Exportation de l'annotation

Après la sauvegarde des annotations, le corpus contient en lui-même les annotations indépendamment de l'outil d'annotation. On peut donc exporter ce corpus au format binaire (avec la commande 'Fichier > Exporter > Corpus au format binaire) dans un fichier .txm que l'on peut transmettre à un correspondant. Le correspondant charge alors le corpus binaire (avec la commande 'Fichier > Charger) puis exploite le corpus et ses annotations comme pour n'importe quel corpus binaire.

Annotation d'un corpus annoté chargé

Ceci n'a pas encore été beaucoup testé mais le correspondant peut à son tour annoter le corpus lui-même avec la contrainte actuelle qui est qu'il n'a pas le référentiel des annotations déjà réalisées sur le TXM d'origine. Donc :

Comme nous n'avons pas encore fait de tests dans ce domaine, nous serions intéressés d'avoir des retours d'expérience. Il faudra qu'on prévoit d'exporter les référentiels (jeux d'étiquettes) dans les corpus binaires.

Autres projets

Conversion de transcriptions d'entretien en Word vers TRS

Certains fichiers Word produisent un message d'erreur de conversion comprenant des '###'.

ERROR 01:00:00.0 'not in Turn and not a comment' line 240 : ################################################  

ERROR 01:00:00.0 'not in Turn and not a comment' line 209 : ####

Import de corpus TRS dans TXM

Certaines partitions du corpus ne semblent pas possible (portions de cours d'eau) → il faut :

Comparaison entre portions de cours d'eau et catégories de personnes

On peut procéder en deux temps :

A. décrire le contraste entre les portions de cours d'eau puis décrire le contraste entre les catégories de personnes

(décrire ici quelles opérations TXM seraient intéressantes à produire à partir du corpus in fine)

B. décrire le contraste combiné entre les portions de cours d'eau et les catégories de personnes

(décrire ici quelles opérations TXM seraient intéressantes à produire à partir du corpus in fine)

Si on décide d'associer une transcription au discours d'un seul locuteur, alors on peut essayer de répondre à la demande B dans l'état actuel de TXM.

Sinon il faudra discuter d'évolutions possibles.



Retour à la liste des projets.