Ceci est une ancienne révision du document !


Analyse de corpus EVS avec TXM

Cette page recense les différentes discussions autour de projets d'analyse de corpus du laboratoire EVS avec TXM.

Elle doit servir à faire la liaison entre IHRIM et EVS et au suivi des développements de solutions.

Dans la mesure où cette page est pour l'instant publique, il est intéressant de veiller à ne pas trop désigner de personnes et de projets concrets.

Toponymes de Paris

Import du corpus

Pour l'annotation par concordances, il faut utiliser le module d'import XTZ+CSV qui prend des sources au format XML (le module d'import XTZ+CSV et l'annotation sont disponibles à partir de TXM 0.7.8) :

  • lancer 'Fichier > Importer > XML-XTZ+CSV'
    • pointer le répertoire des sources XML 'Paris_corrige'
    • lancer l'import en cliquant sur la flèche verte

Annotation du corpus

  • faire une concordance, par exemple de "rue|avenue|boulevard"%c ("d[ue]|des|aux"%c|"de"%c "la"%c)? [word="[A-Z].*"] :
    conc-rues.jpg
  • cliquer sur le bouton 'Annoter' (bouton crayon situé en haut à gauche de la concordance)
    • saisir l'identifiant de l'annotation, par exemple 'id_rue_neuve'
    • garder l'option 'lignes sélectionnées'
    • sélectionner les deux lignes correspondant à “rue Neuve” :
      conc-rues-annotation.jpg
  • cliquer sur 'OK'
    • on voit que les pivots ont bien reçu l'annotation :
      conc-rues-annotation-neuve.jpg
  • sauver les annotations (bouton crayon + disquette)
    <note>La sauvegarde des annotations est un calcul encore assez long parce que TXM ré-importe en partie le corpus.</note>
  • après la sauvegarde, on voit que des structures 'span' sont disponibles avec le contenu des annotations dans leur propriété 'ref' :
    Extrait de la Description du corpus
    Propriétés des structures (max 20 valeurs)
    
    doc
      n (1) = 0.
    p
      n (18972) = 0, 1, 10990, 10991, 10992, 10993, 10994, 10995, 10996, 10997, 10998, 10999, 2, 3, 4, 5, 6, 7, 8, 9.
    span
      author (1) = sheiden.
      date (1) = 2017-06-01.
      end (2) = 3778, 5576.
      n (1) = "".
      ref (1) = id_rue_neuve.
      start (2) = 3777, 5575.
  • pour faire une concordance basée sur l'annotation, on peut utiliser une requête de la forme suivante :
    <span_ref="id_rue_neuve"> []+ expand to span :
    conc-annotation-neuve.jpg

Autres projets

Conversion de transcriptions d'entretien en Word vers TRS

Certains fichiers Word produisent un message d'erreur de conversion comprenant des '###'.

ERROR 01:00:00.0 'not in Turn and not a comment' line 240 : ################################################  

ERROR 01:00:00.0 'not in Turn and not a comment' line 209 : ####

Import de corpus TRS dans TXM

Certaines partitions du corpus ne semblent pas possible (portions de cours d'eau) → il faut :

  • a) vérifier avec la commande Informations que toutes les informations se trouvant dans les transcriptions et le fichier metadata.csv sont bien disponibles dans le corpus, c'est-à-dire que l'import s'est bien déroulé ;
  • b) si ce n'est pas le cas, il faut vérifier les messages produits lors de l'import Transcriber+CSV dans la console de TXM.

Comparaison entre portions de cours d'eau et catégories de personnes

On peut procéder en deux temps :

A. décrire le contraste entre les portions de cours d'eau puis décrire le contraste entre les catégories de personnes

(décrire ici quelles opérations TXM seraient intéressantes à produire à partir du corpus in fine)

B. décrire le contraste combiné entre les portions de cours d'eau et les catégories de personnes

(décrire ici quelles opérations TXM seraient intéressantes à produire à partir du corpus in fine)

Si on décide d'associer une transcription au discours d'un seul locuteur, alors on peut essayer de répondre à la demande B dans l'état actuel de TXM.

Sinon il faudra discuter d'évolutions possibles.



Retour à la liste des projets.

public/analyse_de_corpus_evs_avec_txm.1496332752.txt.gz · Dernière modification: 2017/06/01 17:59 par slh@ens-lyon.fr