Différences

Cette page vous donne les différences entre la révision choisie et la version actuelle de la page.

public:analyse_de_corpus_evs_avec_txm [2017/06/01 17:58]
slh@ens-lyon.fr
public:analyse_de_corpus_evs_avec_txm [2018/10/03 16:24] (version actuelle)
slh@ens-lyon.fr
Ligne 11: Ligne 11:
===== Import du corpus ===== ===== Import du corpus =====
-Pour l'annotation par concordances, il faut utiliser le module d'import XTZ+CSV qui prend des sources au format XML (le module d'import XTZ+CSV et l'annotation sont disponibles à partir de TXM 0.7.8) :+Pour pouvoir utiliser l'outil d'annotation par concordances, il est nécessaire d'importer le corpus avec le module d'import XTZ+CSV qui prend des sources au format XML (le module d'import XTZ+CSV et l'annotation sont disponibles à partir de TXM 0.7.8) :
  * lancer 'Fichier > Importer > XML-XTZ+CSV'   * lancer 'Fichier > Importer > XML-XTZ+CSV'
Ligne 19: Ligne 19:
===== Annotation du corpus ===== ===== Annotation du corpus =====
-  * faire une concordance. Par exemple de %%"rue|avenue|boulevard"%c ("d[ue]|des|aux"%c|"de"%c "la"%c)? [word="[A-Z].*"]%% :\\ {{:public:conc-rues.jpg?800}}+  * faire une concordance, par exemple de %%"rue|avenue|boulevard"%c ("d[ue]|des|aux"%c|"de"%c "la"%c)? [word="[A-Z].*"]%% :\\ {{:public:conc-rues.jpg?800}}
  * cliquer sur le bouton 'Annoter' (bouton crayon situé en haut à gauche de la concordance)   * cliquer sur le bouton 'Annoter' (bouton crayon situé en haut à gauche de la concordance)
    * saisir l'identifiant de l'annotation, par exemple 'id_rue_neuve'     * saisir l'identifiant de l'annotation, par exemple 'id_rue_neuve'
    * garder l'option 'lignes sélectionnées'     * garder l'option 'lignes sélectionnées'
    * sélectionner les deux lignes correspondant à "rue Neuve" :\\ {{:public:conc-rues-annotation.jpg?800}}     * sélectionner les deux lignes correspondant à "rue Neuve" :\\ {{:public:conc-rues-annotation.jpg?800}}
-  * cliquer sur 'OK'+  * cliquer sur 'OK' pour poser l'annotation
    * on voit que les pivots ont bien reçu l'annotation : \\ {{:public:conc-rues-annotation-neuve.jpg?800}}     * on voit que les pivots ont bien reçu l'annotation : \\ {{:public:conc-rues-annotation-neuve.jpg?800}}
-  * sauver les annotations (bouton crayon + disquette)\\ <note>La sauvegarde des annotations est un calcul encore assez long parce que TXM ré-importe en partie le corpus.</note> + 
-  * après la sauvegarde, on voit que des structures 'span' sont disponibles avec le contenu des annotations dans leur propriété 'ref' :\\ **Extrait de la Description du corpus**\\ <code>Propriétés des structures (max 20 valeurs)+===== Enregistrement de l'annotation ===== 
 + 
 +Une fois qu'on a cliqué dans une concordance sur le bouton "Annoter", qui a une icone de crayon, pour lancer une session d'annotation, il bascule en bouton "Enregistrer les annotations" avec l'icone crayon+disquette. Cliquer sur le bouton crayon+disquette sauvegarde les annotations de la session courante, ce qui permet ensuite d'exploiter les annotations par requêtes CQL. 
 + 
 +<note>La sauvegarde des annotations est un calcul encore assez long parce que TXM ré-importe en partie le corpus.</note> 
 + 
 +===== Exploitation de l'annotation du corpus ===== 
 + 
 +Après la sauvegarde, on voit que des structures 'span' sont disponibles avec le contenu des annotations dans leur propriété 'ref' : 
 + 
 +==== Extrait de la Description du corpus ==== 
 + 
 +<code>... 
 +Propriétés des structures (max 20 valeurs)
doc doc
Ligne 39: Ligne 52:
  n (1) = "".   n (1) = "".
  ref (1) = id_rue_neuve.   ref (1) = id_rue_neuve.
-  start (2) = 3777, 5575.</code>+  start (2) = 3777, 5575. 
 +... 
 +</code> 
 + 
 +==== Concordance basée sur l'annotation ==== 
 + 
 +Pour faire une concordance basée sur l'annotation, on peut utiliser une requête de la forme suivante :\\ %%<span_ref="id_rue_neuve"> []+ expand to span%% :\\ {{:public:conc-annotation-neuve.jpg?800}} 
 + 
 +On peut utiliser 3 variantes de ce type de requêtes : 
 + 
 +=== A) === 
 + 
 +%%<span_ref="id_rue_neuve"> []%% 
 +  * glose : pour ne chercher que le premier mot de la séquence annotée 
 + 
 +=== B) === 
 + 
 +%%<span_ref="id_rue_neuve"> []+ expand to span%% 
 +  * glose : pour chercher tous les mots de la séquence annotée 
 + 
 +=== C) === 
 + 
 +%%[_.span_ref="id_rue_neuve"]%% 
 +  * glose : pour chercher chaque mot de la séquence annotée 
 + 
 +Chacune des variantes aura son utilité selon l'outil mobilisé, Concordance ou Index par exemple, et l'objectif visé. 
 + 
 +==== Exportation de l'annotation ==== 
 + 
 +Après la sauvegarde des annotations, le corpus contient en lui-même les annotations indépendamment de l'outil d'annotation. On peut donc exporter ce corpus au format binaire (avec la commande 'Fichier > Exporter > Corpus au format binaire) dans un fichier .txm que l'on peut transmettre à un correspondant. Le correspondant charge alors le corpus binaire (avec la commande 'Fichier > Charger) puis exploite le corpus et ses annotations comme pour n'importe quel corpus binaire. 
 + 
 +==== Annotation d'un corpus annoté chargé ==== 
 + 
 +Ceci n'a pas encore été beaucoup testé mais le correspondant peut à son tour annoter le corpus lui-même avec la contrainte actuelle qui est qu'il n'a pas le référentiel des annotations déjà réalisées sur le TXM d'origine. Donc : 
 + 
 +  * a) il doit pouvoir ajouter des annotations, qui doivent se conformer au système d'étiquettes d'origine (mêmes noms) si on veut pouvoir faire une exploitation conjointe des annotations d'origines et des nouvelles annotations 
 +  * b) il peut peut-être corriger des annotations d'origine, en se conformant au système d'étiquettes d'origine pour les mêmes raisons que précédemment 
 + 
 +Comme nous n'avons pas encore fait de tests dans ce domaine, nous serions intéressés d'avoir des retours d'expérience. 
 +Il faudra qu'on prévoit d'exporter les référentiels (jeux d'étiquettes) dans les corpus binaires. 
 + 
 +===== Notes 03/10/2018 =====
-  * pour faire une concordance basée sur l'annotation, on peut utiliser une requête de la forme suivante :\\ %%<span_ref="id_rue_neuve"> []+ expand to span%% :\\ {{:public:conc-annotation-neuve.jpg?800}}+  * format de sortie PERDIDO 
 +    * tests 
 +  * exploitabilité des annotations PERDIDO 
 +  * travailler sur des textes structurés et annotés avec PERDIDO 
 +    * structurer en aval : annoter les structures dans TXM 
 +    * structurer en amont : est-ce que TXM peut piloter les demandes à PERDIDO ? 
 +  * nouveaux textes
===== Autres projets ===== ===== Autres projets =====
public/analyse_de_corpus_evs_avec_txm.1496332709.txt.gz · Dernière modification: 2017/06/01 17:58 par slh@ens-lyon.fr