Outils pour utilisateurs

Outils du site


public:analyse_de_corpus_evs_avec_txm

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:analyse_de_corpus_evs_avec_txm [2017/06/01 17:59]
slh@ens-lyon.fr
public:analyse_de_corpus_evs_avec_txm [2018/10/03 16:24] (Version actuelle)
slh@ens-lyon.fr
Ligne 11: Ligne 11:
 ===== Import du corpus ===== ===== Import du corpus =====
  
-Pour l'​annotation par concordances,​ il faut utiliser ​le module d'​import XTZ+CSV qui prend des sources au format XML (le module d'​import XTZ+CSV et l'​annotation sont disponibles à partir de TXM 0.7.8) :+Pour pouvoir utiliser ​l'outil d'​annotation par concordances,​ il est nécessaire d'​importer le corpus avec le module d'​import XTZ+CSV qui prend des sources au format XML (le module d'​import XTZ+CSV et l'​annotation sont disponibles à partir de TXM 0.7.8) :
  
   * lancer '​Fichier > Importer > XML-XTZ+CSV'​   * lancer '​Fichier > Importer > XML-XTZ+CSV'​
Ligne 24: Ligne 24:
     * garder l'​option '​lignes sélectionnées'​     * garder l'​option '​lignes sélectionnées'​
     * sélectionner les deux lignes correspondant à "rue Neuve" :\\ {{:​public:​conc-rues-annotation.jpg?​800}}     * sélectionner les deux lignes correspondant à "rue Neuve" :\\ {{:​public:​conc-rues-annotation.jpg?​800}}
-  * cliquer sur '​OK'​+  * cliquer sur '​OK' ​pour poser l'​annotation
     * on voit que les pivots ont bien reçu l'​annotation : \\ {{:​public:​conc-rues-annotation-neuve.jpg?​800}}     * on voit que les pivots ont bien reçu l'​annotation : \\ {{:​public:​conc-rues-annotation-neuve.jpg?​800}}
-  * sauver ​les annotations ​(bouton crayon + disquette)\\ <​note>​La sauvegarde des annotations est un calcul encore assez long parce que TXM ré-importe en partie le corpus.</​note>​ + 
-  * après ​la sauvegarde, on voit que des structures '​span'​ sont disponibles avec le contenu des annotations dans leur propriété '​ref'​ :\\ **Extrait de la Description du corpus**\\ <​code>​Propriétés des structures (max 20 valeurs)+===== Enregistrement de l'​annotation ===== 
 + 
 +Une fois qu'on a cliqué dans une concordance sur le bouton "​Annoter",​ qui a une icone de crayon, pour lancer une session d'​annotation,​ il bascule en bouton "​Enregistrer ​les annotations" avec l'​icone crayon+disquette. Cliquer sur le bouton crayon+disquette ​sauvegarde les annotations de la session courante, ce qui permet ensuite d'​exploiter les annotations par requêtes CQL. 
 + 
 +<​note>​La sauvegarde des annotations est un calcul encore assez long parce que TXM ré-importe en partie le corpus.</​note>​ 
 + 
 +===== Exploitation de l'​annotation du corpus ===== 
 + 
 +Après ​la sauvegarde, on voit que des structures '​span'​ sont disponibles avec le contenu des annotations dans leur propriété '​ref'​ : 
 + 
 +==== Extrait de la Description du corpus ​==== 
 + 
 +<​code>​... 
 +Propriétés des structures (max 20 valeurs)
  
 doc doc
Ligne 39: Ligne 52:
   n (1) = ""​.   n (1) = ""​.
   ref (1) = id_rue_neuve.   ref (1) = id_rue_neuve.
-  start (2) = 3777, 5575.</​code>​+  start (2) = 3777, 5575. 
 +... 
 +</​code>​ 
 + 
 +==== Concordance basée sur l'​annotation ==== 
 + 
 +Pour faire une concordance basée sur l'​annotation,​ on peut utiliser une requête de la forme suivante :\\ %%<​span_ref="​id_rue_neuve">​ []+ expand to span%% :\\ {{:​public:​conc-annotation-neuve.jpg?​800}} 
 + 
 +On peut utiliser 3 variantes de ce type de requêtes : 
 + 
 +=== A) === 
 + 
 +%%<​span_ref="​id_rue_neuve">​ []%% 
 +  * glose : pour ne chercher que le premier mot de la séquence annotée 
 + 
 +=== B) === 
 + 
 +%%<​span_ref="​id_rue_neuve">​ []+ expand to span%% 
 +  * glose : pour chercher tous les mots de la séquence annotée 
 + 
 +=== C) === 
 + 
 +%%[_.span_ref="​id_rue_neuve"​]%% 
 +  * glose : pour chercher chaque mot de la séquence annotée 
 + 
 +Chacune des variantes aura son utilité selon l'​outil mobilisé, Concordance ou Index par exemple, et l'​objectif visé. 
 + 
 +==== Exportation de l'​annotation ==== 
 + 
 +Après la sauvegarde des annotations,​ le corpus contient en lui-même les annotations indépendamment de l'​outil d'​annotation. On peut donc exporter ce corpus au format binaire (avec la commande '​Fichier > Exporter > Corpus au format binaire) dans un fichier .txm que l'on peut transmettre à un correspondant. Le correspondant charge alors le corpus binaire (avec la commande '​Fichier > Charger) puis exploite le corpus et ses annotations comme pour n'​importe quel corpus binaire. 
 + 
 +==== Annotation d'un corpus annoté chargé ==== 
 + 
 +Ceci n'a pas encore été beaucoup testé mais le correspondant peut à son tour annoter le corpus lui-même avec la contrainte actuelle qui est qu'il n'a pas le référentiel des annotations déjà réalisées sur le TXM d'​origine. Donc : 
 + 
 +  * a) il doit pouvoir ajouter des annotations,​ qui doivent se conformer au système d'​étiquettes d'​origine (mêmes noms) si on veut pouvoir faire une exploitation conjointe des annotations d'​origines et des nouvelles annotations 
 +  * b) il peut peut-être corriger des annotations d'​origine,​ en se conformant au système d'​étiquettes d'​origine pour les mêmes raisons que précédemment 
 + 
 +Comme nous n'​avons pas encore fait de tests dans ce domaine, nous serions intéressés d'​avoir des retours d'​expérience. 
 +Il faudra qu'on prévoit d'​exporter les référentiels (jeux d'​étiquettes) dans les corpus binaires. 
 + 
 +===== Notes 03/10/2018 =====
  
-  * pour faire une concordance basée ​sur l'​annotation,​ on peut utiliser une requête de la forme suivante ​:\\ %%<​span_ref="​id_rue_neuve">​ []+ expand to span%% ​:\\ {{:​public:​conc-annotation-neuve.jpg?800}}+  * format de sortie PERDIDO 
 +    * tests 
 +  * exploitabilité des annotations PERDIDO 
 +  * travailler ​sur des textes structurés et annotés avec PERDIDO 
 +    * structurer en aval annoter les structures dans TXM 
 +    * structurer en amont est-ce que TXM peut piloter les demandes à PERDIDO ​? 
 +  * nouveaux textes
  
 ===== Autres projets ===== ===== Autres projets =====
public/analyse_de_corpus_evs_avec_txm.1496332752.txt.gz · Dernière modification: 2017/06/01 17:59 par slh@ens-lyon.fr