Outils pour utilisateurs

Outils du site


public:import_tiger

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:import_tiger [2016/07/19 14:32]
slh@ens-lyon.fr
public:import_tiger [2019/06/05 09:51] (Version actuelle)
matthieu.decorde@ens-lyon.fr
Ligne 32: Ligne 32:
 L'​import peut être réalisé en suivant la [[https://​groupes.renater.fr/​wiki/​txm-users/​public/​extensions_alpha#​tigersearch | procédure d'​import d'un fichier au format TIGER-XML]] décrite dans la documentation de l'​extension TIGERSearch. L'​import peut être réalisé en suivant la [[https://​groupes.renater.fr/​wiki/​txm-users/​public/​extensions_alpha#​tigersearch | procédure d'​import d'un fichier au format TIGER-XML]] décrite dans la documentation de l'​extension TIGERSearch.
  
-==== Version ​finale ​====+==== Version ​==== 
 + 
 +L'​extension TIGERSearch rajoute un module d'​import XML-TS + CSV (le script tigersearchLoader.groovy est copié dans le répertoire TXMHOME/​scripts/​import). 
 + 
 +Le module prend en entrée un répertoire contenant un corpus source au format [[http://​www.ims.uni-stuttgart.de/​forschung/​ressourcen/​werkzeuge/​TIGERSearch/​doc/​html/​TigerXML.html|TIGER XML]] sans sous-corpus : un seul texte dans un seul fichier TIGER XML. 
 + 
 +Le module fait un import XTZ sur le fichier résultat de l'​application de la feuille XSL "​ts.xsl"​ puis indexe un corpus TIGER dans le répertoire "​tiger"​ du corpus binaire produit. 
 + 
 +==== Version 2 ==== 
 + 
 +Variante gérant plusieurs textes à l'aide d'un fichier main.xml à côté des fichiers TIGER XML de chaque texte. 
 + 
 +L'​ordre des textes dans le corpus TIGER et le corpus CQP doivent être les mêmes. 
  
 ===== Recette ===== ===== Recette =====
Ligne 43: Ligne 56:
  
   * télécharger et décompresser l'​archive [[http://​www.anc.org/​MASC/​download/​Propbank-original-format.zip | Propbank annotations of 88K of MASC data, in original PB format (original Penn Treebank annotations included)]]   * télécharger et décompresser l'​archive [[http://​www.anc.org/​MASC/​download/​Propbank-original-format.zip | Propbank annotations of 88K of MASC data, in original PB format (original Penn Treebank annotations included)]]
-  * lancer TIGERRegistry+  * lancer TIGERRegistry\\<​code>​ 
 +cd ~/​Software/​TIGERSearchTools 
 +sh runTRegistry.sh</​code>​
     * lancer '​Corpus/​Convert Corpus'​     * lancer '​Corpus/​Convert Corpus'​
       * Corpus ID : CORPUS110CYL067       * Corpus ID : CORPUS110CYL067
Ligne 54: Ligne 69:
       * CORPUS110CYL067_generated_header.xml       * CORPUS110CYL067_generated_header.xml
  
-=== B. Indexation du texte 110CYL067.xml au format TIGER-XML avec TIGERRegistry ===+=== B. Indexation du texte CORPUS110CYL067.xml au format TIGER-XML avec TIGERRegistry ===
  
-  * si nécessaire,​ lancer TIGERRegistry +  * sélectionner le répertoire CorporaDir 
-    * insérer le texte CORPUS110CYL067.xml avec '​Corpus/​Insert Corpus'​ +  * insérer le texte CORPUS110CYL067.xml avec '​Corpus/​Insert Corpus'​ 
-      * Corpus ID : CORPUS110CYL067+    *  
 +    ​* Corpus ID : CORPUS110CYL067
  
 === C. préparation du répertoire source en TIGER-XML pour TXM === === C. préparation du répertoire source en TIGER-XML pour TXM ===
Ligne 72: Ligne 88:
       * pointer vers un répertoire source CORPUS110CYL067       * pointer vers un répertoire source CORPUS110CYL067
       * régler la langue sur '​en',​ si on veut sur-annoter les terminaux avec TreeTagger - sinon décocher '​Annoter le corpus'​       * régler la langue sur '​en',​ si on veut sur-annoter les terminaux avec TreeTagger - sinon décocher '​Annoter le corpus'​
-      * pointer comme front XSL la feuille d’adaptation suivante [[https://svn.code.sf.net/p/txm/code/trunk/​Toolbox/​trunk/​org.textometrie.toolbox/​res/​org/​txm/​xml/​xsl/​ts2xmlw.xsl|ts2xmlw.xsl]] (elle produit la représentation XML-TXM évoquée dans la spécification)+      * pointer comme front XSL la feuille d’adaptation suivante [[https://sourceforge.net/projects/txm/files/library/​xsl/​ts2xmlw.xsl/download|ts2xmlw.xsl]] (elle produit la représentation XML-TXM évoquée dans la spécification)
       * lancer l'​import       * lancer l'​import
-    * le nouveau corpus CORPUS110CYL067+    * le nouveau corpus CORPUS110CYL067 ​est ajouté à la vue Corpus
       * on peut vérifier sa Description,​ son Édition, son Lexique, etc.       * on peut vérifier sa Description,​ son Édition, son Lexique, etc.
 +      * voici les mots et leurs propriétés de la deuxième phrase :
 +<​code>​
 +word pos enpos enlemma
 +
 +Your PRP$ PP$ your
 +contribution NN NN contribution
 +to TO TO to
 +Goodwill NNP NP Goodwill
 +will MD MD will
 +mean VB VV mean
 +more JJR JJR more
 +than IN IN than
 +you PRP PP you
 +may MD MD may
 +know VB VV know
 +. . SENT .
 +</​code>​
 +      * il peut être interrogé avec le moteur CQP mais pas encore avec TIGERSearch.
  
 === E. finalisation du corpus CORPUS110CYL067 pour TIGERSearch dans TXM === === E. finalisation du corpus CORPUS110CYL067 pour TIGERSearch dans TXM ===
Ligne 88: Ligne 122:
 === F. interrogation du corpus CORPUS110CYL067 avec TIGERSearch depuis TXM pour poste === === F. interrogation du corpus CORPUS110CYL067 avec TIGERSearch depuis TXM pour poste ===
  
-  * lancer ​TXM +  * depuis ​TXM 
-  * si nécessaire,​ installer l'​extension TIGERSearch de niveau ALPHA +    * si nécessaire,​ installer l'​extension TIGERSearch de niveau ALPHA (expérimental - en cours de discussion/​test au sein de l'​équipe de développement) 
-  * sélectionner le corpus CORPUS110CYL067 +    * sélectionner le corpus CORPUS110CYL067 
-  * cliquer sur le bouton de la commande TIGERSearch (icone du tigre TIGERSearch) +    * cliquer sur le bouton de la commande TIGERSearch (icone du tigre TIGERSearch) 
-  * saisir la requête [] +      * saisir la requête [] 
-  * cliquer sur '​Search'​ +      * cliquer sur '​Search'​ 
-  * la première phrase du corpus s'​affiche en mettant en évidence (en rouge) le premier mot (Your) :+    la deuxième((Ça devrait être la première. C'est un bug connu de l'​extension TIGERSearch pour TXM pour poste.)) ​phrase du corpus s'​affiche en mettant en évidence (en rouge) le premier mot (Your) :
 {{:​public:​txm-desktop-tiger-validation.png?​800|Syntactic tree of the first sentence of the 110CYL067 text}} {{:​public:​txm-desktop-tiger-validation.png?​800|Syntactic tree of the first sentence of the 110CYL067 text}}
  
-==== État courant ====+=== G. installation du corpus CORPUS110CYL067 dans un portail TXM === 
 + 
 +  * depuis TXM pour poste : exporter le corpus 
 +  * télécharger le corpus binaire sur le serveur du portail 
 +  * décompresser le répertoire du corpus binaire 
 +  * depuis le portail : 
 +    * se connecter en tant qu'​administrateur (compte admin) 
 +    * ouvrir l'​interface d'​administration (bouton Administrer) 
 +    * aller dans l'​onglet Corpora 
 +    * coller dans le champ '​Charger une base' [qui devrait en fait être '​Charger un corpus'​] le chemin sur le serveur du répertoire du corpus binaire 
 +    * cliquer sur '​Valider'​ 
 +    * rafraîchir la page (F5) 
 +    * le compte admin peut dors et déjà tester des requêtes TIGERSearch 
 +    * pour les autres comptes, il faut ajouter la permission TsQueryPermission à leur profil
  
public/import_tiger.1468931570.txt.gz · Dernière modification: 2016/07/19 14:32 par slh@ens-lyon.fr