Outils pour utilisateurs

Outils du site


public:import_tiger

Ceci est une ancienne révision du document !


Spécification du module d'import XML-TS générique

Objectif

Créer un module d'import de n'importe quel fichier TIGER-XML.

Le corpus indexé doit pouvoir être interrogé par TIGERSearch et par CQP. Il faut donc générer un XML-TXM à la volée à partir du TIGER-XML et l'importer par le module XML-TXM. Le TIGER-XML doit produire :

  • des structures <s> correspondant aux phrases de TIGERSearch
  • des propriétés lexicales correspondant aux déclarations de terminaux T

Ce module d'import concerne d'abord l'usage dans le portail pour l'instant.

Méthode

  • il faut génériciser le module d'import SRCMF existant

État de la plateforme

  • il existe le module d'import SRCMF spécialisé dans les corpus SRCMF

Avancement dans l'élaboration de la solution

Solution

État de l'art

Prototypes

L'import peut être réalisé en suivant la procédure d'import d'un fichier au format TIGER-XML décrite dans la documentation de l'extension TIGERSearch.

Version 1

L'extension TIGERSearch rajoute un module d'import XML-TS + CSV (le script tigersearchLoader.groovy est copié dans le répertoire TXMHOME/scripts/import).

Le module prend en entrée un répertoire contenant un corpus source au format TIGER XML sans sous-corpus : un seul fichier XML.

Le module fait un import XTZ sur le fichier résultat de l'application de la feuille XSL “ts.xsl” puis indexe un corpus TIGER dans le répertoire “tiger” du corpus binaire produit.

Version 2

Variante gérant des sous-corpus de textes avec un fichier main.xml et des fichier subcorpus.xml.

Recette

Recette Alpha

Nous allons utiliser le fichier 110CYL067.mrg du corpus  ANC. Nous devons d'abord le convertir depuis le format Penn Treebank vers TIGER-XML.

A. Conversion depuis PennTreebank vers TIGER-XML

  • lancer TIGERRegistry\\
    cd ~/Software/TIGERSearchTools
    sh runTRegistry.sh
    • lancer 'Corpus/Convert Corpus'
      • Corpus ID : CORPUS110CYL067
      • Import file : Propbank/Penn_Treebank-orig/data/written/110CYL067.mrg
      • Import filter : general Penn treebank format filter
      • désélectionner 'GZip XML file'
      • cliquer 'Start'
    • les fichiers résultat se trouvent dans TIGERSearchTools_installdir:
      • CORPUS110CYL067.xml
      • CORPUS110CYL067_generated_header.xml

B. Indexation du texte CORPUS110CYL067.xml au format TIGER-XML avec TIGERRegistry

  • sélectionner le répertoire CorporaDir
  • insérer le texte CORPUS110CYL067.xml avec 'Corpus/Insert Corpus'
    • Corpus ID : CORPUS110CYL067

C. préparation du répertoire source en TIGER-XML pour TXM

  • créer le répertoire source CORPUS110CYL067
  • copier le fichier CORPUS110CYL067.xml dans ce répertoire

D. import du corpus au format TIGER-XML dans TXM

  • depuis TXM
    • lancer le module d'import XML/w+CSV
      • nommer le corpus CORPUS110CYL067
      • pointer vers un répertoire source CORPUS110CYL067
      • régler la langue sur 'en', si on veut sur-annoter les terminaux avec TreeTagger - sinon décocher 'Annoter le corpus'
      • pointer comme front XSL la feuille d’adaptation suivante ts2xmlw.xsl (elle produit la représentation XML-TXM évoquée dans la spécification)
      • lancer l'import
    • le nouveau corpus CORPUS110CYL067 est ajouté à la vue Corpus
      • on peut vérifier sa Description, son Édition, son Lexique, etc.
      • voici les mots et leurs propriétés de la deuxième phrase :
word	pos	enpos	enlemma

Your	PRP$	PP$	your
contribution	NN	NN	contribution
to	TO	TO	to
Goodwill	NNP	NP	Goodwill
will	MD	MD	will
mean	VB	VV	mean
more	JJR	JJR	more
than	IN	IN	than
you	PRP	PP	you
may	MD	MD	may
know	VB	VV	know
.	.	SENT	.
  • il peut être interrogé avec le moteur CQP mais pas encore avec TIGERSearch.

E. finalisation du corpus CORPUS110CYL067 pour TIGERSearch dans TXM

  • en dehors de TXM
    • une fois l'import terminé, modifier le corpus binaire CORPUS110CYL067 (situé dans ) de la façon suivante :
    • créer dans le répertoire $HOME/TXM/corpora/CORPUS110CYL067 (le répertoire du corpus binaire CORPUS110CYL067 dans TXM) un répertoire nommé “tiger”
    • copier dans ce répertoire '$HOME/TXM/corpora/CORPUS110CYL067/tiger' le répertoire d'indexation du corpus CORPUS110CYL067 de TIGERRegistry 'TIGERSearchTools_installdir/CorporaDir/CORPUS110CYL067'
    • copier également dans ce répertoire '$HOME/TXM/corpora/CORPUS110CYL067/tiger' le fichier tigersearch.logprop (pour la configuration de la librairie TIGERSearch utilisée)
  • le corpus est prêt à être interrogé par TIGERSearch depuis TXM

F. interrogation du corpus CORPUS110CYL067 avec TIGERSearch depuis TXM pour poste

  • depuis TXM
    • si nécessaire, installer l'extension TIGERSearch de niveau ALPHA (expérimental - en cours de discussion/test au sein de l'équipe de développement)
    • sélectionner le corpus CORPUS110CYL067
    • cliquer sur le bouton de la commande TIGERSearch (icone du tigre TIGERSearch)
      • saisir la requête []
      • cliquer sur 'Search'
    • la deuxième1) phrase du corpus s'affiche en mettant en évidence (en rouge) le premier mot (Your) :

Syntactic tree of the first sentence of the 110CYL067 text

G. installation du corpus CORPUS110CYL067 dans un portail TXM

  • depuis TXM pour poste : exporter le corpus
  • télécharger le corpus binaire sur le serveur du portail
  • décompresser le répertoire du corpus binaire
  • depuis le portail :
    • se connecter en tant qu'administrateur (compte admin)
    • ouvrir l'interface d'administration (bouton Administrer)
    • aller dans l'onglet Corpora
    • coller dans le champ 'Charger une base' [qui devrait en fait être 'Charger un corpus'] le chemin sur le serveur du répertoire du corpus binaire
    • cliquer sur 'Valider'
    • rafraîchir la page (F5)
    • le compte admin peut dors et déjà tester des requêtes TIGERSearch
    • pour les autres comptes, il faut ajouter la permission TsQueryPermission à leur profil
1)
Ça devrait être la première. C'est un bug connu de l'extension TIGERSearch pour TXM pour poste.
public/import_tiger.1524570241.txt.gz · Dernière modification: 2018/04/24 13:44 par matthieu.decorde@ens-lyon.fr