Outils pour utilisateurs

Outils du site


public:import_tiger

Ceci est une ancienne révision du document !


Spécification du module d'import XML-TS générique

Objectif

Créer un module d'import de n'importe quel fichier TIGER-XML.

Le corpus indexé doit pouvoir être interrogé par TIGERSearch et par CQP. Il faut donc générer un XML-TXM à la volée à partir du TIGER-XML et l'importer par le module XML-TXM. Le TIGER-XML doit produire :

  • des structures <s> correspondant aux phrases de TIGERSearch
  • des propriétés lexicales correspondant aux déclarations de terminaux T

Ce module d'import concerne d'abord l'usage dans le portail pour l'instant.

Méthode

  • il faut génériciser le module d'import SRCMF existant

État de la plateforme

  • il existe le module d'import SRCMF spécialisé dans les corpus SRCMF

Avancement dans l'élaboration de la solution

Solution

État de l'art

Prototypes

L'import peut être réalisé en suivant la procédure d'import d'un fichier au format TIGER-XML décrite dans la documentation de l'extension TIGERSearch.

Version finale

Recette

Recette Alpha

Nous allons utiliser le fichier 110CYL067.mrg du corpus  ANC. Nous devons d'abord le convertir depuis le format Penn Treebank vers TIGER-XML.

A. Conversion depuis PennTreebank vers TIGER-XML

B. Indexation du texte 110CYL067.xml au format TIGER-XML avec TIGERRegistry

  • si nécessaire, lancer TIGERRegistry
    • insérer le texte CORPUS110CYL067.xml avec 'Corpus/Insert Corpus'
      • Corpus ID : CORPUS110CYL067

C. préparation du répertoire source en TIGER-XML pour TXM

  • créer le répertoire source CORPUS110CYL067
  • copier le fichier CORPUS110CYL067.xml dans ce répertoire

D. import du corpus au format TIGER-XML dans TXM

  • depuis TXM
    • lancer le module d'import XML/w+CSV
      • nommer le corpus CORPUS110CYL067
      • pointer vers un répertoire source CORPUS110CYL067
      • régler la langue sur 'en', si on veut sur-annoter les terminaux avec TreeTagger - sinon décocher 'Annoter le corpus'
      • pointer comme front XSL la feuille d’adaptation suivante ts2xmlw.xsl (elle produit la représentation XML-TXM évoquée dans la spécification)
      • lancer l'import
    • le nouveau corpus CORPUS110CYL067
      • on peut vérifier sa Description, son Édition, son Lexique, etc.

E. finalisation du corpus CORPUS110CYL067 pour TIGERSearch dans TXM

  • en dehors de TXM
    • une fois l'import terminé, modifier le corpus binaire CORPUS110CYL067 (situé dans ) de la façon suivante :
    • créer dans le répertoire $HOME/TXM/corpora/CORPUS110CYL067 (le répertoire du corpus binaire CORPUS110CYL067 dans TXM) un répertoire nommé “tiger”
    • copier dans ce répertoire '$HOME/TXM/corpora/CORPUS110CYL067/tiger' le répertoire d'indexation du corpus CORPUS110CYL067 de TIGERRegistry 'TIGERSearchTools_installdir/CorporaDir/CORPUS110CYL067'
    • copier également dans ce répertoire '$HOME/TXM/corpora/CORPUS110CYL067/tiger' le fichier tigersearch.logprop (pour la configuration de la librairie TIGERSearch utilisée)
  • le corpus est prêt à être interrogé par TIGERSearch depuis TXM

F. interrogation du corpus CORPUS110CYL067 avec TIGERSearch depuis TXM pour poste

  • lancer TXM
  • si nécessaire, installer l'extension TIGERSearch de niveau ALPHA
  • sélectionner le corpus CORPUS110CYL067
  • cliquer sur le bouton de la commande TIGERSearch (icone du tigre TIGERSearch)
  • saisir la requête []
  • cliquer sur 'Search'
  • la première phrase du corpus s'affiche en mettant en évidence (en rouge) le premier mot (Your) :

Syntactic tree of the first sentence of the 110CYL067 text

État courant

public/import_tiger.1468931570.txt.gz · Dernière modification: 2016/07/19 14:32 par slh@ens-lyon.fr