Liste de liens :
Liste de liens :
Créer un module d'import de fichiers TIGER-XML.
Comme le format TIGER définit un corpus de phrases et non un corpus de textes, le module doit définir où sont encodés les textes. 2 solutions possibles :
Dans les deux cas, il faut également que le module crée le header de déclarations de terminaux et de non-terminaux à indexer pour l'outil dindexation TIGER. 2 solutions possibles :
Remarque : a priori la déclaration de terminaux et de non-terminaux doit comprendre celle de tous les éléments différents des fichiers TIGER
Cas d'un seul fichier TIGER : on peut imposer le format général utilisé pour le multi-fichiers ou bien interpréter le seul fichier comme un texte, avec son header de déclaration inliné.
Une fois les textes calculés, un fichier metadata peut être utilisé.
Pour chaque texte, il faut produire :
Le corpus indexé doit pouvoir être interrogé par TIGERSearch pour la syntaxe et par CQP pour la syntaxe ou pas.
L'édition formate chaque phrase sous la forme d'un paragraphe HTML, ou bien avec un simple <br/> à la fin, ou bien au kilomètre.
L'import peut être réalisé en suivant la procédure d'import d'un fichier au format TIGER-XML décrite dans la documentation de l'extension TIGERSearch.
L'extension TIGERSearch rajoute un module d'import XML-TS + CSV (le script tigersearchLoader.groovy est copié dans le répertoire TXMHOME/scripts/import).
Le module prend en entrée un répertoire contenant un corpus source au format TIGER XML sans sous-corpus : un seul texte dans un seul fichier TIGER XML.
Le module fait un import XTZ sur le fichier résultat de l'application de la feuille XSL “ts.xsl” puis indexe un corpus TIGER dans le répertoire “tiger” du corpus binaire produit.
concerne la cible Profiterole 2.0
Version gérant 2 cas à plusieurs textes
Notes:
Version gérant un header.xml par texte dans le cas où il n'y a pas de fichier driver. lié à #3195
Nous allons utiliser le fichier 110CYL067.mrg du corpus ANC. Nous devons d'abord le convertir depuis le format Penn Treebank vers TIGER-XML.
cd ~/Software/TIGERSearchTools sh runTRegistry.sh
word pos enpos enlemma Your PRP$ PP$ your contribution NN NN contribution to TO TO to Goodwill NNP NP Goodwill will MD MD will mean VB VV mean more JJR JJR more than IN IN than you PRP PP you may MD MD may know VB VV know . . SENT .