Liste de liens :
Liste de liens :
Créer un module d'import de n'importe quel fichier TIGER-XML.
Le corpus indexé doit pouvoir être interrogé par TIGERSearch et par CQP. Il faut donc générer un XML-TXM à la volée à partir du TIGER-XML et l'importer par le module XML-TXM. Le TIGER-XML doit produire :
Ce module d'import concerne d'abord l'usage dans le portail pour l'instant.
L'import peut être réalisé en suivant la procédure d'import d'un fichier au format TIGER-XML décrite dans la documentation de l'extension TIGERSearch.
L'extension TIGERSearch rajoute un module d'import XML-TS + CSV (le script tigersearchLoader.groovy est copié dans le répertoire TXMHOME/scripts/import).
Le module prend en entrée un répertoire contenant un corpus source au format TIGER XML sans sous-corpus : un seul texte dans un seul fichier TIGER XML.
Le module fait un import XTZ sur le fichier résultat de l'application de la feuille XSL “ts.xsl” puis indexe un corpus TIGER dans le répertoire “tiger” du corpus binaire produit.
Variante gérant plusieurs textes à l'aide d'un fichier main.xml à côté des fichiers TIGER XML de chaque texte.
L'ordre des textes dans le corpus TIGER et le corpus CQP doivent être les mêmes.
Nous allons utiliser le fichier 110CYL067.mrg du corpus ANC. Nous devons d'abord le convertir depuis le format Penn Treebank vers TIGER-XML.
cd ~/Software/TIGERSearchTools sh runTRegistry.sh
word pos enpos enlemma Your PRP$ PP$ your contribution NN NN contribution to TO TO to Goodwill NNP NP Goodwill will MD MD will mean VB VV mean more JJR JJR more than IN IN than you PRP PP you may MD MD may know VB VV know . . SENT .