Liste de liens :
Liste de liens :
Pouvoir importer des fichiers au format CQP (.wtc. ou .vrt) ou CoNLL (avec ou sans balises XML, avec nombre variable de colonnes).
On prend en entrée des fichiers source d'extension .cqp ou .vrt ou .wtc.
On prend en entrée le nom de la balise délimitant les textes, par exemple 'doc'. Et on l'utilise pour délimiter les textes et produire des éditions (en option).
Le corpus est téléchargé depuis http://redac.univ-tlse2.fr/corpus/estRepublicain.html.
il s'agit d'un format CoNLL avec une balise globale <estRepublicain date=“2003-01-02”> par texte et des balises <head> au fil du texte :
<estRepublicain date="2003-01-02"> <head> 1 Pages page NC NC n=p 0 root 0 root 2 spécifiques spécifique ADJ ADJ n=p 1 mod 1 mod 3 à à P P 1 dep 1 dep 4 l' le DET DET n=s 5 det 5 det 5 édition édition NC NC n=s|g=f 3 prep 3 prep 6 de de P P 5 dep 5 dep 7 Bar Bar NPP NPP n=s|g=m 6 prep 6 prep 8 le le DET DET n=s|g=m 9 det 9 det 9 Duc Duc NPP NPP n=s|g=m 0 _ 0 _ </head>
On importe seulement l'année 2003.
Retours :
Error: corpus name is invalid (remove special characters and punctuation ; must not with a number): Impossible de commencer l'import : pas de dossier source sélectionné.
–> il n'est pas évident de comprendre qu'il faut sortir de TXM pour renommer le répertoire puis revenir dans TXM pour relancer l'import
No WTC file in source directory: /home/sheiden/Téléchargements/EstRep2003
Get CQL limit for query=<text>[] Echec de la récupération des limites de texte : org.txm.searchengine.cqp.serverException.CqiClErrorInternal ** Une erreur est survenue lors du chargement des lignes de la concordance : java.lang.NullPointerException