Outils pour utilisateurs

Outils du site


Action disabled: source
public:import:cqp

Import CQP

Pouvoir importer des fichiers au format CQP (.wtc. ou .vrt) ou CoNNL (avec ou sans balises XML, avec nombre variable de colonnes).

Spécifications

Solution

On prend en entrée des fichiers source d'extension .cqp ou .vrt ou .wtc.

On prend en entrée le nom de la balise délimitant les textes, par exemple 'doc'. Et on l'utilise pour délimiter les textes et produire des éditions (en option).

Recette

Validation sur l'import du corpus Est Républicain analysé syntaxiquement par le CLLE-ERSS

Le corpus est téléchargé depuis http://redac.univ-tlse2.fr/corpus/estRepublicain.html.

il s'agit d'un format CoNNL avec une balise globale <estRepublicain date=“2003-01-02”> par texte et des balises <head> au fil du texte :

<estRepublicain date="2003-01-02">
<head>
1	Pages	page	NC	NC	n=p	0	root	0	root
2	spécifiques	spécifique	ADJ	ADJ	n=p	1	mod	1	mod
3	à	à	P	P		1	dep	1	dep
4	l'	le	DET	DET	n=s	5	det	5	det
5	édition	édition	NC	NC	n=s|g=f	3	prep	3	prep
6	de	de	P	P		5	dep	5	dep
7	Bar	Bar	NPP	NPP	n=s|g=m	6	prep	6	prep
8	le	le	DET	DET	n=s|g=m	9	det	9	det
9	Duc	Duc	NPP	NPP	n=s|g=m	0	_	0	_
</head>

On importe seulement l'année 2003.

Retours :

  • forme des sources
    • a) nom du répertoire : “2003” provoque le blocage du module d'import, avec le message :
      Error: corpus name is invalid (remove special characters and punctuation ; must not with a number): 
      Impossible de commencer l'import : pas de dossier source sélectionné.


      –> il n'est pas évident de comprendre qu'il faut sortir de TXM pour renommer le répertoire puis revenir dans TXM pour relancer l'import

    • solution :
      • 1) afficher en plus le message “** Veuillez renommer le répertoire de source sans caractères spéciaux ou de ponctuation et ne pas commencer le nom par un chiffre, puis re-sélectionner le répertoire source depuis le formulaire d'import.” voire une boite de dialogue modale
      • 2) corriger “must not with a number” → “must not start with a number”
    • b) extension des fichiers : les fichiers sont livrés avec l'extension '.tal' –> l'import ne trouve aucun fichier source
      Message d'erreur
      No WTC file in source directory: /home/sheiden/Téléchargements/EstRep2003
    • solution : ne pas filtrer les fichiers source par extension (il s'agit d'un module pour spécialiste de toute façon)
    • remarque : j'ai utilisé la macro RenameFiles pour changer l'extension en .wtc ce qui fonctionne très bien (même si cette macro n'a pas un paramétrage complètement immédiat). Peut-être créer un répertoire de macros 'source workbench' et la placer dedans parce que 'misc' n'est pas très parlant
  • déclarations
    • c1) les propriétés de mots sont nommées automatiquement p1, p2, etc.
    • solution : offrir un champ de déclaration de noms de propriétés de mots (séparés par des virgules) dans le formulaire d'import, ou fichier registry
    • c2) dans ce corpus la première colonne n'est pas la forme des mots mais une numérotation du mot dans la phrase, il y a des valeurs vides également (la forme est à la colonne d'après) –> les requêtes CQL par défaut ne fonctionnent pas
    • d) les structures semblent créées par CQP (fichiers estrepublicain.rng, estrepublicain_date.avs, estrepublicain_date.avx, estrepublicain_date.rng, head.rng) mais :
      • la description ne les montre pas
      • il n'est pas possible de les utiliser dans les requêtes CQL
      • la commande Vue-Interne a un fonctionnement bizarre
        • la structure estrepublicain ne montre rien
        • la structure head montre des mots
    • solution : offrir un champ de déclaration de noms de structures et leurs propriétés, ou fichier registry
    • e) la structure déclarée par défaut pour le calcul des limites de contextes de concordance en convient pas :
      Get CQL limit for query=<text>[]
      Echec de la récupération des limites de texte : org.txm.searchengine.cqp.serverException.CqiClErrorInternal
      ** Une erreur est survenue lors du chargement des lignes de la concordance : java.lang.NullPointerException
    • solution : rendre compte à l'import de l'absence de la structure déclarée dans le formulaire de paramètres pour le calcul des limites de contextes de concordances
public/import/cqp.txt · Dernière modification: 2018/05/28 16:47 par slh@ens-lyon.fr