Outils pour utilisateurs

Outils du site


public:import_normalize_xml2cqp

Normalisation du XML pour CQP

Objectif

Protéger le moteur CQP tout en offrant le maximum de possibilités d'encodage des sources.

Caractères valides et non valides en XML

Mots et caractères réservés utilisés par le langage CQP

[TODO] [SJ] Quel est le traitement actuel dans TXM à l'import et à l'exécution pour ces mots réservés ?

  • [SH] les mots réservés du langage de requête CQL peuvent interférer avec les chaines de caractères se trouvant dans les sont complètement indépendants des sources. Dans une requête CQL, l'endroit syntaxique de l'expression d'objets du modèle de corpus (dont les noms et valeurs sont liées aux sources) n'est pas distingué est clairement distinct de l'endroit de l'expression de contraintes sur ces objets ou de functionnalités annexes. Bref, il n'y a pas d'interférence entre des mots réservés de CQL et la représentation des sources. Il y a par ailleurs un endroit syntaxique de l'expression d'objets du modèle de corpus où il peut y avoir interférence avec des caractères réservés de CQL. C'est le cas au moins de '_' et '.'.
  • [SJ] Pour être plus précis: les mots réservés ne semblent pas pouvoir être utilisés dans une requête, les empêchant à l'heure actuelle d'être utilisés en tant qu'attributs dans une source XML, ex. : cat=“Document” provoque une erreur:

CQP Error:

CQP Syntax Error: syntax error, unexpected CAT_SYM
Q26 = [cat= <--
  • [SH] Merci pour ce retour. Il montre clairement que le parseur CQL est incapable de séparer la désignation des objets du corpus de ses propres mot-clés (le problème se pose au niveau lexical - tokenization de la requête - et pas au niveau syntaxique - interprétation des composants de la requête -. Si on veut corriger le bug, il faut changer la grammaire de la syntaxe CQL pour que la gestion de ces symboles se déplace au niveau syntaxique). Je viens de màj ma prose ci-dessus. Le problème se pose au moment de parser une requête CQL, pas au moment de l'import. Par contre nous devons
    • 1) détecter tous les mot-clés problématiques à l'import et les refuser
    • 2) documenter précisément cela dans les modules d'import

Mots réservés

Voir: Liste des mots réservés en CQP http://cwb.sourceforge.net/files/CQP_Tutorial/node48.html

Ces mots ne peuvent être utilisés dans une requête CQP (ex. en p-attribute : cat=“Document”, keyword=“Dev”).

Caractères réservés

Ces caractères ne peuvent être utilisés lors de l'indexation/l'import de corpus en tant que nom de structure :

  • _

(CQP utilise le caractère “_” pour représenter la hiérarchie de l'arbre des structures.)

Ces caractères ne peuvent être utilisés lors d'une requête CQL en tant que p-attribute :

  • _
  • .

[SJ] Quel est l'état actuel des importers de TXM sur ces caractères ? En fouillant le code j'ai vu que des “_” étaient supprimés par certains importer dans des noms de balises mais c'est un peu flou.

Méthode

État de la plateforme

Avancement dans l'élaboration de la solution

Solution

État de l'art

Éléments de solution

Prototypes

Version finale

Documentation

Utilisateur

Développeur

Recette

Protocole de test

Alpha

Beta

État courant

public/import_normalize_xml2cqp.txt · Dernière modification: 2015/05/27 12:54 par sebastien.jacquot@univ-fcomte.fr