Liste de liens :
Liste de liens :
Il s'agit de finaliser une version publique de la production de concordances syntaxiques à partir de la combinaison TS+XSL :
Alexis peut nous aider à finaliser dans le portail démo :
Tom vérifie les requêtes de l'article dans le portail démo.
Matthieu peut nous aider à finaliser la macro KNICMacro et un corpus binaire à mettre avec nos corpus exemples. (mais pas sûr vue la release 0.7.5 en cours)
une requete TIGER peut retouner des noeuds terminaux (mots) et des noeuds non-terminaux NT.
Pour TXM, on peut récupérer les terminaux recouvert par les NT.
Dans le cas où il y a plusieurs NT, la requête peut retourner plusieurs match dont certains qui se recouvrent. L'utilisateur peut alors préciser le ou les noeuds qui l’intéresse en labellisant sa requête avec des variables “pivot<n>” avec n un numéro.
Dans les concordance Knic, les colonnes du tableau conteneur sont drivées par des labels “block<n>”.
Les Terminaux (T) de TIGERSearch sont les mots. Les non-terminaux de TIGERSearch sont les noeuds syntaxiques. Les NT et les T peuvent avoir des propriétés.
Les structures de CQP reposent sur les positions des tokens CQP, mais pas les NT de TIGERSearch.
problème : les outils de TXM s'appuient tous sur les séquences de positions de mots pour afficher des valeurs de propriétés et faire des liens entre les commandes
problème : l’accès aux propriétés des T ne pose pas de soucis, par contre pour les propriétés de NT il faut préciser la façon de remonter à l'information:
L'import XML-TS s'assure que les token CQP et TIGER sont bien alignés. Pour s'assurer de l'alignement la commande “Import TIGERSearch annotations…” doit créer un registre de décalage de positions de mots.
problèmes :
algo :
Commandes pour importer des propriétés CoNLL-U dans un corpus TXM. L'import s'appuie sur l'alignement exact des mots par leurs identifiants et par l'identifiants de leur texte.
Si un ligne mot ne contient par le paramètre misc “XmlId”, un message d'alerte est affiché en console. Si des annotations n'ont pas été importés un message de Warning est affiché avec la liste des identifiants XmlID qui n'ont pas matché.
Paramètres :
Gestion des identifiants :
Paramètres :
Si un ligne mot ne contient par le paramètre misc “XmlId”, un message d'alerte est affiché en console.
L'export produit un fichier CoNLL-U par texte TXM. Si les mots ont des propriétés CQP de la forme prefix + “id|form|lemma|upos|xpos|head|deprel|deps|misc”, elles seront utiliser pour remplir les propriétés UD des mots.
Si la propriété CQP prefix + “sentid existe, elle sera utilisée pour encodé les début de phrases UD. Si la propriété CQP prefix + “newdocid” existe, elle sera utilisée pour encodé la ligne commentaire # newdoc id” des phrases
Paramètres :
Éléments de solution
Qui Quand Quoi