Outils pour utilisateurs

Outils du site


public:specs_ts

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:specs_ts [2019/05/21 17:34]
matthieu.decorde@ens-lyon.fr
public:specs_ts [2019/06/19 14:56] (Version actuelle)
matthieu.decorde@ens-lyon.fr [Alignement corpus CQP et corpus TIGER]
Ligne 31: Ligne 31:
 Dans le cas où il y a plusieurs NT, la requête peut retourner plusieurs match dont certains qui se recouvrent. L'​utilisateur peut alors préciser le ou les noeuds qui l’intéresse en labellisant sa requête avec des variables "​pivot<​n>"​ avec n un numéro. Dans le cas où il y a plusieurs NT, la requête peut retourner plusieurs match dont certains qui se recouvrent. L'​utilisateur peut alors préciser le ou les noeuds qui l’intéresse en labellisant sa requête avec des variables "​pivot<​n>"​ avec n un numéro.
  
 +Dans les concordance Knic, les colonnes du tableau conteneur sont drivées par des labels "​block<​n>"​.
 +==== Propriétés TIGER ====
 +
 +Les Terminaux (T) de TIGERSearch sont les mots. Les non-terminaux de TIGERSearch sont les noeuds syntaxiques. Les NT et les T peuvent avoir  des propriétés.
 +
 +Les structures de CQP reposent sur les positions des tokens CQP, mais pas les NT de TIGERSearch. ​
 +
 +**problème** : les outils de TXM s'​appuient tous sur les séquences de positions de mots pour afficher des valeurs de propriétés et faire des liens entre les commandes
 +
 +**problème** : l’accès aux propriétés des T ne pose pas de soucis, par contre pour les propriétés de NT il faut préciser la façon de remonter à l'​information:​
 +  * faut-il prendre la propriété du premier NT en remontant dans l'​arbre ?
 +  * faut-il partir de la racine de l'​arbre et prendre le premier NT ?
 +  * faut-il retourner toutes les valeurs de propriété des NT qui dominent un T ?
 +  * ... [autres méthodes de récupération]
 +
 +==== Alignement corpus CQP et corpus TIGER ====
 +
 +L'​import XML-TS s'​assure que les token CQP et TIGER sont bien alignés. Pour s'​assurer de l'​alignement la commande "​Import TIGERSearch annotations..."​ doit créer un registre de décalage de positions de mots.
 +
 +
 +problèmes :
 +  * le corpus CQP est + gros que le corpus TIGERSearch
 +  * le corpus TIGERSearch est + gros que le corpus CQP -> le décalage peut être négatif
 +  * comment s'​assurer de l'​ordre des textes ?
 +
 +algo :
 +  * pour tous les tokens des sentences du corpus TIGERSearch
 +  * récupérer la position dans le corpus TIGERSearch
 +  * récupérer la position dans le corpus CQP -> on utilise d'​identifiant du mot TIGERSearch
 +  * on sauvegarde dans une table la présence ou l'​absence du mot dans le corpus CQP : 0 absence, 1 présence
 +    * la longueur de la table est le nombre de mot du corpus TIGERSearch
 +    * la table stockée dans le fichier "​$TXM/​corpora/​$CORPUS/​tiger/​$CORPUS/​presences.data"​
 +  * on sauvegarde dans une table le décalage (entier négatif ou positif)
 +    * la longueur de la table est le nombre de mot du corpus TIGERSearch
 +    * la table stockée dans le fichier "​$TXM/​corpora/​$CORPUS/​tiger/​$CORPUS/​offsets.data"​
 ==== État de la plateforme ==== ==== État de la plateforme ====
 ==== Avancement dans l'​élaboration de la solution ==== ==== Avancement dans l'​élaboration de la solution ====
public/specs_ts.1558452876.txt.gz · Dernière modification: 2019/05/21 17:34 par matthieu.decorde@ens-lyon.fr