Outils pour utilisateurs

Outils du site


public:specs_ts

Spécification de l'intégration du moteur TIGER Search

Objectif

Il s'agit de finaliser une version publique de la production de concordances syntaxiques à partir de la combinaison TS+XSL :

  • dans la version portail : a priori déjà fait, donc il s'agit de finaliser un accès dans le portail démo fiable ;
  • dans la version bureau : a priori sous forme de macro KNICMacro dans un premier temps, associée à un script de préparation de corpus TS et à un tutoriel dans la page https://groupes.renater.fr/wiki/txm-users/public/macros.

Méthode

Alexis peut nous aider à finaliser dans le portail démo :

  • dernière version du GRAAL ;
  • dernière version des XSL ;
  • tutoriel HTML KNIC facilement accessible aux anonymes ;
  • accès disponible 24/7 à partir du moment où l'article est soumis.

Tom vérifie les requêtes de l'article dans le portail démo.

Matthieu peut nous aider à finaliser la macro KNICMacro et un corpus binaire à mettre avec nos corpus exemples. (mais pas sûr vue la release 0.7.5 en cours)

Requête TIGER

une requete TIGER peut retouner des noeuds terminaux (mots) et des noeuds non-terminaux NT.

Pour TXM, on peut récupérer les terminaux recouvert par les NT.

Dans le cas où il y a plusieurs NT, la requête peut retourner plusieurs match dont certains qui se recouvrent. L'utilisateur peut alors préciser le ou les noeuds qui l’intéresse en labellisant sa requête avec des variables “pivot<n>” avec n un numéro.

Dans les concordance Knic, les colonnes du tableau conteneur sont drivées par des labels “block<n>”.

Propriétés TIGER

Les Terminaux (T) de TIGERSearch sont les mots. Les non-terminaux de TIGERSearch sont les noeuds syntaxiques. Les NT et les T peuvent avoir des propriétés.

Les structures de CQP reposent sur les positions des tokens CQP, mais pas les NT de TIGERSearch.

problème : les outils de TXM s'appuient tous sur les séquences de positions de mots pour afficher des valeurs de propriétés et faire des liens entre les commandes

problème : l’accès aux propriétés des T ne pose pas de soucis, par contre pour les propriétés de NT il faut préciser la façon de remonter à l'information:

  • faut-il prendre la propriété du premier NT en remontant dans l'arbre ?
  • faut-il partir de la racine de l'arbre et prendre le premier NT ?
  • faut-il retourner toutes les valeurs de propriété des NT qui dominent un T ?
  • … [autres méthodes de récupération]

Alignement corpus CQP et corpus TIGER

L'import XML-TS s'assure que les token CQP et TIGER sont bien alignés. Pour s'assurer de l'alignement la commande “Import TIGERSearch annotations…” doit créer un registre de décalage de positions de mots.

problèmes :

  • le corpus CQP est + gros que le corpus TIGERSearch
  • le corpus TIGERSearch est + gros que le corpus CQP → le décalage peut être négatif
  • comment s'assurer de l'ordre des textes ?

algo :

  • pour tous les tokens des sentences du corpus TIGERSearch
  • récupérer la position dans le corpus TIGERSearch
  • récupérer la position dans le corpus CQP → on utilise d'identifiant du mot TIGERSearch
  • on sauvegarde dans une table la présence ou l'absence du mot dans le corpus CQP : 0 absence, 1 présence
    • la longueur de la table est le nombre de mot du corpus TIGERSearch
    • la table stockée dans le fichier “$TXM/corpora/$CORPUS/tiger/$CORPUS/presences.data”
  • on sauvegarde dans une table le décalage (entier négatif ou positif)
    • la longueur de la table est le nombre de mot du corpus TIGERSearch
    • la table stockée dans le fichier “$TXM/corpora/$CORPUS/tiger/$CORPUS/offsets.data”

Commande arbre syntaxique

État de la plateforme

Avancement dans l'élaboration de la solution

Solution

État de l'art

Éléments de solution

Prototypes

Version finale

Recette

Protocole de test

Alpha

Beta

État courant

Qui Quand Quoi

public/specs_ts.txt · Dernière modification : 09/12/2021 11:04 de slh@ens-lyon.fr