Extensions prototypes

Cette page liste les extensions prototypes et expérimentations qui n'ont pas forcement vocation à devenir des extensions définitives de TXM.

Import

Environnement SVN

BETA

Utilisation

Créer un repository local
  • Ouvrir la vue “SVN Repositories” : à partir du menu “Affichage > Vues > Autres”, sélectionner “SVN” puis “SVN Repositories”
  • Dans la nouvelle vue, faire clic droit et sélectionner “New > Repository…”
  • Une boite de dialogue s'ouvre
  • Indiquer le chemin local où le répository doit être créé
  • Bouton “OK”
Se connecter à un repository SVN
  • La première étape consiste à configurer le repository SVN
    • Ouvrir la vue “Explorateur de projet : à partir du menu “Affichage > Vues > Autres”, sélectionner “Général” puis “Explorateur de projet”
    • Dans la vue “Explorateur de projet”, faire clic droit et sélectionner “Nouveau > Projet…”
    • Dans la boite de dialogue ouverte, sélectionner “SVN > Projet depuis SVN”
    • Indiquer dans le champ “URL” la localisation URL du repository SVN (local: file: ou distant http:)
    • Bouton “Suivant”
    • Bouton “Terminer”
  • La fenêtre suivante sers à configurer le projet, faire “Terminer”
    • Si le repository ne contient pas de projet, il faut le configurer sinon c'est fini.
    • une nouvelle fenêtre à du s'ouvrir
    • Choisir le type de projet “General > Projet”
    • Bouton “Suivant”
    • Nommer le projet
    • Bouton “Terminer”

Annotation automatique

TreeTagger

Permet de créer et appliquer à la volée des modèles TreeTagger sur un corpus TXM.

Installation

Il faut avoir installé TreeTagger en amont.

Utilisation

2 commandes sont disponibles.

Train

Entraîne TreeTagger sur un corpus ou un sous-corpus pour créer un modèle.

  1. Sélectionner le corpus ou sous-corpus d’entraînement
  2. Sélectionner la commande “Train” du menu principal “TreeTagger”
  3. Dans le champ 'posProperty', indiquer la propriété de morphosyntaxe
  4. Dans le champ 'lemmaProperty', indiquer la propriété de lemme
  5. Dans le champ sentenceTag, indiquer étiquette de 'posProperty' marquant les fins de phrases
  6. Dans le champ 'lexique', indiquer éventuellement un lexique au format TreeTagger
  7. Dans le champ 'options', indiquer éventuellement des options supplémentaires pour TreeTagger.
    • les options utilisées par défaut sont :
      • -quiet
      • -st
      • -utf8
Apply

Applique un modèle TreeTagger sur un corpus TXM, le corpus est alors rechargé pour pouvoir utiliser directement les nouvelles valeurs.

  1. Sélectionner le corpus à annoter
  2. Sélectionner la commande “Apply” du menu principal “TreeTagger”
  3. Dans le champ 'posProperty', indiquer la propriété de morphosyntaxe à créer ou mettre à jour
  4. Dans le champ 'lemmaProperty', indiquer la propriété de lemme à créer ou mettre à jour
  5. Dans le champ 'options', indiquer éventuellement des options supplémentaires pour TreeTagger.
    • les options utilisées par défaut sont :
      • -token
      • -lemma
      • -sgml
      • -no-unknown
      • -quiet
      • -eos-tag <s>

A la fin, TXM recharge le corpus en utilisant le module d'import XTZ+CSV.

Commandes

TIGERSearch

Cette extension permet d'utiliser le moteur de recherche TIGERSearch depuis TXM.

Installation

Rien de particulier. Pour toute la partie de génération du corpus TIGERSearch, se fait en dehors de TXM (pour l'instant).

Utilisation

Import d'un fichier au format TIGER-XML

Pour pouvoir faire des requêtes TIGERSearch depuis TXM, que ce soit dans la version portail ou la version pour poste, il faut importer le corpus au format TIGER-XML dans TXM de la façon suivante :

  1. lancer le logiciel d'indexation TIGERRegistry sur le fichier TIGER-XML pour obtenir un corpus TIGERSearch nommé MYCORPUS
  2. depuis TXM, lancer le module d'import XML/w+CSV pour créer un corpus MYCORPUS :
    1. pointer vers un répertoire source contenant le fichier TIGER-XML
    2. utiliser comme paramètre front XSL la feuille d’adaptation suivante ts2xmlw.xsl
  3. une fois l'import terminé, modifier le corpus binaire MYCORPUS (situé dans $HOME/TXM/corpora) :
    1. ajouter le répertoire “tiger”, dans lequel :
      1. copier le répertoire du corpus TIGERSearch nommé MYCORPUS
      2. copier le fichier tigersearch.logprop (pour indiquer la bonne configuration à la librairie TIGERSearch utilisée)

Utilisation de ce corpus dans un portail TXM

Ce corpus peut être utilisé dans la version TXM pour poste avec cette extension, mais également avec la version portail. Pour cela vous devez :

  • exporter le corpus depuis TXM
  • télécharger le corpus binaire sur le serveur du portail
  • décompresser le corpus binaire
  • depuis le portail :
    • se connecter en tant qu'administrateur (compte admin)
    • ouvrir l'interface d'administration (bouton Administrer)
    • aller dans l'onglet Corpora
    • coller dans le champ 'Charger une base' [qui devrait en fait être 'Charger un corpus'] le chemin sur le serveur du répertoire du corpus binaire
    • cliquer sur 'Valider'
    • rafraîchir la page (F5)
    • le compte admin peut dors et déjà tester des requêtes TIGERSearch
    • pour les autres comptes, il faut ajouter la permission TsQueryPermission à leur profil

Utilisation du moteur de requêtes TIGERSearch

Pour ouvrir l'éditeur TIGERSearch dans TXM, il faut sélectionner le corpus et appeler la commande “TIGERSearch” depuis le menu contextuel de la vue Corpus, le menu principal “Outils” ou la barre d'outil (icone ).

L'extension TIGERSearch est inspirée directement de la commande TIGERSearch du portail TXM. Un tutoriel d'utilisation en anglais est disponible ici tutoriel HTML

Dictionary

Permet la création et la manipulation de dictionnaires dans TXM.

Installation

Rien de particulier.

Utilisation

Un jeu de commandes est disponible dans le menu principal “Dictionary” pour : créer, modifier, diagnostiquer et exporter des dictionnaires.

Liste des commandes pour :

  • Diagnostiquer :
    • List : affiche la liste des dictionnaires chargés et les noms de tables SQL correspondants
      • pas de paramètre
    • Print : affiche les N premières entrées d'un dictionnaires
      • name : nom du dictionnaire
      • n : nombre de lignes à afficher
    • Grep : affiche les entrées matchant une expression rationnelle pour une colonne donnée
      • name : nom du dictionnaire
      • col : colonne à tester
      • pattern : expression régulière du test
    • Query : exécute une requête SQL et affiche son résultat si il y en a un
      • attention à bien wrapper les noms de tables et noms d'attributs avec des ”
  • Créer & exporter :
    • Import : créé un dictionnaire à partir d'un fichier TSV
      • name : nom du dictionnaire
      • tsvfile : chemin du fichier TSV à lire
    • Import from Index : créé un dictionnaire à partir d'un index sélectionné dans la vue corpus et un fichier TSV correspondant
      • name : le nom du dictionnaire à créer
      • tsvFile : le fichier TSV qui sera créé
    • Copy : créé une copie d'un dictionnaire
      • orig : le nom du dictionnaire à copier
      • copy : le nom du dictionnaire à créer
    • Delete : supprimer un dictionnaire
      • name : le nom du dictionnaire à supprimer
    • Export : exporte la table dans un fichier TSV
      • name : le nom du dictionnaire à exporter
      • tsvFile : le fichier TSV qui sera créé
    • UniqSort : fait un index trié pour une colonne donnée
      • name : le nom du dictionnaire à lire
      • tsvFile : le fichier TSV qui sera créé
      • col : la colonne dont l'index sera fait
    • TreeTagger export : exporte le dictionnaire au format de lexique de TreeTagger
      • name : le nom du dictionnaire à lire
      • pos : le nom de la colonne codant la morphosyntaxe
      • lemma : le nom de la colonne codant le lemme
      • ignoredPosValues : valeur de pos pour lesquelles il faut ignorer l'entrée du dictionnaire
      • tsvFile : le fichier TSV qui sera créé
  • Modifier :
    • AddColumn : ajoute une colonne à un dictionnaire
      • name : nom du dictionnaire
      • col : colonne à créer
    • RenameColumn : renomme une colonne d'un dictionnaire
      • name : nom du dictionnaire
      • oldtype : nom de la colonne à renommer
      • newtype : nouveau nom de la colonne
    • RecodeColumn : recode les valeurs d'une colonne d'un dictionnaire en utilisant un fichier de conversion (une ligne par recodage, composée de la valeur d'origine et la valeur d'arrivée)
      • name : nom du dictionnaire
      • conversionFile : chemin vers le fichier de règles de conversion
        • une règle s'écrit sur une ligne de la forme suivante
          pattern	valeur
          pattern2	valeur2
      • type : colonne à tester
      • newType : colonne qui va recevoir le résultat de la conversion. si type = newType alors le contenu de la colonne type est mis à jour
      • mode : mode de gestion des règles absentes
        • copier : recopie la valeur de la colonne type dans newType
        • copier_dest : ne change pas la valeur de newType si une règle est absente
        • abandon : le recodage s’arrête dès qu'une règle est absente
      • oneMatch : si “true” alors il y a un recodage par entrée du dictionnaire
    • RemoveEntries : supprime les entrées qui matchent une expression rationnelle pour une colonne donnée
      • name : nom du dictionnaire
      • type : colonne à tester
      • pattern : expression régulière de sélection des entrées à supprimer
    • Merge : fusionne les lignes d'un dictionnaire
      • name : le dictionnaire qui recevra les nouvelles entrées
      • name2: le dictionnaire qui fourni les nouvelles entrées
      • joincols : liste des colonnes de jointure
      • otherscols : liste des autres colonnes
      • aggregates : liste des instructions d’agrégation pour chaque autre colonne. A choisir parmi : MAX, SUM, ARRAY_AGG, …(voir http://hsqldb.org/doc/2.0/guide/guide.pdf)
        • les listes otherscols et aggregates doivent faire la même longueur.

* InsertFrom : ajoute les entrées d'un dictionnaire dans un autre pas interfacé

CQL2LSA

Extension prototype produisant les données nécessaires au calcul LSA de la bibliothèque Topic Modeling Toolbox 1.4 de Matlab.

Voir Projet PG.

Cooccurrences

Extension prototype testant d'autres façons de calculer des cooccurrences dans TXM :

  • QueryCooccurrences : cooccurrences de CQL de deux listes de CQL. Les listes sont stockées dans des fichiers au format ”.properties” (encodage Unicode UTF-8)
    nom=cql
    nom2=cql2
  • AutoCooccurrences : cooccurrences de CQL entres elles : cette commande se lance à partir d'un résultat de l'extension QueryIndex. Le résultat est équivalent à appeler la commande QueryCooccurrence en utilisant deux fois le même fichier

Les deux commandes produisent un résultat qui s'affiche dans la vue Corpus, en sélectionnant le résultat on peut :

  • construire une AFC.
  • exporter au format “graphml” et ainsi visualiser le graphique avec Gephi (ou tout autre logiciel de visualisation de graph compatible avec le format graphml, par exemple le package R “igraph”)

QueryIndex

L'extension “QueryIndex” est un prototype d'exploitation de listes de CQL.

Aujourd'hui la commande Index dénombre les projections sur une ou plusieurs propriétés de mots des réalisations d'une requête CQL. La commande QueryIndex dénombre les réalisations d'une liste de requêtes CQL. Ce prototype doit nous aider à travailler sur l'intégration de ces deux comportements au sein de TXM, pour le calcul d'Index ou Cooccurrences, etc.

Utilisation

La commande se lance soit sur un Corpus soit sur une Partition sélectionnée dans la vue Corpus.

La commande ouvre alors un éditeur composé de 4 zones :

  1. une zone de formulaire pour ajouter des requêtes CQL. Elle est composée de :
    • un champ “Name” pour nommer la requête dans le tableau de résultats. Ce champ n'est pas obligatoire, si il est vide le nom de la requête sera la requête.
    • un champ “Requête” pour rentrer la requête
    • un bouton pour ajouter plusieurs requêtes d'un coup à l'aide d'un fichier ”.properties”
    • un bouton “Chercher” pour démarrer le calcul de la requête.
  2. une zone de navigation dans les résultats qui comprend :
    • un champ pour choisir le nombre de résultats à afficher par page
    • les boutons pour aller à la première, précédence, suivante ou dernière page de résultat
  3. une zone d'information sur le nombre de résultats obtenu
  4. une zone de résultat qui affiche une ligne par CQL entrée

Pour rentrer plus rapidement plusieurs requêtes CQL, il suffit de taper une requête sans remplir le champ du nom et de valider avec la touche “Entrée”. La CQL est ajoutée aux résultats et le curseur reste dans le champ de la requête, ainsi on peut taper directement la requête suivante.

Développeur

CheckTXM

Extension permettant de tester l'ensemble des fonctionnalités de la Toolbox à l'aide de deux commandes dans le menu “Aide” :

  • Test all commands : exécute toutes les fonctionnalité
  • Test all imports : exécute tous les modules d'import

Pour fonctionner cette extension a besoin du corpus d'exemple BROWN : http://sourceforge.net/projects/txm/files/corpora/brown/

public/extensions_alpha.txt · Dernière modification: 2018/01/04 13:13 par slh@ens-lyon.fr