Cette page liste les extensions prototypes et expérimentations qui n'ont pas forcement vocation à devenir des extensions définitives de TXM.
Permet de créer et appliquer à la volée des modèles TreeTagger sur un corpus TXM.
Il faut avoir installé TreeTagger en amont.
2 commandes sont disponibles.
Entraîne TreeTagger sur un corpus ou un sous-corpus pour créer un modèle.
Applique un modèle TreeTagger sur un corpus TXM, le corpus est alors rechargé pour pouvoir utiliser directement les nouvelles valeurs.
A la fin, TXM recharge le corpus en utilisant le module d'import XTZ+CSV.
Cette extension permet d'utiliser le moteur de recherche TIGERSearch depuis TXM.
Le module importe 2 configurations de sources de corpus XML-TS :
Le module créé un corpus CQP à partir des noeuds terminaux des fichiers XML-TS et un corpus TIGER (qui sera utilisé pour résoudre les requêtes TIGER).
Le corpus CQP créé contient :
On peut importer des annotations TIGER à partir d'un corpus binaire TIGER portant le même nom que le corpus CQP.
La couverture du corpus CQP se fait à l'aide des identifiants de mots partagés entre les corpus CQP et les identifiants “editionId” des noeuds T des fichiers XML-TS. L'ajout des annotations peut gérer le cas ou la couverture du corpus CQP est partielle. (Par exemple, si les ponctuations sont absentes dans la version TIGER).
Pour pouvoir faire des requêtes TIGERSearch depuis TXM, que ce soit dans la version portail ou la version pour poste, il faut importer le corpus au format TIGER-XML dans TXM de la façon suivante :
Pour ouvrir l'éditeur Arbres syntaxiques dans TXM, il faut sélectionner le corpus et appeler la commande “Arbres syntaxiques” depuis le menu contextuel de la vue Corpus, le menu principal “Outils” ou la barre d'outil (icone ).
La commande Arbres syntaxiques est inspirée directement de la commande TIGERSearch du portail TXM. Un tutoriel d'utilisation en anglais est disponible ici tutoriel HTML.
L'extension ajoute un moteur de résolution de requête “TIGER” aux outils Index et Concordance. La requête TIGER permet d'exprimer des sélections de token selon des critères syntaxiques des nœuds NT et T du corpus TIGER.
Si la requête ne contient pas de label alors, l'index et la concordance afficheront les mots dominés par l'ensemble des nœuds TIGER sélectionnés. Si la requête contient le label ”#pivot“ alors seul les mots dominés par le noeud ”#pivot“ seront affichés.
Les outils sont disponibles à partir du menu principal TXM : “TIGER > Outils”.
TIGER Summary
Paramètres :
Résultat :
FROSRCMFUD3 F 42
TIGER Index
Paramètres :
Exemple:
#pivot:[pos="VERB"] & #clause:[cat="root" & type="VFin"] & #clause >L #pivot & #clause >D #obj:[cat=("obj"|"ccomp"|"obj\:advneg"|"obj\:advmod")] & #clause >D #suj:[cat=("nsubj"|"csubj")] & #obj >L #objhead:[] & #suj >L #sujhead:[] & #sujhead .* #pivot & #pivot .* #objhead & #sujhead:[pos=("NOUN"|"PROPN")]
pos, mor, pos F FROSRCMFUD3 NOUN_VerbForm=Fin_NOUN 20 NOUN_VerbForm=Fin_VERB 4 NOUN_Tense=Past_VerbForm=Part_NOUN 4 PROPN_VerbForm=Fin_NOUN 3 NOUN_VerbForm=Inf_NOUN 2 PROPN_VerbForm=Fin_PROPN 2 PROPN_Tense=Past_VerbForm=Part_NOUN 1 NOUN_VerbForm=Fin_PROPN 1 PROPN_VerbForm=Inf_NOUN 1 NOUN_VerbForm=Inf_PRON 1 NOUN_VerbForm=Fin_ADV 1 PROPN_VerbForm=Fin_PRON 1 NOUN_VerbForm=Fin_PRON 1
TIGER Ratio
#pivot:[pos="VERB"] & #clause:[cat="root" & type="VFin"] & #clause >L #pivot & #clause >D #obj:[cat=("obj"|"ccomp"|"obj\:advneg"|"obj\:advmod")] & #clause >D #suj:[cat=("nsubj"|"csubj")] & #obj >L #objhead:[] & #suj >L #sujhead:[] & #sujhead .* #pivot & #pivot .* #objhead //SVO//
#pivot:[pos="VERB"] & #clause:[cat="root" & type="VFin"] & #clause >L #pivot & #clause >D #obj:[cat=("obj"|"ccomp"|"obj\:advneg"|"obj\:advmod")] & #clause >D #suj:[cat=("nsubj"|"csubj")] & #obj >L #objhead:[] & #suj >L #sujhead:[] & #sujhead .* #objhead & #objhead .* #pivot //SOV//
[FROSRCMFUD:1335] [FROSRCMFUD:3510] R = 1335 / 3510 = 0,38
TIGER SVO Summary
Paramètres :
Voir : https://groupes.renater.fr/wiki/txm-info/public/spec_exploitation_annotation/calculs_syntax_sov#v1
Permet la création et la manipulation de dictionnaires dans TXM.
Rien de particulier.
Un jeu de commandes est disponible dans le menu principal “Dictionary” pour : créer, modifier, diagnostiquer et exporter des dictionnaires.
Liste des commandes pour :
pattern valeur pattern2 valeur2
* InsertFrom : ajoute les entrées d'un dictionnaire dans un autre pas interfacé
Extension prototype produisant les données nécessaires au calcul LSA de la bibliothèque Topic Modeling Toolbox 1.4 de Matlab.
Voir Projet PG.
Extension prototype testant d'autres façons de calculer des cooccurrences dans TXM :
nom=cql nom2=cql2
Les deux commandes produisent un résultat qui s'affiche dans la vue Corpus, en sélectionnant le résultat on peut :
L'extension “QueryIndex” est un prototype d'exploitation de listes de CQL.
Aujourd'hui la commande Index dénombre les projections sur une ou plusieurs propriétés de mots des réalisations d'une requête CQL. La commande QueryIndex dénombre les réalisations d'une liste de requêtes CQL. Ce prototype doit nous aider à travailler sur l'intégration de ces deux comportements au sein de TXM, pour le calcul d'Index ou Cooccurrences, etc.
La commande se lance soit sur un Corpus soit sur une Partition sélectionnée dans la vue Corpus.
La commande ouvre alors un éditeur composé de 4 zones :
Pour rentrer plus rapidement plusieurs requêtes CQL, il suffit de taper une requête sans remplir le champ du nom et de valider avec la touche “Entrée”. La CQL est ajoutée aux résultats et le curseur reste dans le champ de la requête, ainsi on peut taper directement la requête suivante.
Extension permettant de tester l'ensemble des fonctionnalités de la Toolbox à l'aide de deux commandes dans le menu “Aide” :
Pour fonctionner cette extension a besoin du corpus d'exemple BROWN : http://sourceforge.net/projects/txm/files/corpora/brown/