Outils pour utilisateurs

Outils du site


public:extensions_alpha

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:extensions_alpha [2019/07/16 16:31]
matthieu.decorde@ens-lyon.fr [TIGERSearch]
public:extensions_alpha [2019/11/05 14:09] (Version actuelle)
matthieu.decorde@ens-lyon.fr [TIGERSearch]
Ligne 93: Ligne 93:
 === Utilisation === === Utilisation ===
  
-== Préparation du corpus ==+== Import d'​un ​corpus ​XML-TS ​==
  
-** Avec le module d'​import ​XML-TS **+Le module importe 2 configurations de sources de corpus XML-TS : 
 +  ​1 fichier main.xml et plusieurs fichiers subcorpus.xml. Il est disponible à coté des autres modules dans le menu "​Fichier > Import > XML-TS". Le répertoire des sources doit contenir un fichier main.xml et autant de fichiers XML de sous-corpus que référencés dans celui-ci. 
 +  ​1 fichier XML-TS complet sans fichier subcorpus ; le fichier XML-TXM doit alors porter le même nom que le répertoire des sources : 
 +    ​exemple : le répertoire des sources "​moncorpus"​ doit contenir le fichier "​moncorpus.xml"​
  
-Le module importe un corpus XML-TS (TIGER XML) au format main/master + subcorpus. Il est disponible à coté des autres modules dans le menu "​Fichier > Import > XML-TS"​. +Le module créé un corpus CQP à partir des noeuds terminaux des fichiers XML-TS et un corpus TIGER (qui sera utilisé ​pour résoudre les requêtes TIGER). ​
- +
-Le module créé un corpus CQP à partir des noeuds terminaux des fichiers XML-TS et un corpus TIGER (qui sera utiliser ​pour résoudre les requêtes TIGER). ​+
  
 Le corpus CQP créé contient : Le corpus CQP créé contient :
-  * un "​text"​ par fichier subcorpus du XML-TS dont l'​identifiant est extrait du fichier master.+  * un "​text"​ par fichier subcorpus du XML-TS dont l'​identifiant est extrait du fichier master 
 +    * si un fichier metadata est présent dans le répertoire des sources, les metadonnées sont injectées dans le corpus.
   * une structure "​s"​ par sentence TIGER   * une structure "​s"​ par sentence TIGER
-  * un mot par noeuds terminal dont les propriétés sont extraites directement des features des noeuds+  * un mot par noeuds terminal dont les propriétés sont extraites directement des features des noeuds ​terminaux (T)
  
-** A partir d'un corpus TIGER **+== Import d'​annotations TIGER à partir d'un corpus TIGER ==
  
 On peut importer des annotations TIGER à partir d'un corpus binaire TIGER portant le même nom que le corpus CQP. On peut importer des annotations TIGER à partir d'un corpus binaire TIGER portant le même nom que le corpus CQP.
Ligne 112: Ligne 114:
 La couverture du corpus CQP se fait à l'aide des identifiants de mots partagés entre les corpus CQP et les identifiants "​editionId"​ des noeuds T des fichiers XML-TS. L'​ajout des annotations peut gérer le cas ou la couverture du corpus CQP est partielle. (Par exemple, si les ponctuations sont absentes dans la version TIGER). La couverture du corpus CQP se fait à l'aide des identifiants de mots partagés entre les corpus CQP et les identifiants "​editionId"​ des noeuds T des fichiers XML-TS. L'​ajout des annotations peut gérer le cas ou la couverture du corpus CQP est partielle. (Par exemple, si les ponctuations sont absentes dans la version TIGER).
  
-** Manuelle - obsolète **+== Procédure d'​import manuel d'​annotations TIGER pour le portail (version < 0.6.2) ==
  
 Pour pouvoir faire des requêtes TIGERSearch depuis TXM, que ce soit dans la version portail ou la version pour poste, il faut importer le corpus au format TIGER-XML dans TXM de la façon suivante : Pour pouvoir faire des requêtes TIGERSearch depuis TXM, que ce soit dans la version portail ou la version pour poste, il faut importer le corpus au format TIGER-XML dans TXM de la façon suivante :
Ligne 125: Ligne 127:
  
 <​note>​ <​note>​
-**Utilisation de ce corpus dans un portail TXM** 
  
 Ce corpus peut être utilisé dans la version TXM pour poste avec cette extension, Ce corpus peut être utilisé dans la version TXM pour poste avec cette extension,
Ligne 143: Ligne 144:
 </​note>​ </​note>​
  
-== Requêtes TIGERSearch ​==+== Arbres syntaxiques ​==
  
-Pour ouvrir l'​éditeur ​TIGERSearch ​dans TXM, il faut sélectionner le corpus et appeler la commande "TIGERSearch" depuis le menu contextuel de la vue Corpus, le menu principal "​Outils"​ ou la barre d'​outil (icone {{http://​portal.textometrie.org/​demo/​images/​icons/​functions/​TS.png|}}).+Pour ouvrir l'​éditeur ​Arbres syntaxiques ​dans TXM, il faut sélectionner le corpus et appeler la commande "Arbres syntaxiques" depuis le menu contextuel de la vue Corpus, le menu principal "​Outils"​ ou la barre d'​outil (icone {{http://​portal.textometrie.org/​demo/​images/​icons/​functions/​TS.png|}}).
  
-L'​extension TIGERSearch ​est inspirée directement de la commande TIGERSearch du [[http://​portal.textometrie.org/​demo|portail TXM]]. Un tutoriel d'​utilisation en anglais est disponible ici [[http://​txm.sourceforge.net/​doc/​tutorial/​TXM-portal-KNIC-tutorial-EN/​document.html|tutoriel HTML]]+La commande Arbres syntaxiques ​est inspirée directement de la commande TIGERSearch du [[http://​portal.textometrie.org/​demo|portail TXM]]. Un tutoriel d'​utilisation en anglais est disponible ici [[http://​txm.sourceforge.net/​doc/​tutorial/​TXM-portal-KNIC-tutorial-EN/​document.html|tutoriel HTML]].
  
 == Index et Concordance == == Index et Concordance ==
  
-L'​extension ajoute un moteur de résolution de requête "​TIGER"​ aux outils Index et Concordance. La requête TIGER permet d'​exprimer des sélections de token selon des critères syntaxiques.+L'​extension ajoute un moteur de résolution de requête "​TIGER"​ aux outils Index et Concordance. La requête TIGER permet d'​exprimer des sélections de token selon des critères syntaxiques ​des nœuds NT et T du corpus TIGER.
  
-Si la requête ne contient pas de label alors, l'​index et la concordance afficheront les mots recouvert ​par l'essemble ​des noeuds ​TIGER sélectionnés. Si la requête contient le label "#​pivot"​ alors seul les mots recouverts ​par le noeud "#​pivot"​ seront affichés.+Si la requête ne contient pas de label alors, l'​index et la concordance afficheront les mots dominés ​par l'ensemble ​des nœuds ​TIGER sélectionnés. Si la requête contient le label "#​pivot"​ alors seul les mots dominés ​par le noeud "#​pivot"​ seront affichés.
  
-== Macros ​==+== Outils ​==
  
 +Les outils sont disponibles à partir du menu principal TXM : "TIGER > Outils"​.
 +
 +** TIGER Summary **
 +
 +Paramètres : 
 +  * tiger_query : "​[]"​ par défaut
 +  * count_subgraph : "​true"​ par défaut
 +
 +Résultat : <​code>​ FROSRCMFUD3
 +F 42</​code>​
 +
 +** TIGER Index **
 +
 +Paramètres : 
 +  * //​tiger_query//​ : "​[]"​ par défaut
 +  * //labels// : liste des noeuds labelisés
 +  * //​properties//​ : liste des propriétés des noeuds labelisés
 +  * //​count_subgraph//​ : "​true"​ par défaut
 +  * //​sort_column//​ : "​freq"​ (défaut) ou "​labels"​
 +  * //​max_lines//​ : -1 (défaut, pas de limite)
 +
 +Exemple:
 +  * Paramètres : 
 +    * tiger_query : <​code>#​pivot:​[pos="​VERB"​] ​
 +& #​clause:​[cat="​root"​ & type="​VFin"​]
 +& #clause >L #​pivot ​
 +& #clause >D #​obj:​[cat=("​obj"​|"​ccomp"​|"​obj\:​advneg"​|"​obj\:​advmod"​)]
 +& #clause >D #​suj:​[cat=("​nsubj"​|"​csubj"​)]
 +& #obj    >L #​objhead:​[] ​ & #suj    >L #sujhead:[]
 +& #sujhead .* #​pivot ​  & #​pivot ​  .* #objhead
 +& #​sujhead:​[pos=("​NOUN"​|"​PROPN"​)]</​code>​
 +    * labels : sujhead,​pivot,​objhead
 +    * properties : pos,mor,pos
 +    * count_subgraph : "​true"​
 +    * sort_column : "​freq"​
 +    * max_lines : -1
 +  * Résultat : <​code>​pos,​ mor, pos F FROSRCMFUD3
 +NOUN_VerbForm=Fin_NOUN 20
 +NOUN_VerbForm=Fin_VERB 4
 +NOUN_Tense=Past_VerbForm=Part_NOUN 4
 +PROPN_VerbForm=Fin_NOUN 3
 +NOUN_VerbForm=Inf_NOUN 2
 +PROPN_VerbForm=Fin_PROPN 2
 +PROPN_Tense=Past_VerbForm=Part_NOUN 1
 +NOUN_VerbForm=Fin_PROPN 1
 +PROPN_VerbForm=Inf_NOUN 1
 +NOUN_VerbForm=Inf_PRON 1
 +NOUN_VerbForm=Fin_ADV 1
 +PROPN_VerbForm=Fin_PRON 1
 +NOUN_VerbForm=Fin_PRON 1</​code>​
 +
 +** TIGER Ratio **
 +
 +  * Paramètres :
 +    * //​tiger_query_A//​
 +    * //​tiger_query_B//​
 +    * //​count_subgraph//​
 +  * Exemple :
 +    * //​tiger_query_A//​ : <​code>#​pivot:​[pos="​VERB"​]
 +& #​clause:​[cat="​root"​ & type="​VFin"​]
 +& #clause >L #pivot
 +& #clause >D #​obj:​[cat=("​obj"​|"​ccomp"​|"​obj\:​advneg"​|"​obj\:​advmod"​)] ​
 +& #clause >D #​suj:​[cat=("​nsubj"​|"​csubj"​)] ​
 +& #obj    >L #​objhead:​[] ​
 +& #suj    >L #​sujhead:​[] ​
 +& #sujhead .* #​pivot ​  & #​pivot ​  .* #objhead //​SVO//</​code>​
 +    * //​tiger_query_B//​ : <​code>#​pivot:​[pos="​VERB"​]
 +& #​clause:​[cat="​root"​ & type="​VFin"​]
 +& #clause >L #pivot
 +& #clause >D #​obj:​[cat=("​obj"​|"​ccomp"​|"​obj\:​advneg"​|"​obj\:​advmod"​)] ​
 +& #clause >D #​suj:​[cat=("​nsubj"​|"​csubj"​)] ​
 +& #obj    >L #​objhead:​[] ​
 +& #suj    >L #​sujhead:​[] ​
 +& #sujhead .* #objhead & #objhead .* #pivot //​SOV//</​code>​
 +  * résultat : <​code>​[FROSRCMFUD:​1335]
 +[FROSRCMFUD:​3510]
 +R = 1335 / 3510 = 0,​38</​code>​
 +
 +** TIGER SVO Summary **
 +
 +Paramètres :
 +  * //​output_file//​ : fichier ODS de sortie
 +  * //​input_queries_table//​ : fichier de tableau ODS, excel, tsv des compléments de requêtes
 +  * //​count_sub_matches//​ : 
 +  * //​sujet_value//​ : %%[cat=("​nsubj"​|"​csubj"​)]%% (par défaut)
 +  * //​object_value//​ : %%[cat=("​obj"​|"​ccomp"​|"​obj\\:​advneg"​|"​obj\\:​advmod"​)]%% (par défaut)
 +  * clauses : types de propositions décomptées
 +    * //​clauses_counts_main//​ : true  (par défaut)
 +    * //​clauses_counts_subordinate//​ : false
 +    * //​clauses_counts_inserted//​ : false
 +  * //​output_queries//​ : affiche les colonnes de requêtes TIGER utilisées
 Voir : [[https://​groupes.renater.fr/​wiki/​txm-info/​public/​spec_exploitation_annotation/​calculs_syntax_sov#​v1]] Voir : [[https://​groupes.renater.fr/​wiki/​txm-info/​public/​spec_exploitation_annotation/​calculs_syntax_sov#​v1]]
 +  ​
 +
 +
 ==== Dictionary ==== ==== Dictionary ====
  
public/extensions_alpha.1563287462.txt.gz · Dernière modification: 2019/07/16 16:31 par matthieu.decorde@ens-lyon.fr