Outils pour utilisateurs

Outils du site


public:macros

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:macros [2019/11/22 13:16]
slh@ens-lyon.fr [Excel2XML, ExcelDir2XML]
public:macros [2020/05/26 16:34] (Version actuelle)
slh@ens-lyon.fr [SetMatchingStrategy]
Ligne 1: Ligne 1:
-====== Documentation des Macros de TXM ======+====== Documentation des utilitaires livrés avec TXM (macros) ​======
  
-Les macros sont de petits utilitaires ​satellites de TXM échangeables et adaptables, ​ou bien des prototypes de futures fonctionnalités ​de TXM en cours de discussion et de finalisation,​ écrits ​en langage Groovy((langage de script empruntant les meilleurs traits de langage à Python, Ruby et Perl, et dont la sémantique repose entièrement sur celle du langage de robustesse industrielle Java - tout script Groovy est compilé à la volée vers la machine virtuelle Java afin d'​être exécuté. Ce langage donne donc accès à tous les composants Java de la plateforme TXM (toutes ses classes, ses commandes, ses modules d'​import,​ ses éditeurs, etc.) ainsi qu'à tous ses composants interfacés par Java comme CQP et R. )). Ce sont des petits fichiers texte d'​extension '​.groovy'​ pouvant être édités et modifiés à tout instant avant leur exécution avec n'​importe quel éditeur de texte, y compris l'​éditeur de texte intégré de TXM (accès direct par la commande '​Éditer'​ du menu contextuel de chaque macro dans la vue Macro). Des scripts Groovy utilitaires arrivant à maturité sont régulièrement transformés en macros de TXM. Et des macros arrivant à maturité sont régulièrement intégrées sous forme de commandes de base dans TXM.+TXM est livré avec des petits utilitaires échangeables et adaptables, ​qui prennent la forme de **macros** écrites ​en langage Groovy((langage de script empruntant les meilleurs traits de langage à Python, Ruby et Perl, et dont la sémantique repose entièrement sur celle du langage de robustesse industrielle Java - tout script Groovy est compilé à la volée vers la machine virtuelle Java afin d'​être exécuté. Ce langage donne donc accès à tous les composants Java de la plateforme TXM (toutes ses classes, ses commandes, ses modules d'​import,​ ses éditeurs, etc.) ainsi qu'à tous ses composants interfacés par Java comme CQP et R. )).
  
-Les macros ​utilisent un protocole simple pour ouvrir une boite de dialogue de saisie de leurs paramètres au lancementElles sont appelées depuis la vue '​Macro'​.+Des scripts Groovy utilitaires arrivant à maturité sont régulièrement transformés en macros de TXM pour devenir des utilitaires faciles d'​accèsEt des macros arrivant à maturité ​sont régulièrement intégrées sous forme de commandes de base dans TXM.
  
-Cette page documente les macros ​livrées ​avec TXM. Les versions les plus récentes ​de ces macros sont téléchargeables directement depuis Sourceforge : [[http://​sourceforge.net/​projects/​txm/​files/​software/​TXM%20macros]]+ 
 +===== Macros ===== 
 + 
 +Une macro est un petit fichier texte dont le nom se termine par '​-Macro'​ et ayant une extension '​.groovy'​. Le texte contenu dans ce fichier décrit des actions à exécuter pour réaliser les opérations du script. Les actions consistent à accéder à tous les outils et à toutes les données manipulées par TXM. Le fichier peut être édité et modifié à tout instant, avant son exécution, avec n'​importe quel éditeur de texte((y compris l'​éditeur de texte intégré de TXM - accès direct par la commande '​Éditer'​ du menu contextuel de chaque macro dans la vue Macro)). 
 + 
 +Les macros sont des scripts qui utilisent un protocole simple pour ouvrir au lancement une boite de dialogue de saisie interactive des paramètres. On peut accéder aux macros par le biais du menu '​Affichage > Vues > Macro' : une nouvelle vue '​Macro'​ s'​ouvre pour lister les répertoires de macros. On double-clique sur le nom d'une macro pour la lancer. Faire un clic droit sur le nom, puis menu '​Éditer'​ pour éditer son contenu dans l'​éditeur intégré de TXM. 
 + 
 +Voir le manuel utilisateur de TXM pour plus d'​informations sur l'​usage des macros dans TXM. 
 + 
 +===== Utilitaires ===== 
 + 
 +Cette page documente les macros ​considérées comme des utilitaires livrés ​avec TXM. Les versions les plus à jour de ces macros sont téléchargeables directement depuis Sourceforge : [[http://​sourceforge.net/​projects/​txm/​files/​software/​TXM%20macros]]
  
 Vous pouvez partager vos propres macros et leur documentation avec la communauté des utilisateurs de TXM par le biais de cette page (vous devez être inscrit à la liste de diffusion '​txm-users'​ pour cela). Vous pouvez partager vos propres macros et leur documentation avec la communauté des utilisateurs de TXM par le biais de cette page (vous devez être inscrit à la liste de diffusion '​txm-users'​ pour cela).
 +
 +===== Documentation =====
 +
 +La documentation est organisée en **thématiques** :
 +  * [[#​preparation_des_fichiers_sources_d_un_corpus_source_workbench|Préparation des fichiers sources d'un corpus (Source Workbench)]] : pour tout ce qui concerne la manipulation et l'​enrichissement des fichiers sources d'un corpus dans divers formats (TXT, XML, TEI)
 +  * [[#​reglage_des_editions_de_textes|Réglage des Éditions de Textes]] : pour manipuler les éditions des textes d'un corpus
 +  * [[#​export|Export]] : pour réaliser des exportations de données spécifiques
 +  * [[#​variantes_de_commandes_txm|Variantes de commandes TXM]] : pour des proto-commandes prototypes de TXM
 +  * [[#​appels_repetitifs_de_commandes_txm|Appels répétitifs de commandes TXM]] : pour réaliser par script des opérations laborieuses sans manipulations de l'​interface utilisateur
 +  * [[#​moteur_cqp|Moteur CQP]] : pour ce qui a trait au moteur de recherche plein texte de TXM
 +  * [[#​scripts_r|Scripts R]] : pour ce qui a trait au pilotage de R par TXM
 +  * [[#​statistiques_complementaires|Statistiques complémentaires]] : pour des calculs statistiques complémentaires des outils standards de TXM
 +  * [[#​cartographie|Cartographie]] : pour la manipulation (prototype) de données géographiques
 +  * [[#​multimodalite_multimedia|Multimodalité & Multimédia]] : pour la gestion de transcriptions d'​enregistrements audio ou vidéo
 +  * [[#​annotation_externe_de_corpus|Annotation externe de corpus]] : pour l'​export / import d'​annotations de mots réalisées dans des outils externes à TXM (tableurs Excel ou Calc)
 +  * [[#​macros1|Macros]] : pour manipuler les macros elles-mêmes
 +  * [[#​debug|Debug]] : divers outils de diagnostics (quelle version de Java est utilisée par TXM ? quelle version de R ? etc.)
  
 ====== Préparation des fichiers sources d'un corpus (Source Workbench) ====== ====== Préparation des fichiers sources d'un corpus (Source Workbench) ======
Ligne 491: Ligne 519:
  
 **Remarque** : le répertoire résultat peut être importé dans TXM en l'​indiquant comme répertoire source du module d'​**import XML/​w+CSV**. **Remarque** : le répertoire résultat peut être importé dans TXM en l'​indiquant comme répertoire source du module d'​**import XML/​w+CSV**.
 +
 +==== CQP2XML ====
 +
 +Transforme tous les fichiers d'un répertoire ayant une extension '​.cqp',​ au format source du moteur CQP, en fichiers XML compatibles avec l'​import dans TXM avec un module XML. Les fichiers XML sont déposés dans un sous-répertoire résultat '​out'​ avec les mêmes noms mais avec une extension '​.xml'​.
 +
 +La macro encadre le contenu du fichier avec deux balises <text id="​nom du fichier sans extension">​ ... </​text>​.
 +
 +**Paramètres**
 +  * inputDirectory : répertoire des fichiers à transformer
 +  * encoding : système d'​encodage des caractères des fichiers texte (par défaut : Unicode UTF-8)
 +  * separator : caractère séparateur de colonnes (par défaut la tabulation : '​\t'​)
 +  * columns : liste des noms de colonnes des lignes de mots qui vont correspondre à des propriétés de mots, séparés par une virgule. La colonne correspondant à la forme graphique du mot doit s'​appeler '​word'​. (par défaut : word,​pos,​lemma)
 +
 +**Import dans TXM**
 +
 +Le répertoire résultat peut être importé dans TXM avec le module d'​**import XML/w+CSV** en réglant les paramètres de la façon suivante :
 +  * décocher '​Annoter le corpus'​ (sauf si vous souhaitez ajouter des propriétés supplémentaires issues de TreeTagger)
 +  * choisir la bonne langue pour les tris lexicographiques
 +  * décocher '​Tokenization'​ car les mots sont déjà encodés dans les textes
  
 ==== Taltac2XML ==== ==== Taltac2XML ====
Ligne 1145: Ligne 1192:
 ==== SetMatchingStrategy ==== ==== SetMatchingStrategy ====
  
-Permet de changer ​la stratégie de résolution des opérateurs ?, *, + sur les occurrences ​du langage de requêtes CQL au cours d'une session de travail. ​Par exemple, pour la requête((d'​après The CQP Query Language Tutorial, (CWB version 2.2.b90), Stefan Evert, 10 July 2005)) : +Change ​la stratégie de résolution ​du moteur CQP des opérateurs ?, *, + appliqués aux occurrencesau cours d'une session de travail.
-<​code>​[enpos="​DET"​]?​ [enpos="​ADJ"​]* [enpos="​NN"​] ([enpos="​PREP"​] [enpos="​DET"​]?​ [enpos="​ADJ"​]* [enpos="​NN"​])*</​code>​+
  
-Avec le texte suivant ​à interroger ​:+Par exemple : 
 +  * pour l'​interrogation du texte suivant :
 <​code> ​   the old book on the table in the room</​code>​ <​code> ​   the old book on the table in the room</​code>​
 +  * la requête CQL((d'​après The CQP Query Language Tutorial, (CWB version 2.2.b90), Stefan Evert, 10 July 2005)) :
 +<​code>​[enpos="​DET"​]?​ [enpos="​ADJ"​]* [enpos="​NN"​] ([enpos="​PREP"​] [enpos="​DET"​]?​ [enpos="​ADJ"​]* [enpos="​NN"​])*</​code>​
  
-  * pour la stratégie ​'shortest' le résultat est le suivant (matches)+Retourne, selon la stratégie ​utilisée : 
 +  * **shortest** : les résultats suivants
 <​code>​ <​code>​
 r1=         book r1=         book
Ligne 1157: Ligne 1207:
 r3=                                  room r3=                                  room
 </​code>​ </​code>​
-  * pour la stratégie 'longest'((équivalent de la stratégie '​greedy'​ des expressions régulières - voir [[https://​docs.oracle.com/​javase/​tutorial/​essential/​regex/​quant.html]])) le résultat ​est le suivant ​ (1 match)+  * **longest**((équivalent de la stratégie '​greedy'​ des expressions régulières - voir [[https://​docs.oracle.com/​javase/​tutorial/​essential/​regex/​quant.html]])) le résultat suivant ​:
 <​code>​ <​code>​
 r1= the old book on the table in the room r1= the old book on the table in the room
 </​code>​ </​code>​
-  * pour la stratégie 'standard'((équivalent de la stratégie '​reluctant'​ des expressions régulières - voir [[https://​docs.oracle.com/​javase/​tutorial/​essential/​regex/​quant.html]])) ​le résultat est le suivant ​ (matches)+  * **standard**((équivalent de la stratégie '​reluctant'​ des expressions régulières - voir [[https://​docs.oracle.com/​javase/​tutorial/​essential/​regex/​quant.html]])) ​: les résultats suivants
 <​code>​ <​code>​
 r1= the old book r1= the old book
Ligne 1167: Ligne 1217:
 r3=                              the room r3=                              the room
 </​code>​ </​code>​
-  * pour la stratégie 'traditional' le résultat est le suivant ​ (matches recouvrants)+  * **traditional** : les résultats suivants
 <​code>​ <​code>​
 r1= the old book r1= the old book
public/macros.1574424992.txt.gz · Dernière modification: 2019/11/22 13:16 par slh@ens-lyon.fr