Documentation des Extensions

Cette page recense et documente les extensions de TXM ainsi que leur niveau de publication (Beta, Stable).

Vous pouvez partager la documentation de vos propres extensions avec la communauté des utilisateurs de TXM dans cette page.

Pour rappel, l'installation d'une extension TXM se fait en appelant la commande “Fichier > Ajouter une extension”. Voir la section Installer une extension dans TXM du manuel pour plus de détails.

Installation

TreeTagger installer

Cette extension installe le logiciel TreeTagger sur votre machine.

Lors du redémarrage de TXM, l'extension installe par ailleurs les deux fichiers modèles de langue français et anglais (fr.par et en.par) dans un répertoire de fichiers modèles sauf si elle détecte la présence de réglages TreeTagger dans TXM qui indiquent l'existence d'un répertoire de fichiers modèle déjà utilisé. Dans ce cas elle propose d'utiliser ce répertoire tel quel (c'est-à-dire de réutiliser les fichiers modèles qui s'y trouvent).

Elle automatise et remplace les manipulations à réaliser manuellement dans le Tutoriel d'installation de TreeTagger pour TXM existant. C'est-à-dire que si vous installez cette extension il n'est plus nécessaire de faire les opérations indiquées dans le tutoriel d'installation de TreeTagger (téléchargements, renommages, création de répertoire, paramétrages, etc.).

Installation de fichiers modèles de langue supplémentaires

L'extension n'aide pas encore à installer des fichiers modèles de langue supplémentaires.

Donc pour installer des fichiers modèle supplémentaire il faut continuer à suivre les étapes 4, 5 et 6 du Tutoriel d'installation de TreeTagger pour TXM.

Pour connaître le répertoire stockant les fichiers modèles où déposer les nouveaux fichiers modèle, il suffit d'aller à la page de préférences “TXM > Avancé > TAL > TreeTagger” et de cliquer sur le bouton “Ouvrir le répertoire des fichiers modèles”. L'explorateur de fichiers du système s'ouvrira alors directement dans ce répertoire. Vous n'avez plus qu'à y glisser vos nouveaux fichiers modèles.

Annotation

Annotation URS

Voir la section Annotation avec un modèle Unité-Relation-Schéma (URS) au fil du texte du manuel de TXM pour l'installation et l'utilisation de cette extension.

Visualisation de données

WordCloud

STABLE

L'extension WordCloud ajoute une commande TXM qui construit une représentation graphique d'index sous la forme d'un nuage de mots.

Installation

Cette extension installe le package “wordcloud” ainsi que toutes ses dépendances R. Plus de détails sur la page du package wordcloud sur R-cran.

Utilisation

1) Sélectionner un corpus, un Index ou un Lexique dans la vue Corpus.

2) Lancer la commande WordCloud : une nouvelle fenêtre s'ouvre avec un nuage de mots construit avec les paramètres par défaut.

Paramètres

  • N words : Nombre de mots à afficher dans le nuage
  • Fmin : Fréquence minimale des mots pris en compte
  • % of rotated labels: Pourcentage des mots orientés à 90°
  • Randomize : le placement des mots sera aléatoire (non par défaut)

Note : appliquée à un corpus, la commande se basera sur un Index des mots pleins pour les langues FR et EN (en utilisant des requêtes adaptées aux modèles TreeTagger correspondants) et sur un Index total pour les autres langues.

Difficultés d'installation

En cas d'échec d'installation automatique des packages “RColorBrewer” ou “wordcloud” dans R, il faut installer soi-même ces packages dans le R utilisé par TXM.

Étape 1 : Lancer R

  • Sous Windows, lancer le logiciel “C:\Program Files\TXM\R\bin\R.exe” (remplacer “C:\Program Files\” par le chemin exact du dossier d'installation de TXM si ce n'est pas le chemin d'installation par défaut) ;
  • Sous Linux et Mac OS X lancer le R du système dans un terminal.

*Étape 2 : installer le package R 'wordcloud'

  • exécuter la commande
    install.packages("wordcloud", dependencies=TRUE, repos="http://cran.rstudio.com");
  • Si R n'arrive pas à résoudre la dépendance au package “RColorBrewer”, alors il faut exécuter la commande supplémentaire
    install.packages("RColorBrewer", dependencies=TRUE, repos="http://cran.rstudio.com");
    puis ré-exécuter la commande précédente.
  • Si R n'arrive pas à résoudre la dépendance au package “Rcpp”, alors il faut exécuter la commande supplémentaire
    install.packages("Rcpp", dependencies=TRUE, repos="http://cran.rstudio.com");
    puis ré-exécuter la commande précédente.

Si l'installation de ces packages n'aboutit pas sous Linux ou Mac OS X, vous pouvez tenter la procédure suivante.

a) Vérifier la version de R et la date de livraison de R, première ligne du résultat de la commande suivante, dans un terminal :

R --version
exemple : R version 2.8.1 (2008-12-22)

b) Si wordcloud ne peut pas être installé dans une version de R donnée, essayer de l'installer depuis les sources du package.

b.1) Pour Mac OS X et Windows, suivre les instructions suivantes de préparation de R pour pouvoir installer des packages à partir de leurs sources : http://cran.r-project.org/doc/manuals/R-admin.html#Installing-packages

Pour R 2.14, il faut :

b.2a) Exécuter dans un terminal :

wget http://cran.r-project.org/src/contrib/Archive/wordcloud/wordcloud_1.4.tar.gz
sudo R CMD INSTALL wordcloud_1.4.tar.gz
ou bien b.2b)

install.packages("/répertoire/de/téléchargement/wordcloud_1.4.tar.gz")

Pour les autres versions de R, il faut utiliser une version du package wordcloud dont la date de publication est la plus proche possible de la date de livraison du R installé, voir http://cran.r-project.org/src/contrib/Archive/wordcloud

Multimédia

Media Player

BETA

L'extension “Media Player” permet de jouer depuis une concordance TXM un extrait de son ou de vidéo correspondant à l'intégralité du tour de parole (<sp>) d'une transcription où le mot pivot d'une ligne de concordance a été prononcé. Il s'agit donc d'un retour au texte adapté aux corpus multimédia complémentaire au retour au texte classique (de la transcription).

Installation

Installer le logiciel VLC : Site officiel de VLC.

Attention : l'extension ne fonctionne pas sous Linux 32bit (bug lié aux scripts Lua de VLC 32bit).

Utilisation

Préparation d'un corpus quelconque

Pour que le plugin fonctionne, il faut :

  • A) que le corpus de transcriptions ai été importé avec le module d'import 'XML Transcriber + CSV'
  • B) qu'à chaque transcription corresponde un fichier d'enregistrement audio (par exemple au format mp3) ou vidéo (par exemple au format mp4) déposé dans le répertoire 'media' du corpus binaire avec le nom du fichier de transcription. Exemple, pour la transcription 'transcription01.trs' correspond le fichier audio 'transcription01.mp3'

La procédure de préparation du corpus est donc la suivante :

  1. importer le corpus (par exemple 'moncorpus') avec le module d'import 'XML Transcriber +CSV'
    L'import crée le dossier <DOSSIER UTILISATEUR>/corpora/MONCORPUS
  2. créer un dossier 'media' dans le répertoire du corpus binaire (par exemple : <DOSSIER UTILISATEUR>/TXM/corpora/MONCORPUS/media)
  3. copier les fichiers audio ou vidéo dans le dossier 'media' :
    • les fichiers audio peuvent être d'extension : mp3, ogg et wav ;
    • les fichiers vidéo peuvent être d'extension : mp4, avi, mov
      (la liste évolue selon les développements de VLC et l'intégration dans TXM).
    • l'extension des fichiers média doit être en minuscule.
    • il doit y avoir un fichier audio ou vidéo par transcription. Par exemple, si un corpus est composé de trois transcriptions nommées 'trans1.trs', 'trans2.trs' et 'trans3.trs' alors il faut copier dans le répertoire 'media' trois fichiers audio nommés 'trans1.mp3', 'trans2.mp3' et 'trans3.mp3'.
Corpus exemple prêt à l'emploi
  • P1S8 4 avril 2014, transcription et enregistrement d'un cours de physique en Lycée (cours sur la lumière) :
    • charger 'p1s8-bin.txm' dans TXM
    • ajouter dans le répertoire 'media' du corpus binaire le fichier 'P1S8 30 avril 2014.mp4'
    • ou bien le fichier 'P1S8 30 avril 2014.mp3' si on ne souhaite tester que l'audio

Pour des raisons de protection de la vie privée (image, voix, nom et prénom, etc.), seule la partie située entre 0h 30m 26s et 0h 31m 39s du cours est visible et audible et la transcription est entièrement anonymisée. Pour faire un retour à la vidéo utile, il faut donc faire une concordance de mots prononcés dans cet intervalle. Par exemple :

  • Concordance de 'néon'
  • faire un retour au média depuis la 6ième ligne :
    P1S8 30 avril 2014, P, 0:30:49   si vous faites taper la lumière d'un   néon   sur un CD vous ne verrez pas toutes les couleurs de l'
Lecture de la vidéo ou de l'audio

Le retour à l'audio/vidéo est opéré soit :

  • depuis le menu contextuel d'une ligne de concordance (clic droit) avec la commande “Play the media”
  • en sélectionnant une ligne de concordance et en tapant le raccourcis clavier 'CTRL - SHIFT - M'

Dans les deux cas, le passage contenant le pivot de la ligne est joué dans le lecteur multimédia intégré à TXM.

Si le retour à l'audio/Vidéo ne fonctionne pas, un message de diagnostic s'affiche dans la console de TXM.

L'extension permet également de jouer un fichier vidéo ou audio directement dans TXM, indépendamment d'un corpus, avec la commande 'Fichier / Ouvrir media' (utile pour vérifier le bon fonctionnement de VLC).

Interface du lecteur multimedia

  • Pause : suspendre la lecture / reprendre la lecture
  • 08:63 : moment de la lecture (minutes:secondes)
  • [ \/ \/ \/ ] : curseurs de lecture (début de l'empan joué, moment de la lecture, fin de l'empan joué)
  • Répéter [] : reprendre la lecture à la fin de l'empan
  • Taux : vitesse de lecture
  • Vol : volume de lecture

Préférences

A) Répéter la lecture : oui/non

B) La page de préférences du lecteur multimédia propose 2 façons de construire un empan temporel du média à jouer (prototype d'empan) :

  • par propriétés de structures
  • par propriétés de mots

Par propriétés de structures

Par défaut, l'empan est construit à partir des propriétés de mot du pivot suivantes :

  • borne de départ : sp_starttime
  • borne de fin : sp_endtime

(ces informations sont associées aux mots automatiquement par le module d'import XML Transcriber +CSV)

Par propriétés de mots

Par défaut, l'empan est construit à partir de la propriété “time” du premier mot du contexte gauche et du dernier mot du contexte droit de la ligne de concordance. C'est donc la taille du contexte de la concordance qui définit la taille de l'empan temporel à jouer.

Éditeurs

XMLEditor

BETA

Cette extension permet d'éditer des fichiers XML avec aide à la lecture et à l'écriture.

Utilisation

Un fichier XML s'ouvre à l'aide de la commande “Open XML file…” du menu fichier.

Documentation complète : http://sourceforge.net/projects/txm/files/documentation/Manuel%20editeur%20XML%20de%20TXM.pdf/download

PracticallyMacro

BETA

Cette extension permet d'enregistrer une séquence d'appuis sur les touches du clavier et de la souris et de la rejouer.

Utilisation

Dans un éditeur de texte de TXM.

Enregistrement :

  1. lancer l'enregistrement :
    • avec le bouton d'enregistrement “rond violet” de la barre d'outils
    • ou avec le raccourcis clavier Ctrl-Alt-R
  2. taper du texte et utiliser des raccourcis clavier (déplacer le curseur, copier/coller, etc.)
  3. stopper l'enregistrement avec le même bouton “rond violet”

Exécuter la macro enregistrée :

  • avec le bouton de lecture “flèche bleue” de la barre d'outils
  • ou avec le raccourcis clavier Ctrl-Alt-P

Paramètres

Aucun

Préparation et analyse de corpus paléographiques

Extension Oriflamms

Cette extension a été développée dans le cadre du projet ANR Oriflamms http://oriflamms.hypotheses.org. Elle permet de préparer les corpus de transcriptions de manuscrits respectant le format spécifié au traitement par le logiciel Oriflamms (alignement du texte à l'image, classification des formes de caractères) et à l'import dans TXM dans le cadre du module XTZ+CSV. Elle inclut également plusieurs commandes utile à l'analyse paléographique.

public/extensions_beta.txt · Dernière modification: 2018/10/18 12:16 par slh@ens-lyon.fr