L'annotation Analec au sein de TXM se fait par le biais d'une extension permettant d'annoter les textes d'un corpus avec un modèle d'annotation URS (Unités - Relations - Schémas) de type Glozz/Analec et de réaliser diverses exploitations de ces annotations.
La version actuelle de l'extension permet d'annoter interactivement les unités au sein des éditions de texte d'un corpus de TXM, ainsi que d'enrichir l'annotation, de vérifier sa cohérence, de procéder à des extractions pour affichage et décomptes.
L'interface d'annotation des unités se base sur celle du logiciel Analec, donc nous vous invitons à consulter la documentation d'Analec pour apprendre à utiliser la barre d'outils d'annotation des unités (en particulier la section “Annoter des unités” page 15).
Cette extension est en développement continu. Nous vous invitons à consulter régulièrement la page de suivi du chantier de développement de l'extension Analec pour vous tenir informé des évolutions.
Si nécessaire installer TXM, puis l'extension Analec de TXM :
Compatibilité et Prérequis
Pour vous aider à tester l'annotation Analec dans TXM rapidement, voici un exemple de corpus DEMOCRAT à charger directement dans TXM :
Il y a deux façons d'importer dans TXM un corpus déjà annoté dans Analec :
Exemple de fichier XML-TEI Analec du projet DEMOCRAT : Le_Capitaine_Fracasse_or.xml
Exemple de fichiers .aa, .aam et .ac exportés depuis Analec pour le projet DEMOCRAT : Cleves-brut-simplifie.zip
Tout corpus importé dans TXM peut être annoté selon un modèle Analec2) 3).
Il faut pour cela lui associer au préalable un modèle d'annotation Glozz :
Dès qu'un modèle d'annotation Glozz est associé à un corpus, son Édition dispose d'un bouton “Annoter” actif (bouton “crayon” en bas à gauche) qui permet de lancer une session d'annotation interactive.
Il est possible d'importer des annotations, représentées dans le format XML-TEI URS, dans un corpus TXM pré-existant dont les textes contiennent les mots correspondants aux annotations (les annotations sont notamment définies par les empans de mots sur lesquels elles s'appliquent).
Une représentation XML-TEI URS des annotations d'un corpus TXM est créée avec la commande “Fichier > Exporter > Corpus au format XML-TEI URS…” décrite plus bas.
Remarques :
On peut rechercher des unités par leurs propriétés en cliquant sur le bouton “Chercher” (icone de loupe). Cette commande ouvre un formulaire de recherche dans une nouvelle vue, qui s'ouvre par défaut en bas de l'interface de TXM.
Le formulaire de recherche comporte :
Grâce aux regexp, il est possible de retrouver :
- un ensemble de valeurs, selon un motif donné
exemple : M\. de .* (retrouver l'ensemble des “M. de” annotés)
- et donc aussi les champs vides :
exemple : ^$ (retrouver l'ensemble des champs vides, sans annotation)
A NOTER : En remplaçant la valeur vide par “NO” dans le formulaire de recherche, la valeur vide n'est pas remplacée par “NO” dans le texte annoté. Le formulaire est uniquement disponible en lecture, ne modifie aucunement le texte annoté. (… même s'il est cependant possible d'écrire et de modifier les valeurs du formulaire de recherche)
Il y a 3 modes de rectification des bornes d'une unité :
L'annotation de schémas se lance de la même façon que celle des unités, en ouvrant en plus le menu [v] du bouton “crayon” et en sélectionnant l'entrée “Schemas”. Remarque : on peut changer le mode d'annotation - schémas ou unités - à tout moment à l'aide du menu [v] du bouton “crayon”.
L'annotation peut commencer dès que la barre d'outils d'annotation est ouverte en haut de l'édition :
La création de schémas et l'affectation d'unités aux schémas ne se fait pas de façon interactive par l'interface utilisateur mais via la macro “analec > edit > CreationChaine”.
Liste des fonctionnalités dans l'ordre d'apparition de la barre d'outils :
Il faut d'abord avoir sélectionné un type de schéma à explorer dans la liste déroulante des types de schéma. Par défaut l'interface sélectionne le premier type de schéma.
Après avoir sélectionné un type de schéma, le composant de navigation et ses 4 boutons sont activés :
La recherche est similaire à celle des unités. Elle se lance en cliquant sur le bouton “loupe”.
Pour supprimer un schéma, il faut au préalable l'avoir sélectionné grâce aux outils de navigation et de sélection, puis cliquer sur le bouton “croix” rouge situé après les outils de navigation des schémas.
Un schéma peut contenir des unités. Dans ce cas, les unités du schéma sont mis en évidence dans l'édition par un surlignage en jaune clair. Par défaut, la première unité est sélectionnée. L'unité en cours de sélection est mise en évidence en gras et surlignée en jaune plus foncé.
Une fois que l'on a navigué jusqu'à l'unité que l'on souhaite supprimer, on peut la supprimer à l'aide du bouton “croix” rouge situé à droite des outils de navigation dans les unités.
Pour exécuter les macros il faut :
En général, il faut sélectionner le corpus sur lequel on veut travailler dans la vue Corpus avant de lancer la macro.
Pour lire ou modifier le code Groovy d'une macro :
Ces macros permettent à l'utilisateur de prototyper des calculs basés sur des annotations Analec et toutes autres informations disponibles dans la plateforme TXM qui pourront devenir des outils d'analyse intégré à TXM plus tard.
Macros préliminaires de contrôle de la cohérence des annotations (proto-validation des annotations d'un texte par rapport à la structure d'annotation utilisée). Elles ont été développées pour vérifier la cohérence des annotations entre plusieurs annotateurs (les mesures supposent une cohérence parfaite).
Paramètres :
Un premier jeu de macros a été réalisé pour calculer différentes mesures à l'occasion de l'écriture d'un article pour Langue française n° 195 (3/2017) (CG, JG, VO).
Les macros suivantes adaptent leur comportement suivant qu'elles s'appliquent à un corpus, à un ensemble de corpus ou à une partition. Ces objets leurs sont fournis en les sélectionnant dans la vue Corpus avant de les appeler.
Toutes ces macros utilisent les paramètres de sélection d'éléments URS suivants :
Les paramètres supplémentaires spécifiques à chaque macro sont indiqués ci-dessous.