Spécification de l'annotation URS et de l'intégration Analec dans TXM

Intégration d'outils d'annotation URS/Analec et d'exploitation de ces annotations dans le contexte du chantier plus large de développement de fonctionnalités d'annotation dans TXM.

Objectif

Intégrer des fonctionnalités Analec

Le transfert d'un certain nombre de fonctionnalités d'Analec est discuté dans le document Vers l’annotation de corpus dans TXM : Spécifications fondées sur les réflexions autour d’Analec (FL).

Le manuel d'annotation, la définition de la structure d'annotation et les textes à annoter de DEMOCRAT se trouvent dans ///Dropbox/DEMOCRAT/corpus.

Pour mieux comprendre et porter Analec, des spécifications d'Analec sont en cours.

Étendre le modèle URS

Développer des fonctionnalités d'exploitations de corpus TXM de textes et non pas d'un seul texte Analec en texte brut.

Panorama d'intégration pour la procédure d'annotation de DEMOCRAT

Basé sur la page de discussion du workflow d'annotation de Democrat : https://groupes.renater.fr/wiki/democrat/prive/exploitation_txm

Spécifications

Planification détaillée de l'intégration Analec dans TXM

(point de vue de l'IHRIM/Cactus/TXM)

Étape 1

Première intégration d'annotation des unités d'Analec dans TXM : cible Democrat 1.0.

La livraison comprend :

  • l'import de corpus Analec Spécifications
  • l'annotation d'unité à travers l'éditeur EditionSynoptic avec Spécifications
    • la visualisation des unités
    • la création/suppression/rectification d'unité
  • l'annotation des propriétés d'unité depuis la Vue unité

Étape 2

Premiers développements d'exploitation des annotations ANALEC : cible Democrat 2.0.

Étape 2.1

Étape 2.2

  • annotation par macro

Étape 2.3

  • merge de 2 branches ANALEC supplémentaires (JADT et ???)
    • import TEI Analec (corpus + annotations caractères)
  • quelques réglages et corrections de bugs de la vue Propriétés d'unités : Spécifications et Recette
  • Optimisation et navigation dans la liste des unités : Spécifications
  • montée en charge
    • volume (tout le corpus DEMOCRAT)
    • diversité
  • bug de sélection de mot dans Windows 7

Étape 3.1

Première intégration d'annotation des schémas d'Analec dans TXM et aides à l'annotation des unités:

Liste des développements vu par les phases d'annotation :

  • Phase 0 (préparation du corpus)
    • importer un corpus composé de plusieurs textes au format Glozz Spécifications
    • alignement des annotations d'un corpus Glozz de plusieurs textes avec les mots d'un corpus TXM (des mêmes textes) Spécifications
  • Phase 1
  • Phase 2
    • Amélioration de la macro AjoutDéfinitude pour tenir compte des étiquettes des mots des Unités Spécifications
    • Amélioration de la macro CreationChaine pour gérer les cas suivants Spécifications
  • Phase 3
    • changer de mode d'annotation : unités ou schémas
    • annoter les schémas à l'aide d'une nouvelle toolbar qui contient Spécifications
    • reproduire le scénario d'affichage des schémas d'Analec Spécifications
  • Phase d'analyse
    • avec les mesures
      • macro de conversion de propriété des mots de MENTION vers la propriété CATEGORIE Spécifications

Étape 3.2

  • corrections de l'étape 3.1
  • + exports
  • + hyperlien vers les concordances
  • etc.

Contenu

Étape 3.3

  • Finir de publier les mesures v2
  • Ajout & Transfert de mesures v1
    • macro distance intermayonaise : option Cadance
    • macro NatureDuPremierMaillon : option de sélection d'unité “position dans le schema”
    • macro nombre de CR = implémenter SchemaSummary
    • macro longueur de CR
    • macro densité ref
    • macro ReferentAccessibility
      Pour chaque référent,
      Pour chaque division,
      Prendre la première mention
      Compter les mots qui précèdent la mention dans cette division.
      
      Hypothèse : le contexte à gauche détermine (peut-être) la catégorie dans laquelle le référent apparaîtra pour la première fois.
      plus le contexte est conséquent, plus il y a de possibilité d'ancrer des référents associés et faire jouer des anaphores associatives.
      	contexte court : GN.NAM (nom propre) ou GN.IND (indéfini)
      	contexte long : GN.DEF (défini)
  • Dépasser la limite de taille CQL pour ouvrir une concordance
  • description Partition : afficher les tailles dans la console
  • messages de l'import d'annotation URS
    A)
    WARNING: found more than 2 positions for query [_.text_id="MontesquieuLois" & id="w_N797_12655|w_N797_12659"] -> []
    ->
    WARNING: no position found for query [_.text_id="MontesquieuLois" & id="w_N797_12655|w_N797_12659"] -> []
    
    A.1)
    
    WARNING: too many positions found for query ...
    
    B) ajouter une synthèse à la fin, par texte :
    - afficher le nombre total de projections réalisées : "X annotations imported."
    - afficher le nombre total de projections abandonnées : "X annotations not imported."
    - afficher le nombre total de warnings de type 'no-position-found'
    - afficher le nombre total de warnings de type 'too-many-positions-found'
    
    C) ajouter une synthèse à la fin, par corpus :
    - afficher le nombre total de projections réalisées : "X annotations imported."
    - afficher le nombre total de projections abandonnées : "X annotations not imported."
    - afficher le nombre total de warnings de type 'no-position-found'
    - afficher le nombre total de warnings de type 'too-many-positions-found' 
    
  • synchro corpus Analec lors d'import/chargement/suppression de corpus
  • supprimer message “clear: ” lors de l'export/import annotations
  • “*” pas retirer des noms d'editeur quand le corpus est sauvegardé
  • étendre la sélection du navigateur aux limites de mots de TXM → Linux & Mac OS X

Prochaines étapes

Mesures v2

Étape 4

Première intégration d'annotation des relations d'Analec dans TXM.

  • annoter les relations
  • création, utilisation (affichage d'identifiant, de propriété distante…) et persistance de vues
  • ajouter un identifiant personnel et une date à chaque annotation
  • visualiser les annotations
    • schémas (flèches, sommaire, vignettes, chemin de fer…)
  • visualisation de mesures (triangle, rond…)
  • export TEI
    • mots
    • caractères
  • nouvelles déclarations dans une structure d'annotations
    • possibilité de rendre invisible aux vues : une propriété, ses valeurs…
    • valeurs de propriétés d'unités/relations/schémas non modifiables
  • documentation
  • analyse temps réel des fréquences d'accès aux outils et déplacement automatique d'outils secondaires en outil principal (nouveau bouton dans la toolbar) qui dépassent un certain seuil de fréquence

Exploitation par macro

Annotation par scriptage

Notes MD stagiaires Lyon 2017

Notes MD brutes prises lors de la réunion avec les stagiaires de Lyon :

  • Restituer l'annotation de Pentagruel aux BVH
  • Feature : créer directement une unité après avoir sélectionné un empan de mots, au lâcher de bouton (option/préférence)
  • Workflow : double annotation / relecture d'annotation
  • Feature : comparaison des annotations de 2 personnes qui ont annoté le même corpus
  • Feature : journal d'annotation / d'annotation / intime (cf app Almanah Diary, Robo Journal, RedNotebook, Drivel, Xournal)
  • Feature : lors de l'annotation, voir les autres occurrences des mots sélectionnés (singleton ou pas + annoter plusieurs occurrences d'un coup)

Notes AL annotation 2017

Notes en vrac prises par AL lors de l'annotation de la Chronique de Morée

De façon générale, l'expérience d'annotation a été agréable. Quelques remarques sur l'ergonomie :

  • Lorsqu'on utilise le raccourci “Entrée” pour annoter, le surlignage des annotations déjà présentes disparait jusqu'à ce qu'on re-clique sur l'édition. Ce n'est pas le cas lorsqu'on utilise le bouton “Créer”
  • Si on a fait une erreur en tapant une référence et qu'on veut la supprimer ou fusionner il faut penser à déselctionner la mention concernée. Sinon la référence erronée persiste après la modification de la structure.
  • Si on pouvait supprimer les références erronées directement à partir de la liste déroulante (par clic droit + “supprimer”, par exemple), ce serait très pratique
  • Le tri des référence dans la liste déroulante est actuellement par code du caractère (ABC…abs..z…à…é…), ce serait plus pratique d'applique le tri français (AaBb…Eeé…)

Notes SLH stagiaires Lyon 2018

  • feedback d'unités
    • il faut une palette des couleurs de feedback (jaune, vert, couleurs Postit etc.) d'au moins 4 ou 5 couleurs pour pouvoir rendre compte efficacement des recouvrements d'unités
      • soit gérer une palette explicite de couleurs choisies pour leur efficacité, soit discuter l'algorithme de calcul de couleurs
      • on peut explorer le feedback par entourage par une boite
        • MD souhaite régler la gestion du feedback des blancs entre mots avant
  • interférence feedback de retour au texte / feedback d'unités URS → problème de décalage d'interprétation de feedback de commandes sur mots / feedback de commandes sur unités
    • dans le cas d'un retour au texte Concordance → Édition
      • le fait de supprimer une unité interfère avec le feedback de retour au texte (le feedback reste alors qu'on s'attend à ce qu'il disparaisse)
      • quand on change les limites d'une unité, on s'attend à ce que les limites du feeback (de mots) changent également
    • la recherche d'unités (vers concordance ou édition) est normalement l'outil où ce genre de comportement doit être attendu (la concordance de mots n'est pas une concordance d'unités)\\→ regarder comment scénariser une intégration “recherche d'unités”/“recherche de mots” pour intégrer la gestion du feedback de mots/unités
  • sélection + création
    • 3 étapes :
      • 1) sélection du span à la souris
      • 2) click sur “Créer” en haut
      • 3) édition de REF en bas
    • problème : le va et vient nécessaire entre le haut et le bas de la souris
    • solutions :
      • principale : rapprocher le bouton “Créer” de la zone de saisie des propriétés
      • améliorer relation entre interaction souris et interaction clavier
        • mieux documenter le raccourcis de “Créer” (pour que la saisie au clavier dispense d'avoir à monter la souris en haut)
        • concevoir un scénario “tout clavier” : sélection du span + créer + éditer + suivant
  • la fenêtre modale de gestion de la structure d'annotation ne facilite pas le travail de réglage des valeurs de REF dans la S.d'A. alors que les outils de la SdA sont nécessaires en plus des outils de saisie des valeurs de REF
    • solution : mettre la gestion de la SdA dans une vue que l'on peut disposer côté-à-côte avec la vue de gestion des propriétés d'unités gPU :
      • quand on édite dans la vue SdA on édite pour tout le corpus
      • quand on édite dans la vue gPU on édite pour l'unité courante
  • recherche d'unités : améliorer la recherche par regex
    • l'annotateur n'a pas bien compris comment neutraliser certains caractères → neutraliser des caractères opérateurs de regex. Il a juste constaté que '[' était particulier mais n'a pas réussi à le rechercher en essayant de le neutraliser de diverses manières
    • solution :
      • mieux documenter la syntaxe des regex en général et de leur utilisation dans ce champ en particulier
      • autre solution : mettre la recherche par regex en option
  • undo
    • un undo général serait super, mais pas forcément nécessaire
    • les deux opérations qu'il serait utile de pouvoir défaire (qui ont un coût important en travail) :
      • supprimer une unité
      • supprimer une valeur de REF (une valeur de propriété particulière)
  • journal d'annotation
    • utile pour le suivi de difficultés ou de problèmes, ou à des fins didactiques
    • il s'agit de se concentrer sur les commentaires d'un annotateur sur un texte donné
    • solutions :
      • le fichier annexe en format libre est la solution de base
      • ajouter des unités de type 'commentaire' à la SdA a été expérimenté avec succès cette année
      • ajouter une propriété 'commentaire' au type d'unité 'MENTION' n'a pas été réussi cette année pour une raison à clarifier
      • idées supplémentaires :
        • aider à ouvrir un éditeur de texte sur le journal d'un texte en cours d'annotation
          • bouton “Journal”
          • créer le fichier, avec un nom et à un endroit documentés, s'il n'existe pas
        • aider à accéder à tous les commentaires des textes d'un corpus
          • par exemple, s'il y a des unités de type 'commentaire' : une commande Commentaires peut faire le sommaire des commentaires par texte

Notes MD stagiaires Lyon 2018

  • feedback d'unités
    • le jaune ne se voit pas assez
    • on peut faire des dégradés ou des passages d'une couleur 1 à une couleur 2
    • donner accès à l'utilisateur au codes couleurs de TXM
    • MD: est-ce-qu'on peut lancer plusieurs annotations Analec en même temps ?
  • lien concordance → edition
    • fermer l'éditeur de concordance doit retirer le highlight des mots
    • faire une présélection depuis une concordance et retirer les mots highlightés quand ils sont annotés par l'annotateur
  • Raccourcis clavier
    • bug la touche ENTREE efface le highlight
    • navigation au mot précédent/suivant : avec les touches ← et →
  • undo
    • faire aussi la fusion (manipulation destructrice)
  • Vue recherche
    • mettre le focus quand elle s'ouvre
  • Edition de la structure d'annotation
    • ne pas forcement le faire dans la liste des valeurs des champ auto-complété
      • → mettre en place une préférence pour activer l'édition depuis les champs de la Vue Propriétés
      • F2 : refactoré&fusionné une valeur
      • Suppr : supprimer une valeur
    • réimplémenter la fenêtre Analec dans une une vue
      • bien afficher des avertissements pour la suppression et fusion
      • Vue propriété → effet local
      • Vue Structure → effet global
  • Doc
    • les champs de propriétés manipulents des regexp (MD: j'ai vérifié que c'est bien le cas)
  • Multi-annotation
    • les commentaires sont de la multi annotation
    • MD: afficher les annotation de la page courante dans une vue
    • MD: centraliser les commentaires/journaux dans un wiki et pouvoir ouvrir des liens depuis l'édition
  • Manuel d'annotation : faire un corpus du manuel d'annotation

Extensions TXM du modèle URS d'Analec

  • corpus
    • textes
      • mots
    • format XML-TEI URS
  • fonctionnalités
    • corpus de textes
    • objets multiples: partitions
    • textes structurés

Recettes

Merci de faire vos retours dans la page de suivi du projet DEMOCRAT du wiki txm-users.

N'oubliez pas de renseigner au préalable votre configuration machine.

Recette de l'étape 1

  1. lancer une première fois TXM pour finaliser l'installation. Puis re-lancer TXM.
  2. installer l'extension Analec1) à partir d'une mise à jour de TXM diffusée par le site de mise à jour réservé au chantier DEMOCRAT : http://textometrie.ens-lyon.fr/dist/democrat
    • lancer 'Fichier > Ajouter une extension tierce'
    • cliquer sur “Ajouter…” à droite du champ 'Travailler avec :'
      • coller dans le champ “Emplacement :” l'adresse 'http://textometrie.ens-lyon.fr/dist/democrat' du site de mise à jour
      • saisissez éventuellement un nom de site de mise à jour dans le champ “Nom :” (par exemple 'DEMOCRAT')
      • en fonction des situations, la liste des mises à jour disponibles peut s'actualiser
        • dans ce cas dé-sélectionner l'option “Regrouper les éléments par categorie”
          • l'extension Analec devrait apparaître dans la liste des mises à jour. Il suffit alors de la sélectionner et de cliquer sur [Suivant] pour poursuivre l'installation
          • si la liste contient plutôt le message “tous les éléments sont installés.” la dernière version de l'extension Analec est déjà installée et il n'y a rien à faire
        • sinon :
          • valider ou quitter
          • relancer TXM pour provoquer la mise à jour
    • pour vérifier la version de votre extension Analec :
      • “Aide > À propos de TXM”
      • bouton ”[Détails de l'installation]” en bas à gauche
        • la fenêtre “Logiciels installés” s'ouvre
          • la première ligne a la forme ” Analec 1.0.0.201712011718 Analec.feature.group Textometrie.org”
            • ce qui se lit de la façon suivante : <nom de l'extension> <version>.<année><mois><jour><heure><minutes> <identifiant de l'extension> <diffuseur>
            • dans l'exemple ci-dessus il s'agit donc de la version du 1er décembre 2017 à 17h18
  3. télécharger le corpus PRINCESSE2) : ///Dropbox/DEMOCRAT/TXM/Recettes/Étape 1/PRINCESSE.txm
  4. télécharger la structure d'annotation DEMOCRAT au format Glozz : ///Dropbox/DEMOCRAT/TXM/Recettes/Étape 1/democrat.aam
  5. charger le corpus PRINCESSE dans TXM avec le menu “Fichier > Charger”
  6. sélectionner le corpus PRINCESSE
  7. lui associer la structure d'annotation DEMOCRAT
    • avec la commande 'Analec > Import Glozz model'
    • et en désignant le fichier
  8. lancer une session d'annotation
    • ouvrir l'édition du corpus PRINCESSE (menu contextuel 'Open edition')
    • cliquer sur le bouton “Annoter” (bouton crayon situé en bas de l'édition à droite)
    • la barre d'outils des unités s'ouvre en haut de l'édition
    • ainsi que la fenêtre d'édition des unités (vue “Unit”) en bas de l'édition
    • remarque : dans TXM les annotations Analec sont posées sur les mots et non sur les caractères comme dans Analec. Les mots sont les mots simples définis par TXM (pas composés, souvent étiquetés et lemmatisés, etc.) ou par l'utilisateur selon le module d'import de textes sources qui a été utilisé pour créer le corpus. Le corpus PRINCESSE a été importé avec le module TXT+CSV en appliquant le modèle TreeTagger français (le s long ruine les performances). Il s'agit donc de mots standards (par défaut) de TXM. La ponctuation est assimilée aux mots (eg la virgule est un mot que l'on peut sélectionner).
  9. annoter dans l'édition
    • sélectionner quelques caractères ou la totalité d'un mot dans l'édition
    • créer l'unité correspondant au mot avec le bouton “Créer” de la barre d'outils des unités ou la touche “Entrée” du clavier
    • sélectionner plusieurs mots (ou portions de mots) dans l'édition
    • créer l'unité avec le bouton “Créer”
    • double cliquer un mot
    • créer l'unité avec la touche “Entrée” du clavier
    • les unités sont mises en évidence avec la couleur vert clair et l'unité courante avec du vert foncé
  10. supprimer une annotation
    • sélectionner une unité en vert clair par un clic, elle devient vert foncé
    • la supprimer avec le bouton “Supprimer” ou la touche “Suppr” du clavier
    • sélectionner une autre unité
    • la supprimer avec la touche “Supprimer” du clavier
  11. rectifier les bornes d'une annotation
    • sélectionner l'autre unité
    • rectifier la borne avec le bouton “Rectifier une borne”
    • cliquer dans l'édition pour corriger la borne gauche ou droite en fonction du mot cliqué
    • sélectionner une autre unité
    • la rectifier avec la touche “Espace” du clavier (même procédure)
  12. éditer les propriétés d'une unité
    • ouvrir le menu des identifiants d'unités (bouton [v]) et sélectionner l'unité MENTION-1 (ou bien cliquer directement sur l'unité)
    • les propriétés de l'unité s'affichent dans la vue “Unit” et sont éditables
  13. utiliser les touches Ctrl-flèche-haut et Ctrl-flèche-bas du clavier pour naviguer dans les unités (choix de l'unité sélectionnée)
  14. sauver les annotations : avec le bouton d'enregistrement (bouton crayon+disquette situé en bas à droite de l'édition)

Recette de l'étape 1+

Cette étape consiste à ajouter depuis TXM des unités dans un texte qui a déjà été annoté dans Analec au préalable.

  1. effectuer les étapes 1 à 4 de la recette de l'étape 1
  2. télécharger depuis le répertoire ///Dropbox/DEMOCRAT/TXM/Recettes/Étape 1+ les fichiers suivants3) :
    • Cleves-brut-simplifie-annotations.aa
    • Cleves-brut-simplifie-structure-annotation.aam
    • Cleves-brut-simplifie-texte.ac
  3. depuis TXM importer le texte 'Cleves-brut-simplifie' annoté dans Analec avec la commande 'Analec > Import Glozz corpus and annotations' en lui fournissant les arguments suivants :
    • aafile : Cleves-brut-simplifie-annotations.aa
    • aamfile : Cleves-brut-simplifie-structure-annotation.aam
    • acfile : Cleves-brut-simplifie-texte.ac
      → un nouveau corpus CLEVES-BRUT-SIMPLIFIE-TEXTE a été créé (il a été importé par le module TXT+CSV et contient les annotations Analec)
  4. vérifier les unités en ouvrant l'édition du corpus et en lançant une session d'annotation avec le bouton Annoter (crayon)
  5. à suivre…

Recette de l'étape 2

mise à jour de l'extension

  • si la recette de l'étape 1 a déjà été réalisée, la mise à jour TXM 0.7.8.201701171613 avec l'extension se présentera d'elle même au démarrage de TXM
  • sinon il faut suivre les premières instructions de la Recette de l'étape 1

import d'un corpus XML-TEI-Analec (annoté puis exporté depuis Analec)

  • importer le texte “Le capitaine Fracasse” depuis le fichier XML-TEI (disponible dans le sharedocs Democrat: TXM/XML_brut) avec la commande “Importer un corpus XML-TEI Analec” du menu Analec)
  • sélectionner le corpus “LECAPITAINEFRACASSE”
  • ouvrir l'édition
  • démarrer l'annotation à l'aide du bouton “crayon”
  • sélectionner le type “MENTION”
    • la liste des unités affiche ”<identifiants>” et prend toute la place disponible pour s'afficher

NAVIGATION DANS LES UNITÉS À PARTIR DE LA LISTE DES MENTIONS

  • naviguer dans les mentions à l'aide des boutons flèche droite ”>” et flèche gauche ”<”
  • cliquer dans la liste des mentions et naviguer dans les mentions à l'aide de la molette de la souris
  • cliquer dans la liste des mentions et naviguer dans les mentions à l'aide des touches du clavier : flèche haut (aller à la mention n-1), flèche bas (aller à la mention n+1, page haut (aller à la mention n-10 ), page bas (aller à la mention n+10)
  • aller à la mention “MENTION-42” en entrant au clavier l'identifiant de la mention dans la liste des mentions
  • aller à la mention “MENTION-777” en entrant au clavier “MENTION-7” puis en ouvrant la liste des mentions disponibles avec le raccourcis clavier “CTRL+ESPACE”, dans cette liste sélectionner “MENTION-777”
  • dans l'édition, sélectionner la mention “les landes” à la première ligne de la première page d'édition
    • “MENTION-5” est affichée dans la liste des mentions

création et modification des propriétés d'une unité

  • dans l'édition, première page, sélectionner avec la souris le texte “Château De La Misère” (la sélection n'a pas besoin de recouvrir exactement les mots Château et Misère pour fonctionner)
  • créer une mention
    • dans la vue corpus, le nom du corpus “LECAPITAINEFRACASSE” est à présent suivi d'une étoile
    • le bouton crayon+disquette de l'édition n'est plus grisé
  • dans la vue “propriétés d'unité” qui s'est ouverte, taper au clavier la valeur “test” de la propriété REF
  • dans l'édition, sélectionner une autre mention
  • dans la vue “propriétés d'unité”, commencer à taper la lettre “T” de la valeur “test” de la propriété REF et vérifier que l'auto-complétion est activée et propose bien la valeur “test”, valider le choix “test” avec la touche “Entrée” du clavier
  • dans l'édition, sélectionner une autre mention
  • dans la vue “propriétés d'unité”, sélectionner la valeur “test” dans la liste des valeurs disponibles de la propriété REF
  • re-sélectionner les 3 mentions créées pour vérifier que la valeur de la propriété REF est bien “test”

fin de l'annotation

  • cliquer sur le bouton crayon+disquette de l'édition pour sauvegarder les annotations
    • l'interface d'annotation est fermée
    • dans la vue corpus, le nom du corpus “LECAPITAINEFRACASSE” n'est plus suivi d'une étoile
    • le bouton crayon+disquette est grisé

accès aux fonctionnalités Analec

  • sélectionner le corpus “DISCOURS”
  • le menu principal “Analec” propose 4 choix
  • ouvrir l'édition du corpus → le bouton “crayon” est grisé
  • sélectionner “Editer la structure d'annotation” du menu Analec
  • dans la fenêtre ouverte, ajouter un type d'unité “test” et refermer la fenêtre
  • re-sélectionner le corpus “DISCOURS”
  • le menu principal “Analec” propose 5 choix
  • ouvrir l'édition du corpus → le bouton “crayon” n'est plus grisé

messages d'erreurs

  • ouvrir les préférences de TXM et aller à la page “TXM > Avancé”, cocher “Show a dialog when severe error occurs”
  • tenter de calculer les concordances de la requête “*” sur le corpus “LECAPITAINEFRACASSE” (Sélectionner le corpus “LECAPITAINEFRACASSE”, sélectionner la commande “concordances” dans le champ requête, rentrer “*” puis cliquer sur “Chercher”)
  • une boite de dialogue s'ouvre et affiche
    Dernière erreur CQP : Illegal regular expression: *

Recette 3 (3.1 et 3.2)

Préparation

  1. lancer une première fois TXM pour finaliser l'installation. Puis re-lancer TXM (cela active la possibilité d'installer les extensions).
  2. installer l'extension Analec
    • lancer 'Fichier > Ajouter une extension'
    • sélectionner “Analec” dans la liste affichée et cliquer sur le bouton “Terminer”
    • suivre les indications d'installation qui suivent
    • pour vérifier la version de votre extension Analec :
      • “Aide > À propos de TXM”
      • bouton ”[Détails de l'installation]” en bas à gauche
        • la fenêtre “Logiciels installés” s'ouvre
          • la première ligne a la forme ” Analec 1.0.0.201801091609 Analec.feature.group Textometrie.org”
            • ce qui se lit de la façon suivante : <nom de l'extension> <version>.<année><mois><jour><heure><minutes> <identifiant de l'extension> <diffuseur>
            • dans l'exemple ci-dessus il s'agit donc de la version du 9 janvier 2018 à 16h09

Démarrer l'annotation

  • ouvrir l'édition du corpus LECAPITAINEFRACASSE
  • activer l'annotation et afficher le type d'unité “MENTION”
  • les unités s'affichent en jaune clair :
    • comme “les Landes” sur la 1ere ligne
  • sélectionner une unité → elle s'affiche en jaune plus prononcé et le texte est en gras

Unités recouvrantes

  • les unités recouvrantes s'affichent en jaune plus prononcé
    • comme “une de ces collines décharnées” et “le revers d'une de ces collines décharnées” sur la 1ere ligne
  • en cliquant sur des unités recouvrantes, on cycle dans les unités qui se chevauchent
  • en ouvrant le menu contextuel, on peut sélectionner une des unités chevauchantes directement

Sélection d'unité inter-page

  • sélectionner l'unité “un blason fruste” MENTION-124 de la 2e page
  • étendre à gauche l'unité en cliquant sur le bouton ”[↔” de la barre d'outils
  • aller à la page précédente et cliquer sur l'avant dernier mot : “était”
  • “était surmonté” est sélectionné, aller à la page suivante et constater que la suite “d'un blason fruste” l'est aussi
  • la MENTION-124 est toujours sélectionnée et commence au mot “était”
  • sélectionner le dernier mot “fruste” de la MENTION-124 et l'édition ne retourne pas à la page précédente

Correction des limites

  • corriger la limite gauche d'une unité
    1. sélectionner l'unité “les Landes” MENTION-5 en début de page
    2. cliquer sur le bouton ”[↔”
    3. cliquer sur le mot “bossuent” qui précède l'unité
    4. la MENTION-5 commence à “bossuent”
  • corriger la limite droite d'une unité
    1. sélectionner l'unité “bossuent les Landes” MENTION-5 en début de page
    2. cliquer sur le bouton “↔]”
    3. cliquer sur le mot “entre” de l'unité
    4. la MENTION-5 fini à “entre”
  • corriger les limites avec une nouvelle sélection de mots
    1. sélectionner l'unité “bossuent les Landes, entre” MENTION-5 en début de page
    2. cliquer sur le bouton ”[↔]”
    3. sélectionner “les Landes”
    4. la MENTION-5 est redevenue “les Landes”

Navigation dans les unités depuis l'édition

  • sélectionner l'unité MENTION-5 “les Landes” à l'aide de la souris dans l'édition
  • faire le raccourcis clavier : CTRL + FLECHE_GAUCHE : l'unité MENTION-6 est sélectionnée (ou CMD pour les Macs)
  • faire le raccourcis clavier : CTRL + FLECHE_DROITE : l'unité MENTION-5 est sélectionnée (ou CMD pour les Macs)
  • faire le raccourcis clavier : CTRL + Début (ou Home) : l'unité MENTION-1 est sélectionnée (ou CMD pour les Macs)
  • faire le raccourcis clavier : CTRL + Fin : l'unité MENTION-3075 est sélectionnée (ou CMD pour les Macs)

Création d'unité

  • créer une unité
  • le focus du curseur clavier a été déplacé dans le champ de la première propriété de la vue des propriétés de l'unité crée
  • note : les champs sont aussi plus grands que dans l'interface de la cible V2

Auto-complétion optionnelle par infixe dans les champs de valeur de propriété

  • dans le champ “REF” de l'unité sélectionnée saisir “Léo” et déclencher l'auto-complétion par Ctrl-ESPACE → 3 choix s'affichent (dont “yeux de Léonarde”)
  • dans la page de préférences utilisateur “Analec” cocher l'option “Autocompletion search pattern of field is prefix”
  • dans le champ “REF” taper “Léo” et déclencher l'auto-complétion → 1 seul choix s'affiche : “Léonarde”

Recherche et édition des propriétés d'unité

  • ouvrir l'interface de recherche d'unités en cliquant sur le bouton “loupe” de la barre d'outil des unités
  • une vue similaire à la vue d'édition des propriété d'unité s'ouvre en bas
  • sélectionner la valeur “POSS” de la propriété CATEGORIE puis cliquer sur le bouton “Chercher” de la vue de recherche
  • la vue indique avoir trouvé 221 unités, la première unité est “leurs” MENTION-32 (dans le 2e paragraphe de la 1ere page)
  • la vue propriété s'est mise à jour avec entres autres REF=deux tours
  • aller à l'occurrence suivante à l'aide du bouton suivant (>) de l'interface de recherche
  • la vue propriété s'est mise à jour
  • aller directement à la 10e occurrence en saisissant “10” dans le champ de navigation puis valider avec la touche 'Entrée'. L'unité “sa” MENTION-176 page 2 est sélectionnée
  • remettre à zéro les champs de sélection en appuyant sur le bouton reset “croix rouge”
  • dans le champ “REF”, rentrer la valeur “yeux.*” puis valider la recherche avec la touche 'Entrée'
  • 13 unités ont matché

Concordance d'unités recherchées

  • toujours dans l'interface de recherche, après avoir fait une recherche
  • cliquer sur le bouton “concordances”
  • l'interface de concordance s'ouvre et affiche toutes les unités de la recherche (les unités dont les mots se superposent ne sont prises en compte qu'une seule fois dans la concordance)

Gestion de la structure d'annotation

  • supprimer les valeurs de propriétés d'unités non utilisées
    1. ajouter des valeurs non utilisées à la structure d'annotation du corpus Fracasse
      1. sélectionner le corpus FRACASSE
      2. sélectionner la commande “Analec > Editer la structure”
      3. ajouter la valeur “test” à la propriété “MENTION > REF”
    2. sélectionner le corpus FRACASSE dans la vue Corpus
    3. ouvrir la vue Macro (menu princpal : Affichage > Vues > Macro)
    4. aller au répertoire “analec / edit”
    5. double-cliquer la macro CheckAnnotationStructureValues et entrer les paramètres suivants
      • unit_type = MENTION
      • unit_property_name = REF
      • pruneUnusedValues : décocher
    6. le résultat s'affiche dans la console
      Values stored in the structure: [un massacre de cerf, ...]
      The following values are not used: test
  • annuler la suppression des valeurs d'unité
    1. ouvrir la fenêtre de gestion de structure
    2. sélectionner une valeur de propriété
    3. sélectionner l'action “Supprimer”
    4. abandonner la fenêtre de confirmation qui s'ouvre avec la croix → la valeur n'est pas supprimée
    5. recommencer mais en confirmant la suppresion

Visualisation des CHAINEs

  • ouvrir l'édition du corpus LECAPITAINEFRACASSE et activer l'annotation avec le bouton [▾] du bouton “crayon” d'annotation et sélectionner “Schémas”
  • la première CHAINE est sélectionnée: CHAINE-1.
  • la première unité de la CHAINE est sélectionnée → L'unité “ces collines décharnées” est mise en évidence dans l'édition.
  • les autres unités de la CHAINE sont aussi mises en évidence mais de façon plus discrete

Annotation des propriétés des CHAINEs

  • la vue Propriété affiche les propriétés de la première CHAINE : GENRE:””, NB MAILLON:2, NOMBRE:””, REF:“collines décharnées”,TYPE REFERENT:””
  • modifier la valeur de GENRE
  • sélectionner la CHAINE suivante en cliquant sur le bouton (>) des schémas
  • les mots “une de ces gentilhommières si communes en Gascogne”, “un bâtiment”, “duquel”, etc. sont mis en évidence dans l'édition
  • la vue Propriété affiche les propriété de la première CHAINE : GENRE:””, NB MAILLON:50, NOMBRE:””, REF:“le castel”,TYPE REFERENT:””
  • naviguer à la MENTION suivante (“un bâtiment”) en cliquant sur le bouton (>) des unités
  • retirer la MENTION de la CHAINE avec le bouton “x” des unités
  • cliquer sur le bouton “x” des schémas
  • la CHAINE CHAINE-2 a été supprimée

Sauvegarde

  • fermer l'édition et sélectionner “Non” quand la sauvegarde est proposée.
  • à la ré-ouverture toutes les modifications (annotations et structure) sont perdues

Exports d'annotation

  • Export XML Glozz
    1. sélectionner le corpus LECAPITAINEFRACASSE
    2. choisir “Corpus au format Glozz…” dans le menu principal “Fichier > Exporter”
    3. indiquer le répertoire de destination et le type d'unité “MENTION” à exporter
    4. importer les fichiers .aa, .aam et .ac générés dans Analec et vérifier les annotations
  • Export XML-TEI URS
    1. sélectionner le corpus LECAPITAINEFRACASSE
    2. lancer la commande “Corpus au format XML-TEI URS…” dans le menu principal “Fichier > Exporter”
  • Vérification de l'archive exportée
    1. extraire le contenu de l'archive (zip) LECAPITAINEFRACASSE.urs téléchargée pour la recette
    2. extraire le contenu de l'archive (zip) LECAPITAINEFRACASSE.urs créée par la commande Export XML-TEI URS
    3. vérifier que les fichiers 'annotations/lecapitainefracasse-urs.xml' sont identiques
  • Ré-import des annotations XML-TEI URS
    1. modifier le fichier “annotations/lecapitainefracasse-urs.xml” de l'archive exportée LECAPITAINEFRACASSE.urs.
      Décaler la limite droite de l'unité u-MENTION-1 d'un mot à droite : changer la ligne
      <span id="u-MENTION-1" from="text:w_fracasseavecmention_17" to="text:w_fracasseavecmention_24" ana="#u-MENTION-1-fs"/>
      en
      <span id="u-MENTION-1" from="text:w_fracasseavecmention_17" to="text:w_fracasseavecmention_25" ana="#u-MENTION-1-fs"/>
    2. sélectionner le corpus LECAPITAINEFRACASSE
    3. lancer la commande “Import XML-TEI URS annotations…” dans le menu principal Analec
      1. sélectionner le répertoire “annotations” précédemment extrait
      2. sélectionner le modèle Glozz ”.aam” précédemment extrait
      3. sélectionner l'option “resetAnnotations” (cette option supprimer toutes les annotations avant l'import)
    4. constater le changement de l'unité en ré-ouvrant l'édition du corpus LECAPITAINEFRACASSE

Recette 3.3

Documentation

Utilisateur

Voir le "Manuel d'utilisation de l'extension Analec de TXM" pour l'installation et l'utilisation de cette extension.

Développeur

1) AnalecFeature de son vrai nom → devrait être 'Analec Feature' voire Analec
2) En fait n'importe quel corpus TXM convient. On utilise PRINCESSE dans cette recette pour que tout le monde fasse un diagnostic à partir du même corpus
3) ces fichiers ont été créés avec Analec à partir du fichier ///Dropbox/DEMOCRAT/corpus/fichiers_4_annotes_democrat_MENTION/francais_medieval/Cleves-brut-simplifie.ec
public/annotation/specs_annotation_analec.txt · Dernière modification: 2018/07/02 15:21 par matthieu.decorde@ens-lyon.fr