Outils pour utilisateurs

Outils du site


public:annotation:specs_assisted_annotation:specs_annotation_token

Annotation de propriétés de mots

Objectif

On souhaite pouvoir annoter la forme et les propriétés des mots (tokens) d'un corpus en profitant des outils de TXM pour accélérer l'annotation.

Sauvegarde des annotations

Infrastructure

TXM 0.8.0

La sauvegarde des annotations se fait dans les fichiers XML-TXM à partir des annotations temporaires de la base de donnée SQLlite des annotations produites dans la concordance :

  1. on calcule la liste de textes à mettre à jour à partir des annotations à sauvegarder et on met à jour les fichiers XML-TXM
  2. on met à jour le corpus à partir des fichiers XML-TXM
    • on re-construit les fichiers sources CQP
    • on re-construit les éditions
  3. on re-compile les indexes CQP

Optimisations

  • optimisation générale des traitements : gérer une liste de textes à importer (et à re-importer) ce qui permet dans le cas de la sauvegarde d'annotations de ne limiter la mise à jour du corpus qu'aux textes modifiés
    • typiquement la liste des ids de textes
    • permet accessoirement de mieux contrôler le workflow de fichiers à traiter
    • 100% concernant l'import XTZ
  • optimisation de la reconstruction des éditions : créer une option pour ne pas re-générer les éditions lors de la sauvegarde d'annotations (dans le cas où l'on annote des propriétés de mots, seuls les tooltips des éditions changent - > c'est une modification assez mineure de l'édition)
    • 0% créer un nouveau parametre de corpus: update_edition
  • optimisation compiler+pager : threader les étapes compiler et pager (2 threads)
    • 100% activé lors de la sauvegarde
  • optimisation de la gestion des mots dans les éditions : gérer l'index des pages dans des indexes de structure CQP (ou dans un index adhoc)
  • optimisation de la gestion des mots dans les éditions : remplacer les identifiants (chaine) de mots dans les pages d'éditions par la position (entier) du mot dans le corpus
  • optimisation de la reconstruction des éditions : calculer les tooltips de mots dans les éditions à la volée : les valeurs de propriétés à afficher sont récupérées et ajoutées au DOM
  • optimisation de la reconstruction des éditions → éditions lazy : gérer des éditions à la demande, qui ne sont construites que lorsque l'utilisateur veut lire l'édition
  • optimisation re-compile des indexes CQP : recompiler partiellement le corpus CQP (seulement les propriétés qui ont changées)

Solution

V1

On peut partir des développements de l'annotation Symogih : on reprend totalement l'UI d'annotation en concordance en mode avancé.

On ajoute un attribut “effect” à un type d'annotation du référentiel : TOKEN versus SEGMENT (effect par défaut)

On ne teste pas les chevauchements, etc. lorsque l'on créé des annotations.

Étendre l'actuelle fonction de sauvegarde des annotations SEGMENT pour aussi [créer/mettre à jour/supprimer] des propriétés de mots dans les fichiers XML-TXM du corpus.

V2

Étape d'amélioration et d'adaptation de l'UI à ce nouveau mode d'annotation.

[SLH: Renommer l'attribut “effect” → “scope”]

[SLH: avec l'annotation des mots, que les utilisateurs utiliseront le plus, je pense qu'il faut revoir la terminologie utilisée pour le mode d'annotation dans les préférences :

  • simple (avec catégories) → annoter par mots-clés (en:annotate by keywords)
  • avancé (avec types+valeurs) → annoter par propriété/valeur (à mettre en premier, et sélectionné par défaut) (en:annotate by property/value)]

[SLH: Dans l'UI d'annotation de concordance, je ferais évoluer l'interface, quand le scope est TOKEN ou de façon générale :

[Annoter|Retirer] avec la catégorie = [   ] (+) valeur = [   ] ... [lignes sélectionnées] [OK] [Cancel]

[Ajouter|Supprimer] la propriété [   ] (+) à la valeur [   ] ... [toutes les lignes] [OK] [Cancel]

Il faut également ajouter une scrollbar horizontale, car le bouton [Cancel] est régulièrement inaccessible.]

V suivants à discuter

V3

Implémenter un indicateur vérifié/pas vérifié :

  • s'il existe une annotation nommée “verif”, on ouvre une colonne supplémentaire
  • la colonne “verif” affiche la valeur de l'annotation : absent/non-vérifié/vérifié/…
  • en cliquant sur la cellule du tableau

V4

Implémenter l'annotation en édition.

Piste possible : récupérer les devs qui ont été fait pour Democrat et la réécriture d'Analec pour TXM → récupérer une partie de l'interface d'annotation dans l'édition = la possibilité d'aller vers les concordances, annoter directement depuis l'édition, sélectionner des annotations, styler les annotations existantes.

Piste possible : intégration des modèles Analec et Symogih et des UIs

V5

Implémenter l'ajout, le retrait, la segmentation et la fusion de tokens.

État de l'art

Excel

notes réunions du 6 juin

colonnes :

  • numero du mot dans le corpus
  • id du mot
  • id du texte du mot
  • propriété : pos
  • annotation
  • contexte gauche
  • contexte droit

Palm

notes réunions du 6 juin

  1. lexique trié par pos
  2. lien vers concordances
  3. on annote toute la concordance avec le même lemme L1
    • Le lexique DMF est ouvert pour choisir le bon lemme L1 parmis les autres lemmes LN
  4. parcours de l'édition dans l'ordre de la concordance pour vérifier en contexte les lemmes et éventuellement corriger avec un des autres lemmes LN du DMF
    • Un style dans l'édition permet de savoir si un mot
      • n'a pas de lemme
      • a un lemme non vérifié
      • a un lemme vérifié
    • La correction d'un lemme ouvre la fenêtre modale d'annotation contenant les informations :
      • lemme
      • pos
      • vérifié

Recettes

Recette 1

On reproduit une partie du workflow de Palm :

  • On calcule un Index des pos
  • On double clic sur un pos pour ouvrir la concordance du pos sélectionné
  • On démarre l'annotation → le type d'annotation “lemma” est sélectionné par défaut
  • On annote le lemme de toute la concordance
  • On double-clic le premier mot de la concordance → l'édition s'ouvre au dessus
  • On ouvre le lexique DMF depuis TXM
  • On boucle sur toutes les lignes
    • On vérifie le lemme de la ligne
    • Si le contexte n'est pas suffisant, on retourne au texte avec un double-clic
    • On corrige le lemme de la ligne sélectionnée dans la concordance
public/annotation/specs_assisted_annotation/specs_annotation_token.txt · Dernière modification: 2019/10/01 16:55 par matthieu.decorde@ens-lyon.fr