Outils pour utilisateurs

Outils du site


public:annotation:specs_manual_annotation

Spécifications de l'annotation assistée

L'annotation assistée est développée dans différents chantiers correspondant à différents projets ANR ainsi qu'au développement du tronc commun de TXM 0.7.8.

Chantier SyMoGIH-TXM (UMR LARHRA/PHN - UMR IHRIM/Cactus)

Annotations SyMoGIH & simple/avancé.

Remarque : actuellement ce développement a lieu dans le tronc commun TXM 0.7.8.

Chantier DEMOCRAT (projet ANR DEMOCRAT)

Annotations Analec (unités, schémas et relations).

Développement dans l'extension Analec.

Chantier PALAFRA (projet ANR-DFG PALAFRA)

Annotation de propriétés de mots (pos, lemme, forme…).

Développement dans ???.

Use case

On a un corpus d'ancien français BFM importé par XTZ étiqueté par TreeTagger (pos+lemme). Dans TXM,

  1. on fait une première passe de correction :
    1. on ouvre un lexique hiérarchique sur la propriété “pos”
    2. pour un “pos” qui nous intéresse, on ouvre la concordance des “formes” de cette “pos”.
    3. on parcours toutes les formes la concordance selon un tri sur le “pos”
    4. on corrige
  2. on fait une deuxième passe de vérification :
    1. on parcours toutes les formes la concordance dans l'ordre du corpus
    2. on vérifie et corrige si besoin

Fonctions de création d'annotation

GUI

Un corpus importé par le module d'import XTZ sélectionné dans la vue Corpus :

  • 2 boutons supplémentaires dans la toolbar
  • 2 commandes supplémentaires dans le menu principal Corpus
  • 2 commandes supplémentaires dans le menu contextuel de la vue Corpus

Les résultats cibles pour supporter le scénario sont :

  • C concordance
  • E édition
  • I index

Les commandes sont :

  • Annoter :
    • démarre un mode d'annotation à choisir parmi
      • corpus : modifier le corpus (cible CQP) ← choix par défaut
        • mots
          • mot simple
          • séquence de mots (exemple : tous les mots du pivot d'une concordance) pour plus tard
          • segmentation pour plus tard
          • propriétés 6.C.alpha
        • structures
          • délimitation
          • propriétés 7.?.?
      • pivot : modifier la représentation pivot (cible XML-TXM) pour plus tard
        • éléments w
          • segmentation
          • sous-éléments ana
        • autres éléments
          • délimitation
          • attributs
      • sources : modifier les sources (cible XML-TEI) pour plus tard
        • éléments TEI
          • délimitation
          • attributs
      • référentiel : annoter avec des Catégories (cible CQP)
        • simple (SQL local + catégorie) 1.C.prod
        • expert (SQL local + catégorie + valeur) 2.C.prod
        • Symogih (SQL distant + read only + identification) 3.C.beta
      • URS : annoter avec des Unités URS (cibles URS et CQP?)
        • unités 4.E.prod
        • relations
        • schémas 5.E.beta
  • Enregistrer les annotations :
    • s'affiche en mode “en cours d'annotation”
    • quitte le mode “en cours d'annotation”

Bouton de démarrage d'annotation :

[ crayon |v]

“v” affiche tous les modes d'annotation disponibles

Affichage de l'alternative de type d'annotation

En fonction du mode d'annotation et de la commande (Édition, Concordance, etc.), des boutons radios sont affichés pour basculer plus facilement entre les types d'annotation

* Démarrage de l'annotation

[ crayon |v]
	Mots (propriétés) <- défaut
	Séquences de mots (catégorie)
	Séquences de mots (catégorie/valeur)
        Séquences de mots (unités URS)
        Ensembles d'unités URS (schémas URS)
  • Mode URS : déclenché par l'une des 2 entrées du mode URS :
    [pen |v] ѳ unité o schéma
  • Mode KR : déclenché par l'une des 2 entrées du mode KR :
    [pen |v]
  • Mode modifier corpus : déclenché par l'entrée Mots :
    [pen |v]

Permet :

  • un accès plus simple aux types d'annotation disponibles
  • affiche le mode d'annotation courant

Cible TXM 0.8.0

Modes disponibles en concordance :

  • corpus : modifier le corpus (cible CQP) ← choix par défaut
    • mots
      • propriétés 6.C.alpha
  • référentiel : annoter avec des Catégories (cible CQP)
    • simple (SQL local + catégorie) 1.C.prod
    • expert (SQL local + catégorie + valeur) 2.C.prod

UI :

[ crayon |v]
	Mots (propriétés) <- défaut
	Séquences de mots (catégorie)
	Séquences de mots (catégorie/valeur)
        Séquences de mots (unités URS)

rq : les boutons radios ne sont pas affichés à cause de l'espace restreint

Comportement :

  • le clic sur le bouton crayon lance le mode courant
  • le mode courant par défaut est “Mots (propriétés)”
  • l'ouverture du menu du bouton permet de choisir un mode d'annotation dans une liste
    • le choix du mode dans cette liste change le mode d'annotation courant et lance ce mode d'annotation

Modes disponibles en édition :

  • URS : annoter avec des Unités URS (cibles URS et CQP?)
    • unités 4.E.prod
    • schémas 5.E.beta

UI :

[ crayon |v] ѳ unités o schémas
	Séquences de mots (unités URS) <- défaut
	Ensembles d'unités URS (schémas URS)

Commandes

Fonctions de correction

S'agit-il de pouvoir :

  • revenir en arrière sur un commit
  • permettre la suppression, la modification d'une annotation (liaison à un autre index, ajout d'une note/remarque sur cette liaison).

Fonctions de visualisation et vérification, avant commit

  • Pendant l'annotation, pouvoir répondre globalement et plus spécifiquement par rapport à un type d'annotation. Par exemple : Combien de chaines textuelles incluant “Lyon”, sont reliées à l'acteur collectif “Municipalité de Lyon (4ème)” ou juste à un acteur collectif plus généralement ?
  • Après l'annotation : chercher quelles sont les comptages utiles pour présenter une à plusieurs synthèses sur les annotations effectuées (et celles en attente ?).

Recettes

Chantier PHN-BHE

Chantier DEMOCRAT

public/annotation/specs_manual_annotation.txt · Dernière modification: 2018/06/26 16:02 par matthieu.decorde@ens-lyon.fr