Outils pour utilisateurs

Outils du site


public:spec_exploitation_annotation

Exploitation de l'annotation

L'annotation est soit :

  • pré-encodée en XML-TEI ou autre format
  • calculée à la volée lors de l'import : exemple TreeTagger
  • calculée à la demande par une extension : exemple TreeTagger
  • saisie de façon assistée dans TXM
    • par concordances
    • par édition

Elle est ensuite :

  • projetée (réduction XML-TEI → CQL) pour exploitation dans CQP
  • importée directement pour exploitation : exemple TIGERSearch
  • exploitée par moteur : exemple CQP ou TIGERSearch
  • exploitée de façon combinée : exemple CQP et TIGERSearch, CQP et XQuery
  • transformée pour construire des éditions de textes (pagination, mise en forme, flyover)
  • transférée entre représentations : exemple transfert d'URS vers CQL (?)

Annotation de textes - métadonnées

Solution

  • on importe un fichier metadata.csv
  • on édite les métadonnées en page de garde des éditions
  • on exploite à travers la structure 'text' de CQP

Annotation infra textes - structuration, etc. -> plans textuels

Solution

  • on importe une représentation XML-TEI
  • on édite les métadonnées en page de garde des éditions
  • on exploite à travers les structures 'text' de CQP

Annotation lexicale

Solution

  • on importe une représentation XML-TEI ou on fait appeler TreeTagger à la volée
  • on édite les propriétés de mots dans des flyover des éditions
  • on exploite à travers CQP

Annotation syntaxique

Visualisation

Solution 1

  • on importe une représentation TIGERSearch
  • on édite les graphes syntaxiques dans des résultats TIGERSearch
  • on exploite à travers TIGERSearch

Solution 2

  • on importe une représentation Icarus ?
  • on édite les graphes syntaxiques Icarus
  • on exploite à travers Icarus

Annotation sémantique

Solution

  • on annote par concordances des catégories SyMoGIH ou autre
  • on exploite à travers CQP

Annotation URS-Glozz-Analec

Le modèle initial URS concerne l'annotation d'un texte.

L'implémentation TXM étend le modèle :

  • à un corpus de textes plutôt qu'à un seul texte
  • à des textes structurés
  • à des objets composites comme une partition1)

Il s'agit ensuite de combiner l'exploitation de ces annotations avec les autres annotations comme les structures CQL. Remarque : si CQL s'avère trop limité pour gérer les structures d'origine, on peut envisager une combinaison plutôt avec le moteur XQuery sur la base de la représentation XML-TXM des textes.

Solution

FEATURE

  • remplacer la fenêtre SWING de gestion de la structure
  • macro de vérification du corpus DEMOCRATLYON : annotation Democrat
    • macro de vérification des doublons de CHAINE :
    • macro de suppression valeurs non utilisées : CheckAnnotationStructureValues
    • macro de suggestion de fusion de valeurs utilisées proches :
  • annuler sélection dans progression par clic dans blanc
  • hyperlien Progression → Concordance avec une liste de match
  • développer la gestion des hyperliens depuis une page HTML ouverte dans TXM
  • UnitIndex : affichage dans une page HTML avec des hyperliens vers Progression/Concordance/etc.
  • description Partition : afficher les tailles dans la console
  • description Partition : afficher les stats fmin, fmax, v et t total et idem pour chaque partie
  • gestion de datation de sauvegardes de corpus
    • créer une UI lors de l'export du binaire
      • champ Description suffisamment grand
    • construire le nom du fichier binaire proposé à la sauvegarde avec le pattern suivant : NOMCORPUS-YYYY-MM-DD-hh-mm.txm
    • la description est enregistrée dans la description du corpus
  • calculs d'Analec manuel Analec
    • Correlations 23
    • AFC 24
    • Valeurs typiques 25
  • option Progression : afficher points ; afficher lignes

BUG

  • synchro corpus Analec lors d'import/chargement/suppression de corpus
  • progression sur tout DEMOCRATLYON3 : chart qui bug parce que y'a duplication
1)
composée d'un ensemble de sous-corpus disjoints
public/spec_exploitation_annotation.txt · Dernière modification : 03/10/2019 11:37 de alexei.lavrentev@ens-lyon.fr