Exploitation de l'annotation

L'annotation est soit :

  • pré-encodée en XML-TEI ou autre format
  • calculée à la volée lors de l'import : exemple TreeTagger
  • calculée à la demande par une extension : exemple TreeTagger
  • saisie de façon assistée dans TXM
    • par concordances
    • par édition

Elle est ensuite :

  • projetée (réduction XML-TEI → CQL) pour exploitation dans CQP
  • importée directement pour exploitation : exemple TIGERSearch
  • exploitée par moteur : exemple CQP ou TIGERSearch
  • exploitée de façon combinée : exemple CQP et TIGERSearch, CQP et XQuery
  • transformée pour construire des éditions de textes (pagination, mise en forme, flyover)
  • transférée entre représentations : exemple transfert d'URS vers CQL (?)

Annotation de textes - métadonnées

Solution

  • on importe un fichier metadata.csv
  • on édite les métadonnées en page de garde des éditions
  • on exploite à travers la structure 'text' de CQP

Annotation infra textes - structuration, etc. -> plans textuels

Solution

  • on importe une représentation XML-TEI
  • on édite les métadonnées en page de garde des éditions
  • on exploite à travers les structures 'text' de CQP

Annotation lexicale

Solution

  • on importe une représentation XML-TEI ou on fait appeler TreeTagger à la volée
  • on édite les propriétés de mots dans des flyover des éditions
  • on exploite à travers CQP

Annotation syntaxique

Solution 1

  • on importe une représentation TIGERSearch
  • on édite les graphes syntaxiques dans des résultats TIGERSearch
  • on exploite à travers TIGERSearch

Solution 2

  • on importe une représentation Icarus ?
  • on édite les graphes syntaxiques Icarus
  • on exploite à travers Icarus

Annotation sémantique

Solution

  • on annote par concordances des catégories SyMoGIH ou autre
  • on exploite à travers CQP

Annotation URS-Glozz-Analec

Le modèle initial URS concerne l'annotation d'un texte.

L'implémentation TXM étend le modèle :

  • à un corpus de textes plutôt qu'à un seul texte
  • à des textes structurés
  • à des objets composites comme une partition1)

Il s'agit ensuite de combiner l'exploitation de ces annotations avec les autres annotations comme les structures CQL. Remarque : si CQL s'avère trop limité pour gérer les structures d'origine, on peut envisager une combinaison plutôt avec le moteur XQuery sur la base de la représentation XML-TXM des textes.

Solution

1) composée d'un ensemble de sous-corpus disjoints
public/spec_exploitation_annotation.txt · Dernière modification: 2018/05/24 10:53 par slh@ens-lyon.fr