Outils pour utilisateurs

Outils du site


public:annotation

revenir à l'accueil

Annotation

Pour qu'une annotation existe, nous avons besoin de 4 éléments :

  • une séquence textuelle dont les index de début et fin sont connus
  • un index dans un référentiel auquel cette séquence est associée
  • une date à laquelle a été crée l'annotation
  • l'annotateur, représenté par son identifiant

On peut imaginer associer une à plusieurs notes à la relation (niveau de fiabilité, commentaire pour la construction de la catégorie à travers le processus d'annotation, …)

Cette annotation est associée à un corpus donné.

Deux corpus peuvent être en cours d'annotation simultanément.

Mises en oeuvre

Moteur d'annotation

Les outils d'annotation sont ajoutés à TXM via le mécanisme des moteurs de TXM, en utilisant le type de moteur 'ANNOTATION'. Ce mécanisme est utilisé pour les outils d'annotation automatique (eg TreeTagger) et pour les outils d'annotation interactifs (eg annotation de propriétés de mots par concordances).

La classe org.txm.annotation.core.AnnotationEnginesManager charge tous les org.txm.annotation.core.AnnotationEngine implémentés dans les différents plugins TXM pour l'annotation (ex: org.txm.treetagger.core).

Pour être fonctionnel, un AnnotationEngine doit implémenter les méthodes suivantes :

  • getName() : nom de l'outil → utilisé par le module d'import pour permettre à l'utilisateur de choisir un moteur d'annotation automatique
  • isAutomatic() : indique si le moteur peut annoter automatiquement lors de l'import
    • getStringTokenizer() : si le moteur a besoin d'une tokenization particulière pour travailler, il doit proposer un tokenizer de chaine pour
  • hasAnnotationsToSave() : indique s'il y a des annotations à sauvegarder avant de fermer TXM ou un onglet de résultats
  • processFile(xmlFile, corpusDirectory, parameters) : traite un fichier dans le cas d'un moteur automatique
    • parameters: transfert les paramètres à donner aux moteurs. Il y a pour l'instant 2 paramètres possibles :
      • lang : la langue du corpus → doit permettre au moteur de trouver le modèle adapté
      • langs : une HashMap qui associe un fichier xml à traiter avec une langue

Lors de l'import, la méthode AnnotationEngine.processDirectory() du moteur sélectionné est appelée pour travailler sur le répertoire “CORPUS/txm” des fichiers XML-TXM.

Si un moteur d'annotation peut être utilisé dans une interface de TXM (annotation interactive) il doit implémenter le point d'extension AnnotationArea. Cela lui permettra d'être inclus dans la liste des outils d'annotation disponibles du bouton “Annoter” de la toolbar des éditeurs de résultats.

Automatique : TAL

Assistée

Fonctionnalités

Fonction d'analyse dans TXM

L'analyse dans TXM n'est possible qu'à partir du moment où les annotations sont "enregistrées" lors du "commit".

On peut distinguer :

  • les outils de TXM s'appuyant sur des annotations pour réaliser une analyse
  • le fait de s'appuyer sur des annotations pour faire des annotations (recherche d'annotations → concordance → nouvelle annotation)

Liste des fonctionnalités pouvant utiliser les annotations :

Scénarii d'usage des fonctionnalités

  • pour le repérage d'entités nommées
  • pour la lemmatisation, utilisation de dictionnaire

Il faut pouvoir distinguer principalement deux usages :

  • un usage “stabilo” (Approche inductive), ressemblant à l'activité d'analyse qualitative, proche de la méthode par théorisation ancrée. On démarre la réflexion, on est dans “un codage ouvert” avec l'accumulation de nouveaux codes, proche même des séquences textuelles trouvées dans le texte (InVivo). L'annotation reste proche d'un syntagme assez long qui pourra éventuellement donner lieu à un regroupement par la suite.
  • un usage “expert” (Approche déductive), où l'on se situe dans une indexation avec l'utilisation d'ontologies, de référentiels pré-existants.
public/annotation.txt · Dernière modification: 2021/04/15 10:27 par matthieu.decorde@ens-lyon.fr