Outils pour utilisateurs

Outils du site


public:annotation

Ceci est une ancienne révision du document !


revenir à l'accueil

Annotation

Pour qu'une annotation existe, nous avons besoin de 4 éléments :

  • une séquence textuelle dont les index de début et fin sont connus
  • un index dans un référentiel auquel cette séquence est associée
  • une date à laquelle a été crée l'annotation
  • l'annotateur, représenté par son identifiant

On peut imaginer associer une à plusieurs notes à la relation (niveau de fiabilité, commentaire pour la construction de la catégorie à travers le processus d'annotation, …)

Cette annotation est associée à un corpus donné.

Deux corpus peuvent être en cours d'annotation simultanément.

Mises en oeuvre

Moteur d'annotation

Les outils d'annotation sont ajoutés à TXM via le mécanisme des moteurs de TXM et le type de moteur ANNOTATION.

La classe org.txm.annotation.core.AnnotationEnginesManager charge les org.txm.annotation.core.AnnotationEngine implémenté dans les différents plugins TXM pour l'annotation (ex: org.txm.treetagger.core).

Pour être fonctionnele, un org.txm.annotation.core.AnnotationEngine doit implémenter les méthodes :

  • getName() : nom de l'outil → utilisé par le module d'import pour permettre à l'utilisateur de choisir un moteur
  • isAutomatic() : indique si le moteur peut annoter automatiquement lors de l'import
  • hasAnnotationsToSave() : indique si il y a des annotations à sauvegarder avant de fermer TXM ou un résultat
  • processFile(xmlFile, corpusDirectory, parameters : traite un fichier dans le cas du moteur automatique
    • parameters: transfert les paramètres à donner aux moteurs. Il y a pour l'instant 2 paramètres possibles :
      • lang : la langue du corpus → doit permettre au moteur de trouver le modèle adapté
      • langs : une HashMap qui associe un fichier xml à traiter avec une langue

Lors de l'import, la méthode AnnotationEngine.processDirectory du moteur sélectionné est appelée pour travailler sur le répertoire “CORPUS/txm” des fichiers XML-TXM.

Si un moteur d'annotation peut être utilisé lors dans une interface de TXM il doit implémenter le point d'extension AnnotationArea qui sera inclus dans la liste des moteurs d'annotation du bouton “annoter” de la toolbar des éditeurs de résultats.

Automatique : TAL

Assistée

Fonctionnalités

Fonction d'analyse dans TXM

L'analyse dans TXM n'est possible qu'à partir du moment où les annotations sont "enregistrées" lors du "commit".

On peut distinguer :

  • les outils de TXM s'appuyant sur des annotations pour réaliser une analyse
  • le fait de s'appuyer sur des annotations pour faire des annotations (recherche d'annotations → concordance → nouvelle annotation)

Liste des fonctionnalités pouvant utiliser les annotations :

Scénarii d'usage des fonctionnalités

  • pour le repérage d'entités nommées
  • pour la lemmatisation, utilisation de dictionnaire

Il faut pouvoir distinguer principalement deux usages :

  • un usage “stabilo” (Approche inductive), ressemblant à l'activité d'analyse qualitative, proche de la méthode par théorisation ancrée. On démarre la réflexion, on est dans “un codage ouvert” avec l'accumulation de nouveaux codes, proche même des séquences textuelles trouvées dans le texte (InVivo). L'annotation reste proche d'un syntagme assez long qui pourra éventuellement donner lieu à un regroupement par la suite.
  • un usage “expert” (Approche déductive), où l'on se situe dans une indexation avec l'utilisation d'ontologies, de référentiels pré-existants.
public/annotation.1616743409.txt.gz · Dernière modification: 2021/03/26 08:23 par matthieu.decorde@ens-lyon.fr