Outils pour utilisateurs

Outils du site


public:annotation:tal_treetagger

TreeTagger

On utilise TreeTagger dans TXM comme moteur d'annotation morphosyntaxique :

  • lors de l'import de corpus pour annoter à la volée la morphosynxtaxe et les lemmes
  • Il y a 2 extension pour l'installation automatique de TreeTagger et les modèles FR et EN
  • Il y a une extension prototype pour annoter et apprendre avec TreeTagger sur un corpus déjà importé

Spécifications

Annotation lors de l'import de corpus

Procédure

  • on lance TXM
  • on choisis le module d'import et on règle une langue pour tout le corpus. Le modèle utilisé sera “<la langue>.par”
  • TXM vérifie la présence de TreeTagger et du modèle
  • l'import démarre
  • phase “importer” : les textes sont tokénisés et codés au format XML-TXM
  • phase “annotate” : pour chaque texte :
    • on créé le fichier source tabulé de TreeTagger avec les mots <w> du fichier XML-TXM
    • on créé la description à insérer dans le teiHeader du XML-TXM
    • on lance TreeTagger qui créé le fichier tabulé résultat
    • on créé un fichier XML TEI standoff des annotations <la langue>pos et <la langue>lemma (codés dans des <linkGrp> et <link>)
    • on injecte les annotations et la description dans le fichier XML-TXM
  • phase “compiler” : les annotations sont ajoutées au fichier source CWB

Paramètres d'import

  • Annoter le corpus : oui / non ; par défaut “oui” si TreeTagger est correctement installé
  • nom du modèle d'annotation : le fichier <nom>.par est alors recherché dans le répertoire des modèles de TreeTagger
  • corriger les annotations existantes : oui / non ; par défaut “non”
    • V1:
      • si “oui” est coché les valeurs existantes sont remplacées (et l'annotation existante est perdue)
      • si “non” est coché les valeurs existantes sont conservées (et l'annotation TreeTagger est perdue)
    • V2: mieux gérer les propriétés avec un espace de nommage “txm” et déplacer les propriétés corrigées dans un autre espace de nommage, etc.

Optimisations

  • supprimer les fichiers d'annotation en fin de traitement → voir le paramètre d'improt “supprimer les fichier temporaires”
  • supprimer l'étape XMLTEI standoff
  • lancer les traitements en parallèle sur les textes
  • préparer des instances de TreeTagger par langue

Choix du modèle TreeTagger

  • Dans TXM 0.8.0 et antérieur, il n'y a qu'une langue par corpus → prévoir un choix de langue par texte
  • Dans TXM 0.8.0 et antérieur, la langue est le nom du modèle → prévoir de séparer le choix de la langue et du modèle. Éventuellement prévoir un catalogue pour aider à sélectionner le modèle.

Annotation et apprentissage sur un corpus TXM

Voir l'extension TreeTagger prototype

public/annotation/tal_treetagger.txt · Dernière modification: 2020/12/15 14:25 par matthieu.decorde@ens-lyon.fr