Outils pour utilisateurs

Outils du site


Panneau latéral

public:annotation:tal_treetagger

TreeTagger

version courte parce que le wiki m'a deco

On utilise TreeTagger dans TXM .

On a une extension prototype pour annoter et apprendre avec TreeTagger sur un corpus déjà importé

On a 2 extensions pour installer TreeTagger et ses modèles

Spécifications

Annotation lors de l'import de corpus

Procédure

  • on lance TXM
  • on choisis le module d'import et on règle une langue pour tout le corpus. Le modèle utilisé sera “<la langue>.par”
  • TXM vérifie la présence de TreeTagger et du modèle
  • l'import démarre
  • phase “importer” : les textes sont tokénisés et codés au format XML-TXM
  • phase “annotate” : pour chaque texte :
    • on créé le fichier source tabulé de TreeTagger avec les mots <w> du fichier XML-TXM
    • on créé la description à insérer dans le teiHeader du XML-TXM
    • on lance TreeTagger qui créé le fichier tabulé résultat
    • on créé un fichier XML TEI standoff des annotations <la langue>pos et <la langue>lemma (codés dans des <linkGrp> et <link>)
    • on injecte les annotations et la description dans le fichier XML-TXM
  • phase “compiler” : les annotations sont ajoutées au fichier source CWB

Optimisations

  • supprimer les fichiers en fin de traitement
  • supprimer l'étape XMLTEI standoff
  • lancer les traitements en parallèle sur les textes
  • préparer des instances de TreeTagger par langue

Choix du modèle TreeTagger

  • Dans TXM 0.8.0 et antérieur, il n'y a qu'une langue par corpus → prévoir un choix de langue par texte
  • Dans TXM 0.8.0 et antérieur, la langue est le nom du modèle → prévoir de séparer le choix de la langue et du modèle. Éventuellement prévoir un catalogue pour aider à sélectionner le modèle.

Annotation et apprentissage sur un corpus TXM

Voir l'extension TreeTagger prototype

public/annotation/tal_treetagger.txt · Dernière modification: 2019/08/23 11:02 par matthieu.decorde@ens-lyon.fr