Extension TreeTagger

Objectif

Depuis TXM 0.?? TreeTagger est interfacé dans les modules d'import. Mais on veut donner accès aux outils de TreeTagger après l'import. On pourra ainsi créer des modèles TreeTagger à partir de corpus TXM, appliquer un ou plusieurs modèles TreeTagger et comparer leurs résultats.

Méthode

Créer une extension “TreeTagger” qui interface en priorité :

  • l'application de modèle TreeTagger à un corpus TXM (hors de l'import)
  • la création de modèles TreeTagger à partir d'un corpus TXM

Solution

Apprentissage de modèle (Train)

Dans le plugin “TreeTagger” ajouter la commande “Entrainer” avec comme arguments :

  • corpus : le corpus d'apprentissage : un corpus binaire (ou un sous corpus de texte) de TXM (sélectionné dans la vue corpus)
  • model : le chemin du modèle à créer (.par)
  • lexique : le lexique : un fichier TSV compatible avec TreeTagger
  • posProperty : la propriété morphosyntaxe à utiliser
  • lemmaProperty : la propriété lemme à utiliser
  • options : une chaine d'options TreeTagger pour l'apprentissage

La commande :

  1. prépare le fichier TXT d'apprentissage de TreeTagger (format form/pos) à partir des fichiers XML-TXM du corpus binaire qui correspondent au corpus d'apprentissage
  2. on appelle TreeTagger avec les paramètres précédents dans un fichier <model>.par

Vérification de l'intégrité du lexique

TreeTagger vérifie ces contraintes mais s'arrête dès la première erreur rencontrée. Pour aider à réaliser un diagnostic exhaustif d'emblée, il faut développer une analyse de ces contraintes a priori :

  • fichier des étiquettes pos (cattex.txt) : aucun mot du CORPUSGOLD ne doit avoir d'étiquette pos absente de cattex.txt
  • fichier lexique (lexique.tsv) : tous les couples forme/pos du CORPUSGOLD doivent exister dans lexique.tsv

Le diagnostic affiche :

  • la liste des 'pos TAB fréquence' (à exporter dans un fichier) du CORPUSGOLD absentes de cattext.txt
  • ou bien la liste des 'pos fréquence, pos fréquence…' (troncable) du CORPUSGOLD absentes de cattext.txt
  • la liste des couples 'forme TAB pos TAB fréquence' (à exporter dans un fichier) du CORPUSGOLD absentes de cattext.txt
  • ou bien la liste des couples 'forme/pos fréquence, forme/pos fréquence…' (troncable) du CORPUSGOLD absentes de cattext.txt

Projection de modèle (Apply)

Dans le plugin “TreeTagger” ajouter la commande “Appliquer” avec comme arguments :

  • corpus : le corpus binaire à annoter (sélectionné dans la vue Corpus)
  • model : le chemin du modèle (.par)
  • properties : noms des propriétés à ajouter/modifier ('fropos,frolemma') si différent du nom du modèle
  • options: les options TreeTagger

La commande :

  1. Prépare les fichiers sources pour TreeTagger à partir des fichiers XML-TXM du corpus
  2. appelle TreeTagger
  3. injecte les nouvelles valeurs de propriété dans les fichiers XML-TXM
  4. met à jour les index CQP et les éditions du corpus
public/specs_plugin_treetagger.txt · Dernière modification: 2018/02/26 13:47 par slh@ens-lyon.fr