Outils pour utilisateurs

Outils du site


public:composant_de_tokenisation

Ceci est une ancienne révision du document !


Composant de tokenisation

Objectif

Améliorer la relation entre la tokenisation et la lemmatisation.

Méthode

Description de la méthode de travail pour atteindre l'objectif.

Solution 1

Faire évoluer le tokenizer XML de TXM en intégrant des règles de clitiques (en, fr et it) du script de tokenisation TreeTagger :

  • Savoir qu'est-ce-qu'une langue
  • Modifier le script Groovy
    • cas de la langue “??” à guesser → il faut déplacer la logique du guesseur avant la tokenisation

État de la plateforme

Il existe plusieurs Tokenizers :

  • SimpleTokenizerXml* : utilisé par tous les modules sauf XML-TEI-BFM
  • TeiTokenizer : réécriture plus générique du tokenizer (filtre) de la BFM pour la TEI.
  • TokenizerXML : règles de Tokenisation (avant,après, …)
  • TTTokenizer : réécriture non-terminée du tokenizer TreeTagger (tokenize.pl)
  • TranscriberTokenizer* : Tokenize les entités nommées (Event=XXX) et les marques spéciale d'oralité (ex : !)
  • Tokeniser* (et OneTagPerLine) : filtre de tokenisation utilisé par l'import BFM

* : tokenizer couramment utilisé par les modules d'import

Avancement dans l'élaboration de la solution

Solution

État de l'art

  • Lucene
  • OpenNLP
  • Flex ou JavaCC
  • Unitex
  • … à compléter

Prototypes

Version finale

Documentation

Utilisateur

Développeur

Recette

Protocole de test

Alpha

Beta

État courant

public/composant_de_tokenisation.1430925769.txt.gz · Dernière modification: 2015/05/06 17:22 par matthieu.decorde@ens-lyon.fr