Outils pour utilisateurs

Outils du site


Panneau latéral

public:composant_de_tokenisation

Ceci est une ancienne révision du document !


Composant de tokenisation

Objectif

Améliorer la relation entre la tokenisation et la lemmatisation.

Méthode

Description de la méthode de travail pour atteindre l'objectif, entre autres.

État de la plateforme

Il existe plusieurs Tokenizers :

  • SimpleTokenizerXml* : utilisé par tous les modules sauf XML-TEI-BFM
  • TeiTokenizer : réécriture plus générique du tokenizer (filtre) de la BFM pour la TEI.
  • TokenizerXML : règles de Tokenisation (avant,après, …)
  • TTTokenizer : réécriture non-terminée du tokenizer TreeTagger (tokenize.pl)
  • TranscriberTokenizer* : Tokenize les entités nommées (Event=XXX) et les marques spéciale d'oralité (ex : !)
  • Tokeniser* (et OneTagPerLine) : filtre de tokenisation utilisé par l'import BFM

* : tokenizer couramment utilisé par les modules d'import

Avancement dans l'élaboration de la solution

Solution

État de l'art

  • Lucene
  • OpenNLP
  • Flex ou JavaCC
  • Unitex
  • … à compléter

Prototypes

Version finale

Documentation

Utilisateur

Développeur

Recette

Protocole de test

Alpha

Beta

État courant

public/composant_de_tokenisation.1430925403.txt.gz · Dernière modification: 2015/05/06 17:16 par matthieu.decorde@ens-lyon.fr