Liste de liens :
Liste de liens :
Améliorer la tokenisation et la lemmatisation.
Améliorer la compatibilité entre la tokenisation et la lemmatisation dans le cas de TreeTagger.
Améliorer la relation entre la tokenisation et le formatage des mots dans les éditions.
Il faut gérer les clitiques :
Il faut gérer des caractères avec espaces avant et après dans l'édition :
Il faudrait gérer des caractères dont la gestion typographique dans la source est différente de cette réalisée dans l'édition par défaut :
Il existe plusieurs Tokenizers :
* : tokenizer couramment utilisé par les modules d'import
Pour améliorer la lemmatisation TreeTagger pour les langues (en, fr, ga et it).
Faire évoluer le tokenizer XML de TXM en intégrant les règles de tokenization des clitiques des langues (en, fr, ga et it) du script Perl de tokenisation TreeTagger.
La langue de tokenisation est réglée dans le formulaire d'import (fichier import.xml).
Le tokenizer utilise les 2 premières lettres de la langue indiquée (ex : fro → fr) pour pouvoir déclencher la tokenisation propre à une langue tout en ayant des variantes de fichiers paramètres TreeTagger pour une même langue (eg tous les fichiers paramètres du français - partageant les mêmes règles de segmentation du français - doivent avoir un nom commençant par 'fr').
On découpe le flux de caractères par les classes suivantes pour obtenir les mots :
Il faut au moins qu'une classe de séparateur soit définie.
Si une classe n'est pas défini, on ne l'utilise pas pour découper le flux (ticket #1878).
Établir un corpus de test stable qui contient tous les cas que l'on souhaite :
le résultat de la tokenisation du corpus stable doivent être sauvegardés pour pouvoir être comparés quand le code du tokenizer changera.
Plus tard :