Outils pour utilisateurs

Outils du site


public:composant_de_tokenisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:composant_de_tokenisation [2017/01/09 16:39]
slh@ens-lyon.fr
public:composant_de_tokenisation [2019/02/26 10:30] (Version actuelle)
slh@ens-lyon.fr
Ligne 7: Ligne 7:
 Améliorer la compatibilité entre la tokenisation et la lemmatisation dans le cas de TreeTagger. Améliorer la compatibilité entre la tokenisation et la lemmatisation dans le cas de TreeTagger.
  
-===== Méthode =====+Améliorer la relation entre la tokenisation et le formatage des mots dans les éditions.
  
 +===== Spécification =====
  
-==== Solution 1 : SimpleTokenizerXml====+==== Gestion des tirets ==== 
 + 
 +Il faut gérer les clitiques : 
 +  * avez-vous : OK 
 +  * est-t-il : ??? 
 + 
 +Il faut gérer des caractères avec espaces avant et après dans l'​édition : 
 +  * 'GP de visages de prisonniers- Pano sur un libéré marchant sur une route de campagne'​ -> 'GP de visages de prisonniers - Pano sur un libéré marchant sur une route de campagne'​ 
 + 
 +Il faudrait gérer des caractères dont la gestion typographique dans la source est différente de cette réalisée dans l'​édition par défaut : 
 +  * 'GP de visages de prisonniers- Pano sur un libéré marchant sur une route de campagne'​ -> 'GP de visages de prisonniers- Pano sur un libéré marchant sur une route de campagne'​ 
 + 
 + 
 + 
 +==== État de la plateforme ==== 
 + 
 +Il existe plusieurs Tokenizers : 
 +  * SimpleTokenizerXml* : utilisé par tous les modules sauf XML-TEI-BFM 
 +  * TeiTokenizer : réécriture plus générique du tokenizer (filtre) de la BFM pour la TEI. 
 +  * TokenizerXML : règles de Tokenisation (avant,​après,​ ...) 
 +  * TTTokenizer : réécriture non-terminée du tokenizer TreeTagger (tokenize.pl) 
 +  * TranscriberTokenizer* : Tokenize les entités nommées (Event=XXX) et les marques spéciale d'​oralité (ex : %%!%%) 
 +  * Tokeniser* (et OneTagPerLine) : filtre de tokenisation utilisé par l'​import BFM 
 + 
 +* : tokenizer couramment utilisé par les modules d'​import 
 + 
 +==== Avancement dans l'​élaboration de la solution ==== 
 + 
 +===== Solution ===== 
 + 
 +==== État de l'art ==== 
 + 
 +  * Lucene 
 +  * OpenNLP 
 +  * Flex ou JavaCC 
 +  * Unitex 
 +  * ... à compléter 
 + 
 +==== Solution 1 : SimpleTokenizerXml ==== 
 + 
 +=== Formats === 
 + 
 +== Entrée == 
 + 
 +  * fichier XML 
 +  * pas de w ou w pré-encode certains ou tous les mots; 
 +    * quand w : 
 +      * les attributs w@PP deviennent des propriétés de mots 
 +      * attention, si existant, l’attribut @id doit être conforme au format XML-TXM 
 + 
 +== Sortie == 
 + 
 +  * fichier XML 
 +  * w encode tous les mots (pour indexation) 
 +    * les attributs encodent les propriétés de mots 
 +    * l’attribut @id des w créés est forgé (cf format XML-TXM).
  
 === Gestion de la langue === === Gestion de la langue ===
Ligne 46: Ligne 102:
  
 le résultat de la tokenisation du corpus stable doivent être sauvegardés pour pouvoir être comparés quand le code du tokenizer changera. le résultat de la tokenisation du corpus stable doivent être sauvegardés pour pouvoir être comparés quand le code du tokenizer changera.
- 
-==== État de la plateforme ==== 
- 
-Il existe plusieurs Tokenizers : 
-  * SimpleTokenizerXml* : utilisé par tous les modules sauf XML-TEI-BFM 
-  * TeiTokenizer : réécriture plus générique du tokenizer (filtre) de la BFM pour la TEI. 
-  * TokenizerXML : règles de Tokenisation (avant,​après,​ ...) 
-  * TTTokenizer : réécriture non-terminée du tokenizer TreeTagger (tokenize.pl) 
-  * TranscriberTokenizer* : Tokenize les entités nommées (Event=XXX) et les marques spéciale d'​oralité (ex : %%!%%) 
-  * Tokeniser* (et OneTagPerLine) : filtre de tokenisation utilisé par l'​import BFM 
- 
-* : tokenizer couramment utilisé par les modules d'​import 
- 
-==== Avancement dans l'​élaboration de la solution ==== 
- 
-===== Solution ===== 
- 
-==== État de l'art ==== 
- 
-  * Lucene 
-  * OpenNLP 
-  * Flex ou JavaCC 
-  * Unitex 
-  * ... à compléter 
  
 ==== Prototypes ==== ==== Prototypes ====
public/composant_de_tokenisation.1483976366.txt.gz · Dernière modification: 2017/01/09 16:39 par slh@ens-lyon.fr