Outils pour utilisateurs

Outils du site


public:composant_de_tokenisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
public:composant_de_tokenisation [2018/04/05 14:27]
slh@ens-lyon.fr
public:composant_de_tokenisation [2019/02/26 10:30] (Version actuelle)
slh@ens-lyon.fr
Ligne 50: Ligne 50:
  
 ==== Solution 1 : SimpleTokenizerXml ==== ==== Solution 1 : SimpleTokenizerXml ====
 +
 +=== Formats ===
 +
 +== Entrée ==
 +
 +  * fichier XML
 +  * pas de w ou w pré-encode certains ou tous les mots;
 +    * quand w :
 +      * les attributs w@PP deviennent des propriétés de mots
 +      * attention, si existant, l’attribut @id doit être conforme au format XML-TXM
 +
 +== Sortie ==
 +
 +  * fichier XML
 +  * w encode tous les mots (pour indexation)
 +    * les attributs encodent les propriétés de mots
 +    * l’attribut @id des w créés est forgé (cf format XML-TXM).
  
 === Gestion de la langue === === Gestion de la langue ===
public/composant_de_tokenisation.txt · Dernière modification: 2019/02/26 10:30 par slh@ens-lyon.fr