Outils pour utilisateurs

Outils du site


public:composant_de_tokenisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:composant_de_tokenisation [2021/09/30 18:07]
matthieu.decorde@ens-lyon.fr [Stratégie]
public:composant_de_tokenisation [2021/09/30 18:15] (Version actuelle)
matthieu.decorde@ens-lyon.fr [Stratégie]
Ligne 17: Ligne 17:
  
 Une fois déterminés,​ les mots servent par exemple aux index du moteur CQP mais également à la relation entre ces index et les éditions de textes (pour le retour au texte). Cette relation est gérée par un identifiant de mot unique obéissant à une politique de gestion d'​identifiants propre à TXM. Si des sources XML respectent cette politique, TXM peut tenir compte d'​identifiants pré-encodés dans les sources. Une fois déterminés,​ les mots servent par exemple aux index du moteur CQP mais également à la relation entre ces index et les éditions de textes (pour le retour au texte). Cette relation est gérée par un identifiant de mot unique obéissant à une politique de gestion d'​identifiants propre à TXM. Si des sources XML respectent cette politique, TXM peut tenir compte d'​identifiants pré-encodés dans les sources.
 +
 +
 +=== Imports basés sur TXT ===
  
 Pour les sources en texte brut (TXT) TXM a un contrôle total sur la détection des mots et sur leur équipement,​ notamment en identifiants xml:id pour la gestion (interne) du retour au texte. Pour les sources en texte brut (TXT) TXM a un contrôle total sur la détection des mots et sur leur équipement,​ notamment en identifiants xml:id pour la gestion (interne) du retour au texte.
 +
 +=== Imports basés sur XML ===
 +
 +Paramètres d'​import de Segmentation lexicale :
 +  * **tokenizer** les mots : true par défaut
 +  * **re-tokenizer** les mots : false par défaut
 +  * **générer les identifiants de mots** : true par défaut
  
 Pour les sources XML, il y a quatre cas de figure de gestion des mots : Pour les sources XML, il y a quatre cas de figure de gestion des mots :
Ligne 25: Ligne 35:
     * B) TXM trouve des mots pré-encodés : dans ce cas TXM doit forcer l'​équipement en identifiants xml:id pour la gestion du retour au texte, et éventuellement déplacer des xml:id pré-encodés dans un attribut de sauvegarde '​foreign-id'​ (l'​association du forçage des identifiants avec la segmentation lexicale est importante parce qu'​elle permet de gérer le cas où tous les mots sont pré-encodés mais l'​utilisateur n'a pas explicitement demandé à en tenir compte de façon exclusive et les identifiants de mots peuvent ne pas respecter la politique de gestion des identifiants de TXM).     * B) TXM trouve des mots pré-encodés : dans ce cas TXM doit forcer l'​équipement en identifiants xml:id pour la gestion du retour au texte, et éventuellement déplacer des xml:id pré-encodés dans un attribut de sauvegarde '​foreign-id'​ (l'​association du forçage des identifiants avec la segmentation lexicale est importante parce qu'​elle permet de gérer le cas où tous les mots sont pré-encodés mais l'​utilisateur n'a pas explicitement demandé à en tenir compte de façon exclusive et les identifiants de mots peuvent ne pas respecter la politique de gestion des identifiants de TXM).
   * la tokenisation n'est pas activée : TXM délègue la détection des mots à l'​encodage XML, deux cas de figure :   * la tokenisation n'est pas activée : TXM délègue la détection des mots à l'​encodage XML, deux cas de figure :
-    * C) la génération d'​identifiants est activée : TXM force l'​équipement en identifiants xml:id pour la gestion du retour au texte, et éventuellement déplace des xml:id pré-encodés dans un attribut de sauvegarde 'fn-id'+    * C) la génération d'​identifiants est activée : TXM force l'​équipement en identifiants xml:id pour la gestion du retour au texte, et éventuellement déplace des xml:id pré-encodés dans un attribut de sauvegarde 'foreign-id'
     * D) la génération d'​identifiants n'est pas activée : TXM prend les attributs xml:id présents et affiche un message d'​erreur s'il n'y a pas d'​attribut xml:id dans un mot     * D) la génération d'​identifiants n'est pas activée : TXM prend les attributs xml:id présents et affiche un message d'​erreur s'il n'y a pas d'​attribut xml:id dans un mot
       * dans ce cas de figure, la responsabilité du respect de la politique de gestion des identifiants de mots est déléguée aux sources XML. Si la politique n'est pas respectée, le comportement de TXM à l'​exploitation du corpus n'est pas défini.       * dans ce cas de figure, la responsabilité du respect de la politique de gestion des identifiants de mots est déléguée aux sources XML. Si la politique n'est pas respectée, le comportement de TXM à l'​exploitation du corpus n'est pas défini.
public/composant_de_tokenisation.1633018034.txt.gz · Dernière modification: 2021/09/30 18:07 par matthieu.decorde@ens-lyon.fr