Outils pour utilisateurs

Outils du site


public:composant_de_tokenisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
public:composant_de_tokenisation [2021/09/30 18:13]
matthieu.decorde@ens-lyon.fr [Stratégie]
public:composant_de_tokenisation [2021/09/30 18:15] (Version actuelle)
matthieu.decorde@ens-lyon.fr [Stratégie]
Ligne 17: Ligne 17:
  
 Une fois déterminés,​ les mots servent par exemple aux index du moteur CQP mais également à la relation entre ces index et les éditions de textes (pour le retour au texte). Cette relation est gérée par un identifiant de mot unique obéissant à une politique de gestion d'​identifiants propre à TXM. Si des sources XML respectent cette politique, TXM peut tenir compte d'​identifiants pré-encodés dans les sources. Une fois déterminés,​ les mots servent par exemple aux index du moteur CQP mais également à la relation entre ces index et les éditions de textes (pour le retour au texte). Cette relation est gérée par un identifiant de mot unique obéissant à une politique de gestion d'​identifiants propre à TXM. Si des sources XML respectent cette politique, TXM peut tenir compte d'​identifiants pré-encodés dans les sources.
 +
 +
 +=== Imports basés sur TXT ===
  
 Pour les sources en texte brut (TXT) TXM a un contrôle total sur la détection des mots et sur leur équipement,​ notamment en identifiants xml:id pour la gestion (interne) du retour au texte. Pour les sources en texte brut (TXT) TXM a un contrôle total sur la détection des mots et sur leur équipement,​ notamment en identifiants xml:id pour la gestion (interne) du retour au texte.
 +
 +=== Imports basés sur XML ===
  
 Paramètres d'​import de Segmentation lexicale : Paramètres d'​import de Segmentation lexicale :
public/composant_de_tokenisation.1633018439.txt.gz · Dernière modification: 2021/09/30 18:13 par matthieu.decorde@ens-lyon.fr