Outils pour utilisateurs

Outils du site


public:composant_de_tokenisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:composant_de_tokenisation [2021/06/23 12:17]
slh@ens-lyon.fr [Stratégie]
public:composant_de_tokenisation [2021/09/30 18:15] (Version actuelle)
matthieu.decorde@ens-lyon.fr [Stratégie]
Ligne 17: Ligne 17:
  
 Une fois déterminés,​ les mots servent par exemple aux index du moteur CQP mais également à la relation entre ces index et les éditions de textes (pour le retour au texte). Cette relation est gérée par un identifiant de mot unique obéissant à une politique de gestion d'​identifiants propre à TXM. Si des sources XML respectent cette politique, TXM peut tenir compte d'​identifiants pré-encodés dans les sources. Une fois déterminés,​ les mots servent par exemple aux index du moteur CQP mais également à la relation entre ces index et les éditions de textes (pour le retour au texte). Cette relation est gérée par un identifiant de mot unique obéissant à une politique de gestion d'​identifiants propre à TXM. Si des sources XML respectent cette politique, TXM peut tenir compte d'​identifiants pré-encodés dans les sources.
 +
 +
 +=== Imports basés sur TXT ===
  
 Pour les sources en texte brut (TXT) TXM a un contrôle total sur la détection des mots et sur leur équipement,​ notamment en identifiants xml:id pour la gestion (interne) du retour au texte. Pour les sources en texte brut (TXT) TXM a un contrôle total sur la détection des mots et sur leur équipement,​ notamment en identifiants xml:id pour la gestion (interne) du retour au texte.
 +
 +=== Imports basés sur XML ===
 +
 +Paramètres d'​import de Segmentation lexicale :
 +  * **tokenizer** les mots : true par défaut
 +  * **re-tokenizer** les mots : false par défaut
 +  * **générer les identifiants de mots** : true par défaut
  
 Pour les sources XML, il y a quatre cas de figure de gestion des mots : Pour les sources XML, il y a quatre cas de figure de gestion des mots :
   * la tokenisation est activée :   * la tokenisation est activée :
     * A) TXM trouve et crée des mots dont il a le contrôle total, notamment en identifiants xml:id pour la gestion du retour au texte     * A) TXM trouve et crée des mots dont il a le contrôle total, notamment en identifiants xml:id pour la gestion du retour au texte
-    * B) TXM trouve des mots pré-encodés : dans ce cas TXM doit forcer l'​équipement en identifiants xml:id pour la gestion du retour au texte, et éventuellement déplacer des xml:id pré-encodés dans un attribut de sauvegarde 'fn-id' (l'​association du forçage des identifiants avec la segmentation lexicale est importante parce qu'​elle permet de gérer le cas où tous les mots sont pré-encodés mais l'​utilisateur n'a pas explicitement demandé à en tenir compte de façon exclusive et les identifiants de mots peuvent ne pas respecter la politique de gestion des identifiants de TXM).+    * B) TXM trouve des mots pré-encodés : dans ce cas TXM doit forcer l'​équipement en identifiants xml:id pour la gestion du retour au texte, et éventuellement déplacer des xml:id pré-encodés dans un attribut de sauvegarde 'foreign-id' (l'​association du forçage des identifiants avec la segmentation lexicale est importante parce qu'​elle permet de gérer le cas où tous les mots sont pré-encodés mais l'​utilisateur n'a pas explicitement demandé à en tenir compte de façon exclusive et les identifiants de mots peuvent ne pas respecter la politique de gestion des identifiants de TXM).
   * la tokenisation n'est pas activée : TXM délègue la détection des mots à l'​encodage XML, deux cas de figure :   * la tokenisation n'est pas activée : TXM délègue la détection des mots à l'​encodage XML, deux cas de figure :
-    * C) la génération d'​identifiants est activée : TXM force l'​équipement en identifiants xml:id pour la gestion du retour au texte, et éventuellement déplace des xml:id pré-encodés dans un attribut de sauvegarde 'fn-id'+    * C) la génération d'​identifiants est activée : TXM force l'​équipement en identifiants xml:id pour la gestion du retour au texte, et éventuellement déplace des xml:id pré-encodés dans un attribut de sauvegarde 'foreign-id'
     * D) la génération d'​identifiants n'est pas activée : TXM prend les attributs xml:id présents et affiche un message d'​erreur s'il n'y a pas d'​attribut xml:id dans un mot     * D) la génération d'​identifiants n'est pas activée : TXM prend les attributs xml:id présents et affiche un message d'​erreur s'il n'y a pas d'​attribut xml:id dans un mot
-      * dans ce cas de figure, la responsabilité du respect de la politique de gestion des identifiants de mots est déléguée aux sources XML. Si la politique n'est pas respectée, le comportement de TXM n'est pas défini.+      * dans ce cas de figure, la responsabilité du respect de la politique de gestion des identifiants de mots est déléguée aux sources XML. Si la politique n'est pas respectée, le comportement de TXM à l'​exploitation du corpus ​n'est pas défini.
  
 ==== Options d'​import ==== ==== Options d'​import ====
Ligne 38: Ligne 48:
 Il faut gérer les clitiques : Il faut gérer les clitiques :
   * avez-vous : OK   * avez-vous : OK
-  * est-t-il : ???+  * est t-il : ???
  
 Il faut gérer des caractères avec espaces avant et après dans l'​édition : Il faut gérer des caractères avec espaces avant et après dans l'​édition :
Ligne 99: Ligne 109:
 La langue de tokenisation est réglée dans le formulaire d'​import (fichier import.xml). La langue de tokenisation est réglée dans le formulaire d'​import (fichier import.xml).
  
-Le tokenizer utilise les 2 premières lettres de la langue indiquée (ex : fro -> fr) pour pouvoir déclencher la tokenisation propre à une langue tout en ayant des variantes de fichiers paramètres TreeTagger pour une même langue (eg tous les fichiers paramètres du français - partageant les mêmes règles de segmentation du français - doivent avoir un nom commençant par '​fr'​).+La langue "​fro"​ est ajoutée pour gérer les différences entre les clitics "​fro"​ et les clitics "​fr"​. 
 + 
 +Dans le cas, où le tokenizer ​ne trouve pas de règles pour la langue, il utilise les 2 premières lettres de la langue indiquée (ex : frp -> fr) pour pouvoir déclencher la tokenisation propre à une langue tout en ayant des variantes de fichiers paramètres TreeTagger pour une même langue (eg tous les fichiers paramètres du français - partageant les mêmes règles de segmentation du français - doivent avoir un nom commençant par '​fr'​). 
  
 === Gestion des classes de caractères === === Gestion des classes de caractères ===
public/composant_de_tokenisation.1624443469.txt.gz · Dernière modification: 2021/06/23 12:17 par slh@ens-lyon.fr