Liste de liens :
Liste de liens :
La recherche de mots ou la prise en charge éventuelle de mots pré-encodés dans les sources est un composant essentiel de TXM.
Sa stratégie est décrite dans cette page.
Elle peut déléguer certains calculs de mots, décrits dans la page Spécification de l'annotation lexicale automatique.
Elle doit tenir compte du contexte linguistique, décrit dans la page Spécification de la prise en charge linguistique.
Il y a différentes façons de déterminer les mots dans les textes dans TXM. Pour les sources XML, cela tient compte notamment des plans textuels définis par certains modules d'import.
Une fois déterminés, les mots servent par exemple aux index du moteur CQP mais également à la relation entre ces index et les éditions de textes (pour le retour au texte). Cette relation est gérée par un identifiant de mot unique obéissant à une politique de gestion d'identifiants propre à TXM. Si des sources XML respectent cette politique, TXM peut tenir compte d'identifiants pré-encodés dans les sources.
Pour les sources en texte brut (TXT) TXM a un contrôle total sur la détection des mots et sur leur équipement, notamment en identifiants xml:id pour la gestion (interne) du retour au texte.
Paramètres d'import de Segmentation lexicale :
Pour les sources XML, il y a quatre cas de figure de gestion des mots :
Pour les modules d'import de sources XML, la stratégie ci-dessus est appliquée à l'aide de deux options (deux paramètres d'import) :
Il faut gérer les clitiques :
Il faut gérer des caractères avec espaces avant et après dans l'édition :
Il faudrait gérer des caractères dont la gestion typographique dans la source est différente de cette réalisée dans l'édition par défaut :
Il existe plusieurs Tokenizers :
* : tokenizer couramment utilisé par les modules d'import
Pour améliorer la lemmatisation TreeTagger pour les langues (en, fr, ga et it).
Faire évoluer le tokenizer XML de TXM en intégrant les règles de tokenization des clitiques des langues (en, fr, ga et it) du script Perl de tokenisation TreeTagger.
La langue de tokenisation est réglée dans le formulaire d'import (fichier import.xml).
La langue “fro” est ajoutée pour gérer les différences entre les clitics “fro” et les clitics “fr”.
Dans le cas, où le tokenizer ne trouve pas de règles pour la langue, il utilise les 2 premières lettres de la langue indiquée (ex : frp → fr) pour pouvoir déclencher la tokenisation propre à une langue tout en ayant des variantes de fichiers paramètres TreeTagger pour une même langue (eg tous les fichiers paramètres du français - partageant les mêmes règles de segmentation du français - doivent avoir un nom commençant par 'fr').
On découpe le flux de caractères par les classes suivantes pour obtenir les mots :
Il faut au moins qu'une classe de séparateur soit définie.
Si une classe n'est pas défini, on ne l'utilise pas pour découper le flux (ticket #1878).
Établir un corpus de test stable qui contient tous les cas que l'on souhaite :
le résultat de la tokenisation du corpus stable doivent être sauvegardés pour pouvoir être comparés quand le code du tokenizer changera.
Plus tard :
TXM 0.8.2 beta introduit un nouveau paramètre d'import pouvant être formulé (voir ticket #3105) :
Recette :
Cette nouvelle gestion d'id ne devrait pas impacter la mise à jour de corpus (le composant de tokenisation n'est pas appelé).