Ordre des chaînes de caractères dans TXM

Le tri des chaines de caractères (formes des mots, catégories, lemmes, noms de structures, noms de propriétés, valeurs de propriétés, etc.) est traité dans TXM à différents endroits :

  • tri des index de propriétés de mots et de structures dans cwb-encode, lors de la phase Compile des modules d'import
  • tri des résultats de commandes : Concordance, Index…
  • tri des valeurs de propriétés URS
  • etc.

On cherche à partager la même politique de tri (définie par le locale - langue + région - d'un corpus, d'une structure d'annotation, etc.), voire les mêmes composants technologiques, entre ces différents endroits.

On cherche également à optimiser la gestion des données entretenant ce genre de relation d'ordre : par exemple, il serait intéressant de faire reposer le tri des concordances sur celui réalisé par cwb-encode réalisé en amont. En effet, si le tri de concordance reposait sur les codes numériques CQP des valeurs de propriétés CQP, le tri se limiterait :

  • à un tri d'entiers beaucoup plus rapide qu'un tri alphanumérique ;
  • à des entiers immédiatement disponibles sans avoir le coût de reconstruction des chaines par accès aux index CQP.

Technologies

public/specs_string_sort.txt · Dernière modification: 2018/10/22 08:55 par matthieu.decorde@ens-lyon.fr