Intégration du moteur CQP

Améliorer l'intégration actuelle de CQP dans TXM, en terme d'architecture (performance) et d'UI (expérience utilisateur).

État de l'Architecture

Les corpus importés dans TXM sont encodés dans un sous-répertoire de 'corpora' dont une partie est dévolue à l'infrastructure pour CQP. Ce sous-répertoire est appelé [répertoire] corpus binaire.

Chaque corpus est encodé dans un sous-répertoire à son nom appelé 'corpus binaire'.

Ce répertoire corpus binaire contient les informations relatives à CQP dans les sous-répertoires suivants : * registry * data

Le module d'import TMX crée un corpus binaire contenant autant de sous-répertoire 'data' que de langue et autant de fichiers registry CQP dans registry que de langue.

Au même niveau que 'corpora', on trouve le répertoire 'registry' dont chaque fichier est le fichier registry CQP de chaque corpus.

Évolution de l'Architecture

Depuis TXM 0.7.7, le nom du répertoire corpus binaire est forcé en majuscules. Ce qui a produit des duplications avec les anciens corpus dont le nom du répertoire corpus binaire est en minuscule. 2 solutions :

  1. ne charger que le corpus le + récent des corpus dupliqués et retirer les corpus duplicatas de la liste des corpus chargés.
  2. lors de l'installation de TXM, renommer les corpus qui se suivent pas la stratégie majuscules

Pour mieux contrôler les corpus CQP chargés au démarrage de moteur de recherche, on peut préciser à cqp une liste de répertoire registry au lieu d'un seul répertoire. Ainsi au lancement de cqp, TXM peut donner la liste des dossiers registry de chaque répertoire corpus binaire au lieu du chemin vers le dossier “registry” du répertoire utilisateur TXM ($HOME/TXM/registry).

public/specs_search_engine.txt · Dernière modification: 2017/06/08 08:54 par matthieu.decorde@ens-lyon.fr