Outils pour utilisateurs

Outils du site


public:specs_optimisation_calculs

Optimisation de certains calculs

Objectif

Dans le cas de certains corpus volumineux et de certains calculs spécifiques nous cherchons à mieux gérer les contraintes de temps et d'espace.

Méthode

Le projet matrice nous donne l'occasion de développer un premier prototype en ce sens aux caractéristiques suivantes :

  • corpus volumineux de 124M d'occ.
  • calcul du nombre de matchs d'une centaine de CQL différentes pour 26k textes

Voir https://groupes.renater.fr/wiki/txm-users/public/projets_matrice_avec_txm

Algorithme :

  • Pour chaque CQL :
    • récupérer les matchs sur tout le corpus
    • Pour chaque texte
      • dénombrer le nombre de matchs en utilisant la position 'end' du texte
  • Écrire les fichiers de sortie demandés 'lexique.txt' et 'doc_word_freq.txt'

Une évolution de la plateforme consistera à faire bénéficier certains calculs standard de TXM (Partition de textes + Spécificités, etc.) de certaines de ces optimisations sous la forme d'options ou d'adaptations automatiques.

État de la plateforme

Avancement dans l'élaboration de la solution

Solution

État de l'art

Éléments de solution

Prototypes

Le prototype correspond à la classe QueryIndexOfTexts de l'extension QueryIndex (alpha).

Version finale

Documentation

Utilisateur

Développeur

Recette

Protocole de test

Alpha

Beta

État courant

Qui Quand Quoi

public/specs_optimisation_calculs.txt · Dernière modification : 30/07/2014 18:04 de matthieu.decorde@ens-lyon.fr