Outils pour utilisateurs

Outils du site


public:import:spec_estimations_import

Estimations des ressources nécessaires pour importer et exploiter un corpus

Objectif

Pouvoir prévenir un utilisateur qui souhaite importer un corpus de la quantité de ressources nécessaires :

  • en temps
  • en volume de mémoire vive
  • en volume de stockage
  • en nombre d'éléments pris en charge : nombre de textes, nombre de structures internes, profondeur des structures internes, etc.

Éventuellement pouvoir également prévenir sur les ressources nécessaires pour l'exploitation du corpus (partitions, éditions, etc.).

Méthode

  • quand l'utilisateur a défini le répertoire des sources et que le fichier import.xml est créé, le temps et l'espace pourrait être estimé et affiché

Donner une estimation globale

L'estimation des ressources nécessaires dépend d'une description des éléments à utiliser pour réaliser l'opération à évaluer. Par exemple pour un import ça peut être : le nombre de textes, le nombre total de mots, le nombre de structures internes, leur profondeur, le nombre de propriétés de mots, le nombre de métadonnées, etc.

donner une estimation a priori

  • avec des règles, ex: le corpus contient X mo de texte brut, le corpus binaire fera X*N Mo une fois importé

donner une estimation a posteriori

  • en compilant des statistiques d'import des corpus précédemment importés
    • soit il s'agit des corpus de l'utilisateur dans son propre environnement : les statistiques s'amélioreront au fil des imports, et chaque nouvel import pourra bénéficier des statistiques des imports précédents
    • soit il s'agit de plusieurs corpus benchmark ayant généré des statistiques dans un framework benchmark du projet TXM. On peut choisir des corpus aux géométries et volumes extrêmes. Les statistiques sont livrées avec TXM et l'estimation pour un corpus à importer de l'utilisateur est calculée à partir de ces statistiques

Donner une estimation en temps réel, par opération

  • on peut rendre compte en temps réel du temps écoulé depuis le début de l'import et de l'espace mémoire et disque occupés
  • le graphique d'usage des ressources peut délimiter le temps par le nom des opérations et des sous-opérations réalisées, suivant la granularité du diagnostique que l'on souhaite faire. Par exemple pour les modules d'import : importer, compiler, pager… Pour le module XTZ les différentes étapes XSL, etc.
  • le graphique peut être construit en temps réel ou post mortem : TXM génère un log d'usage des ressources en flushant dans un fichier, il se plante ou est arrêté de l'extérieur, puis relancé il aide à visualiser le log dans un graphique
    • c'est également valable pour des commandes autres que l'import
public/import/spec_estimations_import.txt · Dernière modification: 2017/02/03 14:42 par slh@ens-lyon.fr