Outils pour utilisateurs

Outils du site


public:import:spec_estimations_import

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
Dernière révision Les deux révisions suivantes
public:import:spec_estimations_import [2017/02/02 13:48]
matthieu.decorde@ens-lyon.fr créée
public:import:spec_estimations_import [2017/02/03 14:41]
slh@ens-lyon.fr
Ligne 1: Ligne 1:
-======= Estimations des ressources nécessaires pour importer un corpus =======+======= Estimations des ressources nécessaires pour importer ​et exploiter ​un corpus =======
  
 ====== Objectif ====== ====== Objectif ======
  
-Pouvoir prévenir un utilisateur qui souhaite importer un corpus la quantité de ressources nécessaires :+Pouvoir prévenir un utilisateur qui souhaite ​**importer** un corpus ​de la quantité de ressources nécessaires :
   * en temps   * en temps
   * en volume de mémoire vive   * en volume de mémoire vive
   * en volume de stockage   * en volume de stockage
-  * etc.+  * en nombre d'​éléments pris en charge : nombre de textes, nombre de structures internes, profondeur des structures internes, ​etc
 + 
 +Éventuellement pouvoir également prévenir sur les ressources nécessaires pour l'​**exploitation** du corpus (partitions,​ éditions, etc.).
  
 ====== Méthode ====== ====== Méthode ======
  
-Plusieurs façons de calculer ​l'​estimation ​: +  * quand l'utilisateur a défini le répertoire des sources et que le fichier import.xml est créé, le temps et l'​espace pourrait être estimé et affiché 
-  * à priori, ​avec des règles ​(ex: le corpus contient X mo de texte brut, le corpus binaire fera X*N mo une fois importé) + 
-  * à posteriori, ​en compilant des statistiques d'​import des corpus précédemment importés+===== Donner une estimation ​globale ===== 
 + 
 +==== donner une estimation a priori ==== 
 + 
 +  * avec des règlesex: le corpus contient X mo de texte brut, le corpus binaire fera X*N Mo une fois importé 
 + 
 +==== donner une estimation a posteriori ==== 
 + 
 +  * en compilant des statistiques d'​import des corpus précédemment importés 
 +    * soit il s'agit des corpus de l'​utilisateur dans son propre environnement : les statistiques s'​amélioreront au fil des imports, et chaque nouvel import pourra bénéficier des statistiques des imports précédents  
 +    * soit il s'agit de plusieurs corpus benchmark ayant généré des statistiques dans un framework benchmark du projet TXM. On peut choisir des corpus aux géométries et volumes extrêmes. Les statistiques sont livrées avec TXM et l'​estimation pour un corpus à importer de l'​utilisateur est calculée à partir de ces statistiques 
 + 
 +===== Donner une estimation en temps réel, par opération ===== 
 + 
 +  * on peut rendre compte en temps réel du temps écoulé depuis le début de l'​import et de l'​espace mémoire et disque occupés 
 +  * le graphique d'​usage des ressources peut délimiter le temps par le nom des opérations et des sous-opérations réalisées,​ suivant la granularité du diagnostique que l'on souhaite faire. Par exemple pour les modules d'​import : importer, compiler, pager... Pour le module XTZ les différentes étapes XSL, etc. 
 +  * le graphique peut être construit en temps réel ou post mortem : TXM génère un log d'​usage des ressources en flushant dans un fichier, il se plante ou est arrêté de l'​extérieur,​ puis relancé il aide à visualiser le log dans un graphique 
 +    * c'est également valable pour des commandes autres que l'​import
public/import/spec_estimations_import.txt · Dernière modification: 2017/02/03 14:42 par slh@ens-lyon.fr