Outils pour utilisateurs

Outils du site


public:import:spec_estimations_import

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:import:spec_estimations_import [2017/02/02 21:35]
sebastien.jacquot@univ-fcomte.fr
public:import:spec_estimations_import [2017/02/03 14:42] (Version actuelle)
slh@ens-lyon.fr
Ligne 1: Ligne 1:
-======= Estimations des ressources nécessaires pour importer un corpus =======+======= Estimations des ressources nécessaires pour importer ​et exploiter ​un corpus =======
  
 ====== Objectif ====== ====== Objectif ======
  
-Pouvoir prévenir un utilisateur qui souhaite importer un corpus de la quantité de ressources nécessaires :+Pouvoir prévenir un utilisateur qui souhaite ​**importer** un corpus de la quantité de ressources nécessaires :
   * en temps   * en temps
   * en volume de mémoire vive   * en volume de mémoire vive
   * en volume de stockage   * en volume de stockage
-  * etc.+  * en nombre d'​éléments pris en charge : nombre de textes, nombre de structures internes, profondeur des structures internes, ​etc
 + 
 +Éventuellement pouvoir également prévenir sur les ressources nécessaires pour l'​**exploitation** du corpus (partitions,​ éditions, etc.).
  
 ====== Méthode ====== ====== Méthode ======
  
-Plusieurs façons de calculer ​l'​estimation : +  * quand l'utilisateur a défini le répertoire des sources et que le fichier import.xml est créé, le temps et l'​espace pourrait être estimé et affiché 
-  * à priori, ​avec des règles ​(ex: le corpus contient X mo de texte brut, le corpus binaire fera X*N mo une fois importé) + 
-  * à posteriori, ​en compilant des statistiques d'​import des corpus précédemment importés+===== Donner une estimation ​globale ===== 
 + 
 +L'​estimation des ressources nécessaires dépend d'une description des éléments à utiliser pour réaliser l'​opération à évaluer. Par exemple pour un import ça peut être le nombre de textes, le nombre total de mots, le nombre de structures internes, leur profondeur, le nombre de propriétés de mots, le nombre de métadonnées,​ etc. 
 + 
 +==== donner une estimation a priori ==== 
 + 
 +  * avec des règlesex: le corpus contient X mo de texte brut, le corpus binaire fera X*N Mo une fois importé 
 + 
 +==== donner une estimation a posteriori ==== 
 + 
 +  * en compilant des statistiques d'​import des corpus précédemment importés 
 +    * soit il s'agit des corpus de l'​utilisateur dans son propre environnement : les statistiques s'​amélioreront au fil des imports, et chaque nouvel import pourra bénéficier des statistiques des imports précédents  
 +    * soit il s'agit de plusieurs corpus benchmark ayant généré des statistiques dans un framework benchmark du projet TXM. On peut choisir des corpus aux géométries et volumes extrêmes. Les statistiques sont livrées avec TXM et l'​estimation pour un corpus à importer de l'​utilisateur est calculée à partir de ces statistiques 
 + 
 +===== Donner une estimation en temps réel, par opération ===== 
 + 
 +  * on peut rendre compte en temps réel du temps écoulé depuis le début de l'​import et de l'​espace mémoire et disque occupés 
 +  * le graphique d'​usage des ressources peut délimiter le temps par le nom des opérations et des sous-opérations réalisées,​ suivant la granularité du diagnostique que l'on souhaite faire. Par exemple pour les modules d'​import : importer, compiler, pager... Pour le module XTZ les différentes étapes XSL, etc. 
 +  * le graphique peut être construit en temps réel ou post mortem : TXM génère un log d'​usage des ressources en flushant dans un fichier, il se plante ou est arrêté de l'​extérieur,​ puis relancé il aide à visualiser le log dans un graphique 
 +    * c'est également valable pour des commandes autres que l'​import
public/import/spec_estimations_import.1486067750.txt.gz · Dernière modification: 2017/02/02 21:35 par sebastien.jacquot@univ-fcomte.fr