Outils pour utilisateurs

Outils du site


public:import:spec_estimations_import

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Dernière révision Les deux révisions suivantes
public:import:spec_estimations_import [2017/02/02 21:47]
sebastien.jacquot@univ-fcomte.fr
public:import:spec_estimations_import [2017/02/03 14:41]
slh@ens-lyon.fr
Ligne 1: Ligne 1:
-======= Estimations des ressources nécessaires pour importer un corpus =======+======= Estimations des ressources nécessaires pour importer ​et exploiter ​un corpus =======
  
 ====== Objectif ====== ====== Objectif ======
  
-Pouvoir prévenir un utilisateur qui souhaite importer un corpus de la quantité de ressources nécessaires :+Pouvoir prévenir un utilisateur qui souhaite ​**importer** un corpus de la quantité de ressources nécessaires :
   * en temps   * en temps
   * en volume de mémoire vive   * en volume de mémoire vive
   * en volume de stockage   * en volume de stockage
-  * etc.+  * en nombre d'​éléments pris en charge : nombre de textes, nombre de structures internes, profondeur des structures internes, ​etc
 + 
 +Éventuellement pouvoir également prévenir sur les ressources nécessaires pour l'​**exploitation** du corpus (partitions,​ éditions, etc.).
  
 ====== Méthode ====== ====== Méthode ======
  
-Plusieurs façons de calculer ​l'​estimation ​: +  * quand l'utilisateur a défini le répertoire des sources et que le fichier import.xml est créé, le temps et l'​espace pourrait être estimé et affiché 
-  * à priori, ​avec des règles ​(ex: le corpus contient X mo de texte brut, le corpus binaire fera X*N mo une fois importé) + 
-  * à posteriori, ​en compilant des statistiques d'​import des corpus précédemment importés +===== Donner une estimation ​globale ===== 
-  proposer un benchmark, pour les cas extrêmessur l'un des corpus ​demo ou bien sur un sample du corpus ​réel (quand ​l'​utilisateur ​a défini ​le répertoire ​des sources ​et que le fichier ​import.xml est créé, le temps pourrait ​être estimé et affiché ici)+ 
 +==== donner une estimation a priori ==== 
 + 
 +  * avec des règlesex: le corpus contient X mo de texte brut, le corpus binaire fera X*N Mo une fois importé 
 + 
 +==== donner une estimation a posteriori ==== 
 + 
 +  * en compilant des statistiques d'​import des corpus précédemment importés 
 +    soit il s'agit des corpus de l'​utilisateur dans son propre environnement : les statistiques s'​amélioreront au fil des importset chaque nouvel import pourra bénéficier des statistiques des imports précédents  
 +    * soit il s'agit de plusieurs corpus benchmark ayant généré des statistiques dans un framework benchmark du projet TXM. On peut choisir ​des corpus ​aux géométries et volumes extrêmes. Les statistiques sont livrées avec TXM et l'​estimation pour un corpus ​à importer de l'​utilisateur ​est calculée à partir de ces statistiques 
 + 
 +===== Donner une estimation en temps réel, par opération ===== 
 + 
 +  * on peut rendre compte en temps réel du temps écoulé depuis ​le début de l'​import et de l'​espace mémoire et disque occupés 
 +  * le graphique d'​usage ​des ressources peut délimiter le temps par le nom des opérations ​et des sous-opérations réalisées,​ suivant la granularité du diagnostique ​que l'on souhaite faire. Par exemple pour les modules d'import ​: importer, compiler, pager... Pour le module XTZ les différentes étapes XSLetc. 
 +  * le graphique peut être construit en temps réel ou post mortem : TXM génère un log d'​usage des ressources en flushant dans un fichier, il se plante ou est arrêté de l'​extérieur,​ puis relancé il aide à visualiser le log dans un graphique 
 +    * c'est également valable pour des commandes autres que l'​import
public/import/spec_estimations_import.txt · Dernière modification: 2017/02/03 14:42 par slh@ens-lyon.fr