Outils pour utilisateurs

Outils du site


public:chaine_minimale_import

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:chaine_minimale_import [2014/07/29 21:52]
slh@ens-lyon.fr
public:chaine_minimale_import [2014/07/29 22:22] (Version actuelle)
slh@ens-lyon.fr
Ligne 3: Ligne 3:
 ===== Objectif ===== ===== Objectif =====
  
-Pouvoir importer dans TXM des corpus dont les dimensions (nombre maximal de mots et de leurs propriétés,​ de textes et de leurs métadonnées,​ de structures internes aux textes et de leurs propriétés) ne sont contraintes ni par l'​implémentation des traitements textométriques standard (lexique, index, concordances,​ édition, afc, cah...) ni par celles du standard d'​architecture interne (le format de données interne XML-TEI TXM pour les traitements) mais en fournissant ​tout de même des services de *certains composants internes* (comme ceux du moteur CQP*), on spécifie une chaine d'​import minimale qui donnera accès *à la carte* à certains services de ces composants (comme la résolution de requêtes CQL par le moteur CQP).+Pouvoir importer dans TXM des corpus dont les dimensions (nombre maximal de mots et de leurs propriétés,​ de textes et de leurs métadonnées,​ de structures internes aux textes et de leurs propriétés) ne sont contraintes ni par l'​implémentation des traitements textométriques standard (lexique, index, concordances,​ édition, afc, cah...) ni par celles du standard d'​architecture interne (le format de données interne XML-TEI TXM pour le traitement des sources) mais tout en fournissant des services de **certains composants internes** (comme ceux du moteur CQP), on spécifie une chaine d'​import minimale qui donnera accès ​**à la carte** à certains services de ces composants (comme la résolution de requêtes CQL par le moteur CQP).
  
 Les limites des corpus importables proviennent alors de celles des capacités de traitement des composants internes sollicités (comme celles du moteur de recherche CQP : nombre maximal de mots et de leurs propriétés,​ de textes et de leurs métadonnées,​ de structures internes aux textes et de leurs propriétés). Les limites des corpus importables proviennent alors de celles des capacités de traitement des composants internes sollicités (comme celles du moteur de recherche CQP : nombre maximal de mots et de leurs propriétés,​ de textes et de leurs métadonnées,​ de structures internes aux textes et de leurs propriétés).
  
 Une évolution de la plateforme consistera à faire bénéficier certains modules d'​import de TXM offrant des services standard (Presse-papier,​ TXT+CSV, XML/w+CSV, etc.) de certaines de ces optimisations sous la forme d'​options d'​importation. Une évolution de la plateforme consistera à faire bénéficier certains modules d'​import de TXM offrant des services standard (Presse-papier,​ TXT+CSV, XML/w+CSV, etc.) de certaines de ces optimisations sous la forme d'​options d'​importation.
 +
 +La versatilité de la plateforme se verra alors augmentée non pas seulement du côté de la diversité de formats pris en charge mais également de celui de la volumétrie des corpus traitables en fonction des traitements demandés.
  
 La chaine d'​import minimale permet : La chaine d'​import minimale permet :
   - d’accélérer l'​import :   - d’accélérer l'​import :
     - directement : en ne respectant pas certaines étapes du format standard interne XML-TXM     - directement : en ne respectant pas certaines étapes du format standard interne XML-TXM
-    - indirectement : en ne répétant pas certains calculs déjà réalisés lors d'​imports précédents par le même module+    - indirectement : en ne répétant pas certains calculs déjà réalisés lors d'​imports précédents par le même module ​(rémanence de calculs)
   - d'​appliquer certains outils de TAL à la volée : annoter avec TreeTagger   - d'​appliquer certains outils de TAL à la volée : annoter avec TreeTagger
  
Ligne 18: Ligne 20:
   - de tokenization : elle est sensée avoir été réalisée en amont   - de tokenization : elle est sensée avoir été réalisée en amont
   - d'​édition : il n'y a pas de retour au texte prévu, seules les requêtes CQL et leur nombre de matches sont gérés   - d'​édition : il n'y a pas de retour au texte prévu, seules les requêtes CQL et leur nombre de matches sont gérés
- 
-Il faudra faire des efforts pour que chaque module d'​import de TXM puisse bénéficier de certaines de ces optimisations sous forme d'​options. 
  
 ===== Méthode ===== ===== Méthode =====
public/chaine_minimale_import.1406663571.txt.gz · Dernière modification: 2014/07/29 21:52 par slh@ens-lyon.fr