Outils pour utilisateurs

Outils du site


public:chaine_minimale_import

Ceci est une ancienne révision du document !


Chaine d'import minimale

Objectif

Pouvoir importer dans TXM des corpus dont les dimensions (nombre maximal de mots et de leurs propriétés, de textes et de leurs métadonnées, de structures internes aux textes et de leurs propriétés) ne sont contraintes ni par l'implémentation des traitements textométriques standard (lexique, index, concordances, édition, afc, cah…) ni par celles du standard d'architecture interne (le format de données interne XML-TEI TXM pour le traitement des sources) mais tout en fournissant des services de certains composants internes (comme ceux du moteur CQP), on spécifie une chaine d'import minimale qui donnera accès à la carte à certains services de ces composants (comme la résolution de requêtes CQL par le moteur CQP).

Les limites des corpus importables proviennent alors de celles des capacités de traitement des composants internes sollicités (comme celles du moteur de recherche CQP : nombre maximal de mots et de leurs propriétés, de textes et de leurs métadonnées, de structures internes aux textes et de leurs propriétés).

Une évolution de la plateforme consistera à faire bénéficier certains modules d'import de TXM offrant des services standard (Presse-papier, TXT+CSV, XML/w+CSV, etc.) de certaines de ces optimisations sous la forme d'options d'importation.

La versatilité de la plateforme se verra alors augmentée non pas seulement du côté de la diversité de formats pris en charge mais également de celui de la volumétrie des corpus traitables.

La chaine d'import minimale permet :

  1. d’accélérer l'import :
    1. directement : en ne respectant pas certaines étapes du format standard interne XML-TXM
    2. indirectement : en ne répétant pas certains calculs déjà réalisés lors d'imports précédents par le même module
  2. d'appliquer certains outils de TAL à la volée : annoter avec TreeTagger

La chaine d'import minimale ne fait pas :

  1. de tokenization : elle est sensée avoir été réalisée en amont
  2. d'édition : il n'y a pas de retour au texte prévu, seules les requêtes CQL et leur nombre de matches sont gérés

Méthode

Le package 'org.txm.importer.limsi' est un premier prototype de cette chaine.

Options implémentées par ce prototype :

  • Éviter les étapes XML-TXM
  • Ne pas tokeniser
  • Ne pas faire d'édition
  • Rémanence de certains calculs

État de la plateforme

Avancement dans l'élaboration de la solution

Solution

État de l'art

Éléments de solution

Prototypes

Version finale

Documentation

Utilisateur

Développeur

Recette

Protocole de test

Alpha

Beta

État courant

Qui Quand Quoi

public/chaine_minimale_import.1406664930.txt.gz · Dernière modification: 2014/07/29 22:15 par slh@ens-lyon.fr