Outils pour utilisateurs

Outils du site


public:chaine_minimale_import

Ceci est une ancienne révision du document !


Chaine d'import minimale

Objectif

Pour pouvoir importer des corpus très volumineux sans faire des traitements textométriques particuliers, on spécifie une chaine d'import minimale. La chaine d'import minimale permet :

  1. d’accélérer l'import en se passant de certaines étapes XML-TXM
  2. de ne pas répéter des calculs déjà réalisés lors d'imports successifs
  3. annote avec TreeTagger

La chaine d'import minimale ne fait pas :

  1. de tokenization
  2. d'édition

Il faudra faire des efforts pour que chaque module d'import de TXM puisse bénéficier de certaines de ces optimisations sous forme d'options.

Méthode

Le package org.txm.importer.limsi est un premier prototype de cette chaine.

Options possibles :

  • Eviter les étapes XML-TXM
  • Ne pas tokeniser
  • Ne pas faire d'édition
  • Rémanence de certains calculs

État de la plateforme

Avancement dans l'élaboration de la solution

Solution

État de l'art

Éléments de solution

Prototypes

Version finale

Documentation

Utilisateur

Développeur

Recette

Protocole de test

Alpha

Beta

État courant

Qui Quand Quoi

public/chaine_minimale_import.1406627826.txt.gz · Dernière modification: 2014/07/29 11:57 par matthieu.decorde@ens-lyon.fr