Liste de liens :
Liste de liens :
Pouvoir importer dans TXM des corpus dont les dimensions (nombre maximal de mots et de leurs propriétés, de textes et de leurs métadonnées, de structures internes aux textes et de leurs propriétés) ne sont contraintes ni par l'implémentation des traitements textométriques standard (lexique, index, concordances, édition, afc, cah…) ni par celles du standard d'architecture interne (le format de données interne XML-TEI TXM pour le traitement des sources) mais tout en fournissant des services de certains composants internes (comme ceux du moteur CQP), on spécifie une chaine d'import minimale qui donnera accès à la carte à certains services de ces composants (comme la résolution de requêtes CQL par le moteur CQP).
Les limites des corpus importables proviennent alors de celles des capacités de traitement des composants internes sollicités (comme celles du moteur de recherche CQP : nombre maximal de mots et de leurs propriétés, de textes et de leurs métadonnées, de structures internes aux textes et de leurs propriétés).
Une évolution de la plateforme consistera à faire bénéficier certains modules d'import de TXM offrant des services standard (Presse-papier, TXT+CSV, XML/w+CSV, etc.) de certaines de ces optimisations sous la forme d'options d'importation.
La versatilité de la plateforme se verra alors augmentée non pas seulement du côté de la diversité de formats pris en charge mais également de celui de la volumétrie des corpus traitables en fonction des traitements demandés.
La chaine d'import minimale permet :
La chaine d'import minimale ne fait pas :
Le package 'org.txm.importer.limsi' est un premier prototype de cette chaine.
Options implémentées par ce prototype :
Éléments de solution
Qui Quand Quoi