Outils pour utilisateurs

Outils du site


Action disabled: source
public:import_xml_generic

Spécification du futur module d'import XML+CSV générique

Objectif

Permettre le paramétrage de l'import d'un corpus au format XML à partir des catégories de données mentionnées dans le Cahier des charges d'import dans TXM (de la BFM ici).

Paramètre d'import :

  • Nombre d'éditions à produire (et donc nombre de paramétrage d'édition à produire), peut être égale à 0
  • Paramètres du tokeniseur
  • Paramètre du sentenceur

Paramètres de gestion des balises :

  • Balise “mot” : balises qui code un mot
  • Balise “texte” : balise identifiant l'unité textuelle (1 unité textuelle par fichier)
  • Balise “structure&index&edition” (default) : index (plein texte) & édition
    • intermediate structures in the cwb corpus
    • in the edition
  • Balise “no-structure&index&edition”
    • tags deleted, content preserved in cwb corpus and in the editions
  • Balise “no-structure&no-index&no-edition”
    • tags and their content deleted from cwb corpus and editions

Paramètres spéciaux :

  • Pagination :
    • élément qui pagine les éditions
    • Nombre de mots par page (défaut : 99999, à discuter :-))
  • Références (de concordance par exemple)
    • A renseigner dans l'attribut “ref” des balises de mots
    • A construire
      • Concaténation d'Xpaths à appliquer à chaque mot tokenisé pour construire l'attribut “ref” (DOM warning)
      • Liste d'attribut d'élément : text_id, pb_n, lb_n (Stax compatible)
        • Formatage
        • Pattern de référence: “%s, %n, %n”
        • OU concaténation (séparer par des virgules)

Paramètres d'édition (pour les balises qui ont été conservées)

  • Notes
    • option : bas de page, marginale, tooltip
  • Titres :
    • option : niveau
  • Metadonnées (listing d'attribut d'un élément)
  • Saut de ligne : ex: lb, br
  • Paragraphe : p, lg
  • Image

Indexation et stylage des éléments XML

(Copié à partir du ticket #164)

The import interface should allow to declare XML elements (namespace aware) into 4 classes:

  1. structure&edition (default)
    • intermediate structures in the cwb corpus
    • in the edition
  2. out-of-text&in-edition
    • content deleted from the cwb corpus
    • in the edition
  3. ignore
    • tags deleted, content preserved in cwb corpus and in the editions
  4. delete
    • tags and their content deleted from cwb corpus and editions

Special elements:

  1. pagination element (*:pb by default)
    • used to paginate editions and in references
  2. reference elements
    • list of elements used to build references
    • possibility to specify the attribute to use (@n by default)
    • possibility to specify the prefix to display in references (e.g. ', v. ' for verse numbers)

Méthode

Solution

Recette

Protocole de test

Alpha

Beta

État courant

public/import_xml_generic.txt · Dernière modification: 2015/10/16 15:57 par slh@ens-lyon.fr