Outils pour utilisateurs

Outils du site


public:import_xml_generic

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:import_xml_generic [2015/10/14 15:54]
slh@ens-lyon.fr
public:import_xml_generic [2015/10/16 15:57] (Version actuelle)
slh@ens-lyon.fr
Ligne 4: Ligne 4:
  
 Permettre le paramétrage de l'​import d'un corpus au format XML à partir des catégories de données mentionnées dans le [[https://​groupes.renater.fr/​wiki/​txm-users/​_media/​public/​cahier_des_charges_import_txm_bfm.odt|Cahier des charges d'​import dans TXM (de la BFM ici)]]. Permettre le paramétrage de l'​import d'un corpus au format XML à partir des catégories de données mentionnées dans le [[https://​groupes.renater.fr/​wiki/​txm-users/​_media/​public/​cahier_des_charges_import_txm_bfm.odt|Cahier des charges d'​import dans TXM (de la BFM ici)]].
 +
 +Paramètre d'​import :
 +  * Nombre d'​éditions à produire (et donc nombre de paramétrage d'​édition à produire), peut être égale à 0
 +  * Paramètres du tokeniseur
 +  * Paramètre du sentenceur
 +  * ...
 +
 +Paramètres de gestion des balises :
 +  * Balise "​mot"​ : balises qui code un mot
 +  * Balise "​texte"​ : balise identifiant l'​unité textuelle (1 unité textuelle par fichier)
 +  * Balise "​structure&​index&​edition"​ (default) : index (plein texte) & édition
 +    * intermediate structures in the cwb corpus
 +    * <span class="​[element-name]">​...</​span>​ in the edition
 +  * Balise "​no-structure&​index&​edition"​
 +    * tags deleted, content preserved in cwb corpus and in the editions
 +  * Balise "​no-structure&​no-index&​no-edition"​
 +    * tags and their content deleted from cwb corpus and editions
 +
 +Paramètres spéciaux :
 +  * Pagination :
 +    * élément qui pagine les éditions
 +    * Nombre de mots par page (défaut : 99999, à discuter :-))
 +  * Références (de concordance par exemple)
 +    * A renseigner dans l'​attribut "​ref"​ des balises de mots
 +    * A construire
 +      * Concaténation d'​Xpaths à appliquer à chaque mot tokenisé pour construire l'​attribut "​ref"​ (DOM warning)
 +      * Liste d'​attribut d'​élément : text_id, pb_n, lb_n (Stax compatible)
 +        * Formatage
 +        * Pattern de référence:​ "%s, %n, %n" ​
 +        * OU concaténation (séparer par des virgules)
 +
 +Paramètres d'​édition (pour les balises qui ont été conservées)
 +  * Notes
 +    * option : bas de page, marginale, tooltip
 +  * Titres : 
 +    * option : niveau
 +  * Metadonnées (listing d'​attribut d'un élément)
 +  * Saut de ligne : ex: lb, br
 +  * Paragraphe : p, lg
 +  * Image
 +  * ...
  
 ==== Indexation et stylage des éléments XML ==== ==== Indexation et stylage des éléments XML ====
public/import_xml_generic.1444830894.txt.gz · Dernière modification: 2015/10/14 15:54 par slh@ens-lyon.fr