Macro CSV2XML

Objectif

Cette macro transforme un tableau CSV formaté à la façon du logiciel DTM pour produire un fichier XML compatible avec le module d'import XML/w+CSV.

Méthode

Faire des premiers essais sur des corpus de type DTM

État de la plateforme

Avancement dans l'élaboration de la solution

Solution

État de l'art

Éléments de solution

Prototypes

1ere version

Entrée Le fichier d'entrée est un CSV. La première ligne code les noms de métadonnées et de colonnes de texte. Les lignes suivantes codent chaque unité textuelle, le corps d'un texte pouvant être composé de plusieurs colonnes. Les noms des colonnes ne doivent pas contenir de caractères spéciaux ou accentués ou de ponctuation (espace, etc.).

Paramètres de la macro :

  • fichier CSV : 'nomfichier.csv'
  • paramètres CSV
    • séparateur de colonnes (TAB par défaut)
    • encodage des caractères (UTF-8 par défaut)
  • types de colonnes
    • métadonnées
      • liste des noms de colonnes à utiliser comme métadonnées de texte (séparés par une virgule) : 'identifiant,age,sexe'
    • texte
      • liste des noms de colonnes à utiliser comme corps de texte (séparés par une virgule) : 'question1,question2'
        Le nom de la colonne est utilisé pour nommer la balise XML d'encodage (e.g. 'question1' → <question1>…</question1> ou 'autoportrait' → <autoportrait>…</autoportrait>)
        L'ordre des colonnes dans la liste correspond à l'ordre d'apparition du texte.
  • nom de la balise XML englobante : 'questionnaire'
  • nom de la balise XML encodant l'unité textuelle : 'individu'

Les colonnes non listées dans la paramètres 'métadonnées' et 'texte' sont ignorées.

2e version

Changer la structure du fichier XML pour :

  • Améliorer les édition produites : afficher les métadonnées et les différentes division textuelles d'une ligne
  • Pouvoir exploiter les métadonnées pour construire sous-corpus et partition

Sortie

La sortie est réalisée dans le fichier 'monfichier.xml' (construit à partir du nom de fichier d'entrée, dans le même répertoire que celui d'entrée).
Elle a le format suivant :

<questionnaire>
 <individu identifiant="1" age="23" sexe="F">
  <question1>
  <p n="numero de ligne" type="question1" ...attributs de individu...>
  ...
  </p>
  </question1>
  <question2>
  <p n="numero de ligne" type="question2" ...attributs de individu...>
  ...
  </p>
  </question2>
 </individu>
 <pb n="1"/> <!-- pour générer les sauts de page dans l'édition -->
 <individu identifiant="2" age="23" sexe="M">
  <question1>
  ...
  </question1>
  <question2>
  ...
  </question2>
 </individu>
 <pb n="2"/>
 ...
</questionnaire>

3e version

La 3e version doit changer la structure du fichier XML produit pour se rapprocher d'avantage de la TEI.

Version finale

Documentation

Utilisateur

Développeur

Recette

Protocole de test

Alpha

Beta

État courant

Qui Quand Quoi

public/macro_csv2xml.txt · Dernière modification: 2014/07/11 13:35 par matthieu.decorde@ens-lyon.fr