Outils pour utilisateurs

Outils du site


public:import_csv

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
public:import_csv [2013/10/30 12:21]
slh@ens-lyon.fr
public:import_csv [2013/10/30 17:21] (Version actuelle)
matthieu.decorde@ens-lyon.fr
Ligne 2: Ligne 2:
  
 ===== Objectif ===== ===== Objectif =====
 +L'​objectif principal de ce module d'​import est de prendre en charge des tableaux TSV issus de sondages dans lesquels les questions sont à la fois fermées (choix simple ou multiple) et ouvertes (dans la lignée du logiciel DTM). Les colonnes correspondant aux réponses aux questions ouvertes forment le matériau textuel que TXM pourra exploiter (chaque question pouvant former une section du "​texte"​ d'un répondant) et le reste des colonnes codent des métadonnées (du répondant).
  
-Pouvoir ​importer ​du corpus ​de fichier(sCSV.+Ce module peut également être utilisé pour importer ​des corpus ​où chaque ligne code un (petittexte avec ses métadonnées,​ comme Iramuteq peut avoir à en traiter.
  
-===== Méthode =====+Ce module peut être une voie d'​import de corpus volumineux composés de petits textes tenants dans un format rudimentaire (tweets, sms, etc.).
  
-Cas possibles :  +==== Exemples de cas ==== 
-  * Un seul fichier CSV qui contient un texte par ligne + 
-  Plusieurs fichiers CSVUn fichier ​est un texte, chaque ligne est une division ​du texte+  * section import de tableau du Manuel de DTM : [[http://​www.dtmvic.com/​doc/​DTM_Manuel_complet_27_04_2013_A4.pdf]] 
 +    Voir la section 'III.3.2. Mise en oeuvre de l'​analyse textuelle directe des réponses – "​VISURECA"'​ 
 +      * la section 'Etape 3 : Sélection des questions ouvertes' ​est intéressante pour scénariser le choix des colonnes 
 +      * les métadonnées de répondants semblent être encodées dans des fichiers séparés (section 'Etape 4 : Sélection des fichiers dictionnaire et données'​) 
 +      * on trouve ​un mécanisme intéressant de choix des métadonnées actives ou supplémentaires (section 'Etape 5 : Sélection des variables actives et supplémentaires'​) 
 +      * il y a même une section rigolote qui permet de choisir les individus/​lignes (section 'Etape 6 : Sélection des observations (individus)'​) 
 +  * export de Modalisa : 
 +    * [[http://​alea.fr.eu.org/​pages/​R-et-Modalisa]] 
 +    * [[http://​socio.ens-lyon.fr/​ressources/​modalisa_guide.doc]] 
 +  * export de SurveyMonkey : [[http://​help.surveymonkey.com/​articles/​en_US/​kb/​Analyze-BETA-Export-Formats-Instructions]] 
 +  * export de LimeSurvey : [[http://​manual.limesurvey.org/​wiki/​Exporting_a_survey_structure/​fr]] 
 +  * <je ne trouve pas la description ​du format de tableau que prend en charge Iramuteq>​. 
 + 
 + 
 +===== Méthode =====
  
 ===== Solution ===== ===== Solution =====
  
 ==== Script prototype de conversion CVS > XML ==== ==== Script prototype de conversion CVS > XML ====
 +
 +Une première version de script a été faite qui peut gérer les 2 cas suivants :
 +  * Un seul fichier CSV qui contient un texte par ligne
 +  * Plusieurs fichiers CSV. Un fichier est un texte, chaque ligne est une division du texte
  
 Chaque ligne est une entrée (de texte ou de partie de texte) Chaque ligne est une entrée (de texte ou de partie de texte)
Ligne 21: Ligne 40:
  
 Le résultat du script peut être importé avec le module XML/w Le résultat du script peut être importé avec le module XML/w
 +
 +Il faut faire évoluer ce script ou repartir de ce script pour gérer les cas décris dans la section Objectifs
 +
 +==== 2e Script prototype de conversion CVS > XML ====
 +
 +Partir du précédent script mais :
 +  * en pouvant spécifier plusieurs colonnes de texte
  
 ===== Protocole de test ===== ===== Protocole de test =====
Ligne 32: Ligne 58:
 ==== Objectif ==== ==== Objectif ====
  
-L'​objectif principal de ce module d'​import est de prendre en charge des tableaux TSV issus de sondages dans lesquels les questions sont à la fois fermées (choix simple ou multiple) et ouvertes (dans la lignée du logiciel DTM). Les colonnes correspondant aux réponses aux questions ouvertes forment le matériau textuel que TXM pourra exploiter (chaque question pouvant former une section du "​texte"​ d'un répondant) et le reste des colonnes codent des métadonnées (du répondant). 
- 
-Ce module peut également être utilisé pour importer des corpus où chaque ligne code un (petit) texte avec ses métadonnées,​ comme Iramuteq peut avoir à en traiter. 
- 
-Ce module peut être une voie d'​import de corpus volumineux composés de petits textes tenants dans un format rudimentaire (tweets, sms, etc.). 
- 
-==== Exemples de cas ==== 
- 
-  * section import de tableau du Manuel de DTM : [[http://​www.dtmvic.com/​doc/​DTM_Manuel_complet_27_04_2013_A4.pdf]] 
-    * Voir la section '​III.3.2. Mise en oeuvre de l'​analyse textuelle directe des réponses – "​VISURECA"'​ 
-      * la section 'Etape 3 : Sélection des questions ouvertes'​ est intéressante pour scénariser le choix des colonnes 
-      * les métadonnées de répondants semblent être encodées dans des fichiers séparés (section 'Etape 4 : Sélection des fichiers dictionnaire et données'​) 
-      * on trouve un mécanisme intéressant de choix des métadonnées actives ou supplémentaires (section 'Etape 5 : Sélection des variables actives et supplémentaires'​) 
-      * il y a même une section rigolote qui permet de choisir les individus/​lignes (section 'Etape 6 : Sélection des observations (individus)'​) 
-  * export de Modalisa : 
-    * [[http://​alea.fr.eu.org/​pages/​R-et-Modalisa]] 
-    * [[http://​socio.ens-lyon.fr/​ressources/​modalisa_guide.doc]] 
-  * export de SurveyMonkey : [[http://​help.surveymonkey.com/​articles/​en_US/​kb/​Analyze-BETA-Export-Formats-Instructions]] 
-  * export de LimeSurvey : [[http://​manual.limesurvey.org/​wiki/​Exporting_a_survey_structure/​fr]] 
-  * <je ne trouve pas la description du format de tableau que prend en charge Iramuteq>​. 
  
public/import_csv.txt · Dernière modification: 2013/10/30 17:21 par matthieu.decorde@ens-lyon.fr