Outils pour utilisateurs

Outils du site


public:tutoriel_import_txt_csv

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
public:tutoriel_import_txt_csv [2015/04/27 09:43]
slh@ens-lyon.fr
public:tutoriel_import_txt_csv [2015/04/29 09:19] (Version actuelle)
benedicte.pincemin@ens-lyon.fr
Ligne 29: Ligne 29:
   - Aller dans le menu : Fichier > Import > TXT+CSV ;   - Aller dans le menu : Fichier > Import > TXT+CSV ;
   - Un éditeur de paramétrage de l'​import s'​ouvre ;   - Un éditeur de paramétrage de l'​import s'​ouvre ;
-  - Sélectionner le répertoire des source ​du corpus à importer. (À l'aide du bouton dossier ou de l'​hyperlien "selectionner ​le répertoire des sources"​) ;+  - Sélectionner le répertoire des sources ​du corpus à importer. (À l'aide du bouton dossier ou de l'​hyperlien "sélectionner ​le répertoire des sources"​) ;
   - Choisir le nom du corpus. (À l'aide du champ "Nom du corpus*"​) ;   - Choisir le nom du corpus. (À l'aide du champ "Nom du corpus*"​) ;
   - Paramétrages supplémentaires ​ : voir section suivante ;   - Paramétrages supplémentaires ​ : voir section suivante ;
Ligne 42: Ligne 42:
   * Par défaut, TXM considère que l'​encodage des caractères des fichiers TXT est '​Unicode UTF-8'​.   * Par défaut, TXM considère que l'​encodage des caractères des fichiers TXT est '​Unicode UTF-8'​.
   * Sinon il faut ouvrir la zone "​Encodage des caractères"​ et sélectionner l'​encodage dans la liste déroulante   * Sinon il faut ouvrir la zone "​Encodage des caractères"​ et sélectionner l'​encodage dans la liste déroulante
-  * Si vous n'avez aucune idée de l'​encodage ​utiliser, TXM peut essayer de détecter l'​encodage. Pour cela cocher "​Deviner"​+  * Si vous n'avez aucune idée de l'​encodage ​utilisé, TXM peut essayer de détecter l'​encodage. Pour cela cocher "​Deviner"​
  
-Si dans l'​édition du corpus produit, il y a des caractères qui ne s'​affichent pas ou qui s'​affichent mal, alors c'​est ​surement ​que l'​encodage sélectionné n'est pas le bon.+Si dans l'​édition du corpus produit, il y a des caractères qui ne s'​affichent pas ou qui s'​affichent mal, alors c'​est ​sûrement ​que l'​encodage sélectionné n'est pas le bon.
  
 == Annotation en morphosyntaxe et en lemme == == Annotation en morphosyntaxe et en lemme ==
  
-Si vous ne souhaitez associer à chaque mot de votre corpus sa propriété morphosyntaxique (catégorie grammaticale) et son lemme (entrée de dictionnaire),​ vous pouvez ignorer cette étape.+Si vous ne souhaitez ​pas associer à chaque mot de votre corpus sa propriété morphosyntaxique (catégorie grammaticale) et son lemme (entrée de dictionnaire),​ vous pouvez ignorer cette étape.
  
 TXM utilise TreeTagger (site : [[http://​www.cis.uni-muenchen.de/​~schmid/​tools/​TreeTagger/​]]) pour annoter les corpus lors de l'​import. TXM utilise TreeTagger (site : [[http://​www.cis.uni-muenchen.de/​~schmid/​tools/​TreeTagger/​]]) pour annoter les corpus lors de l'​import.
Ligne 61: Ligne 61:
 Pour associer des propriétés,​ appelées métadonnées,​ à chaque texte du corpus (par exemple, auteur, titre, date de production, genre, etc.), vous devez placer un fichier "​metadata.csv"​ dans le même dossier que les textes à importer. Ce fichier est décrit dans la section 16.1 du Manuel de TXM ([[http://​txm.sourceforge.net/​doc/​manual/​manual59.xhtml#​toc193]]). Pour associer des propriétés,​ appelées métadonnées,​ à chaque texte du corpus (par exemple, auteur, titre, date de production, genre, etc.), vous devez placer un fichier "​metadata.csv"​ dans le même dossier que les textes à importer. Ce fichier est décrit dans la section 16.1 du Manuel de TXM ([[http://​txm.sourceforge.net/​doc/​manual/​manual59.xhtml#​toc193]]).
  
-Vous pouvez créer et éditer les métadonnées dans un logiciel tableur (Calc ou Excel, par exemple) et l'​enregistrer au format CSV en utilisant les paramètres suivants (sous Excel, il faut séléctionner ​le format d'​export "​texte"​ et non "​csv"​ afin de pouvoir contrôler ces paramètres) :+Vous pouvez créer et éditer les métadonnées dans un logiciel tableur (Calc ou Excel, par exemple) et l'​enregistrer au format CSV en utilisant les paramètres suivants (sous Excel, il faut sélectionner ​le format d'​export "​texte"​ et non "​csv"​ afin de pouvoir contrôler ces paramètres) :
  
   * le séparateur de colonne est virgule « , » ;   * le séparateur de colonne est virgule « , » ;
public/tutoriel_import_txt_csv.txt · Dernière modification: 2015/04/29 09:19 par benedicte.pincemin@ens-lyon.fr