Différences

Cette page vous donne les différences entre la révision choisie et la version actuelle de la page.

public:faq [2018/11/06 10:56]
slh@ens-lyon.fr
public:faq [2019/02/12 18:14] (version actuelle)
slh@ens-lyon.fr
Ligne 115: Ligne 115:
  * [[public:faq#comment_sont_ordonnees_les_parties_d_une_partition_?|Comment sont ordonnées les parties d'une partition ?]]   * [[public:faq#comment_sont_ordonnees_les_parties_d_une_partition_?|Comment sont ordonnées les parties d'une partition ?]]
  * [[public:faq#peut-on_choisir_l_ordre_des_parties_d_une_partition|Peut-on choisir l'ordre des parties d'une partition ?]]   * [[public:faq#peut-on_choisir_l_ordre_des_parties_d_une_partition|Peut-on choisir l'ordre des parties d'une partition ?]]
-  * [[public:faq#je_veux_faire_une_partition_sur_un_sous-corpus_mais_c_est_bizarre_certaines_parties_semblent_avoir_disparu|Je veux faire une partition sur un sous-corpus, mais c'est bizarre, certaines parties semblent avoir disparu ?]]+  * [[public:faq#je_veux_faire_une_partition_sur_un_sous-corpus_mais_c_est_bizarre_certaines_parties_semblent_avoir_disparu_ou_etre_vides_ou_la_partition_n_est_pas_creee|Je veux faire une partition sur un sous-corpus, mais c'est bizarre, certaines parties semblent avoir disparu, ou être vides, ou la partition n'est pas créée ?]]
==== Le langage d'interrogation CQL et le moteur de recherche CQP ==== ==== Le langage d'interrogation CQL et le moteur de recherche CQP ====
Ligne 394: Ligne 394:
Il faut installer le TXM qui correspond à l'architecture de votre machine. En général, les machines 64 bits sont des machines récentes, donc si vous n'êtes pas féru d'informatique et que votre machine a 4 ans, il y a de très grandes chances que vous soyez en 32 bits (il faut quand même savoir que les machines 64 bits existent depuis plus de 10 ans, et c'est environ depuis 2011 qu'on n'achète plus trop de machines 32 bits). Il faut installer le TXM qui correspond à l'architecture de votre machine. En général, les machines 64 bits sont des machines récentes, donc si vous n'êtes pas féru d'informatique et que votre machine a 4 ans, il y a de très grandes chances que vous soyez en 32 bits (il faut quand même savoir que les machines 64 bits existent depuis plus de 10 ans, et c'est environ depuis 2011 qu'on n'achète plus trop de machines 32 bits).
-Pour connaitre l'architecture 32 ou 64 bits de votre système Windows : [[http://windows.microsoft.com/fr-FR/windows7/32-bit-and-64-bit-Windows-frequently-asked-questions|voir la documentation Microsoft]]+Pour connaitre l'architecture 32 ou 64 bits de votre système Windows : [[https://support.microsoft.com/en-us/help/15056/windows-7-32-64-bit-faq|voir la documentation Microsoft]]
===== Mac OS X ===== ===== Mac OS X =====
Ligne 638: Ligne 638:
</code> </code>
-2. Dans TXM lancer la commande Fichier > Importer > Presse-Papier+2. Dans TXM
 +  - éventuellement, choisir dans la page de préférences "TXM > Utilisateur > Import" la langue 'fr' d'étiquetage dans le paramètre "Default language" (Langue par défaut) 
 +    * cela est nécessaire si l'interface du système d'exploitation utilise une langue différente du français 
 +  - lancer la commande Fichier > Importer > Presse-Papier
3. Vérifier que dans la console les dernières lignes affichées sont : 3. Vérifier que dans la console les dernières lignes affichées sont :
Ligne 1278: Ligne 1281:
==== sources XML-TEI ==== ==== sources XML-TEI ====
-Voir les [[https://groupes.renater.fr/wiki/txm-users/public/tutoriels_import_xml-tei|tutoriels dédiés XML-TEI]].+Voir les [[https://groupes.renater.fr/wiki/txm-users/public/tutoriels_import_xml-tei|tutoriels dédiés aux représentations XML-TEI]]
 + 
 +==== traitements de texte .DOCX, .ODT ==== 
 + 
 +Déposer les fichiers dans un répertoire et lui appliquer le module d'import [[http://textometrie.ens-lyon.fr/html/doc/manual/0.7.9/fr/manual26.xhtml#toc112|ODT/DOC/RTF+CSV]].  
 + 
 +Ou bien convertir d'abord les fichiers en fichiers en XML-TEI avec le service en ligne [[http://www.tei-c.org/oxgarage|OxGarage]], puis importer les fichiers au format XML avec le module XTZ+CSV. 
 + 
 +Ou bien convertir d'abord les fichiers en fichiers au format TXT avec la [[https://groupes.renater.fr/wiki/txm-users/public/macros#text2txt|macro Text2TXT]], puis importer les fichiers au format TXT avec le module TXT+CSV.
==== Europresse ==== ==== Europresse ====
Ligne 1297: Ligne 1308:
Déposer le fichier dans un répertoire et lui appliquer le module d'import 'Alceste'. Déposer le fichier dans un répertoire et lui appliquer le module d'import 'Alceste'.
 +
 +==== Taltac ====
 +
 +Convertir d'abord le fichier au format Taltac en un fichier au format XML avec la [[public:macros#taltac2xml|macro Taltac2XML]], puis importer le fichier au format XML avec le module XTZ+CSV.
==== Cordial ==== ==== Cordial ====
Ligne 1325: Ligne 1340:
===== B. Transcriptions d'enregistrements ===== ===== B. Transcriptions d'enregistrements =====
-==== Transcriber, .ODT, .DOC, .RTF, .TXT ====+==== Transcriber ====
Déposer les fichiers au format .TRS (saisis avec le logiciel Transcriber) dans un répertoire et lui appliquer le module d'import 'XML Transcriber+CSV'. Déposer les fichiers au format .TRS (saisis avec le logiciel Transcriber) dans un répertoire et lui appliquer le module d'import 'XML Transcriber+CSV'.
-Vous pouvez également saisir vos transcriptions directement dans un traitement de texte (Word ou équivalent) en respectant des conventions de transcription élémentaires puis les importer dans TXM après conversion automatique. Voir le [[https://groupes.renater.fr/wiki/txm-users/public/tutoriel_import_transcriptions|tutoriel pour l'import de transcriptions]] basé sur le module d'import 'XML Transcriber+CSV'.+==== .ODT, .DOC, .RTF, .TXT ==== 
 + 
 +Vous pouvez également saisir vos transcriptions directement dans un traitement de texte (Word ou équivalent) en respectant des conventions de transcription élémentaires puis les importer dans TXM avec le module d'import 'XML Transcriber+CSV' après conversion automatique. Voir le [[https://groupes.renater.fr/wiki/txm-users/public/tutoriel_import_transcriptions|tutoriel pour l'import de transcriptions]].
==== ELAN, CLAN, Praat ==== ==== ELAN, CLAN, Praat ====
Ligne 1342: Ligne 1359:
On peut tester avec le corpus exemple '[[https://sourceforge.net/projects/txm/files/corpora/uno-tmx-sample/uno-tmx-sample-src.zip/download|uno-tmx-sample-src.zip]]'. On peut tester avec le corpus exemple '[[https://sourceforge.net/projects/txm/files/corpora/uno-tmx-sample/uno-tmx-sample-src.zip/download|uno-tmx-sample-src.zip]]'.
 +
 +===== D. Données textuelles tabulées =====
 +
 +On peut importer des données textuelles enregistrées dans des tableaux MS Excel ou LibreOffice Calc en les convertissant en XML au préalable, puis en utilisant les modules d'import basés sur le format XML (comme XML/w+CSV ou XTZ+CSV par exemple).
 +
 +Lors de la conversion, on choisira les colonnes qui deviendront des métadonnées de texte et les colonnes qui deviendront des sections de texte.
 +
 +==== CSV ====
 +
 +Convertir les fichiers .csv en .xml avec la [[public:macros#csv2xml|macro CSV2XML]].
 +
 +==== Excel ====
 +
 +Convertir les fichiers .xlsx en .xml avec la macro [[public:macros#excel2xml_exceldir2xml|macro Excel2XML]] ou ExcelDir2XML pour une conversion par lots.
 +
 +Remarque : il est conseillé d'utiliser la macro Excel2XML plutôt que CSV2XML car le format .xlsx est plus précis (moins de problèmes d'encodage de caractères, de caractère séparateur de colonnes, etc.) et Excel2XML offre plus de services.
====== Après import, certains caractères de mes textes sont illisibles. Que se passe-t-il ? ====== ====== Après import, certains caractères de mes textes sont illisibles. Que se passe-t-il ? ======
Ligne 1477: Ligne 1510:
====== Quel est le format du fichier metadata.csv ?  ====== ====== Quel est le format du fichier metadata.csv ?  ======
-Le fichier de métadonnées de textes "metadata.csv" est utilisé par tous les modules d'import dont le nom fini par "+CSV".+Le fichier de métadonnées de textes "metadata.csv" est utilisé par tous les modules d'import dont le nom finit par "+CSV".
Il doit contenir au minimum la colonne "id" (en minuscule, en première colonne) : cette colonne contient les noms des fichiers contenant les textes, sans leur extension. Il doit contenir au minimum la colonne "id" (en minuscule, en première colonne) : cette colonne contient les noms des fichiers contenant les textes, sans leur extension.
Ligne 1486: Ligne 1519:
  * pas de majuscule,   * pas de majuscule,
  * pas de chiffre en premier ni en dernier caractère,   * pas de chiffre en premier ni en dernier caractère,
-  * d'une manière générale, éviter les ponctuations et les caractères non alphanumériques.+  * d'une manière générale, éviter les ponctuations et les caractères non alphanumériques (à l'exception du tiret en caractère médian).
Le fichier metadata.csv doit être placé à coté des fichiers source, dans le même répertoire. Le fichier metadata.csv doit être placé à coté des fichiers source, dans le même répertoire.
-Pour TXM 0.6, ce fichier doit être sauvegardé à partir d'Excel ou de Calc avec les paramètres suivant :+Pour TXM 0.6 et ultérieur, ce fichier doit être sauvegardé à partir d'Excel ou de Calc avec les paramètres suivants :
  * encodage : UTF-8 (ou Unicode)   * encodage : UTF-8 (ou Unicode)
  * séparateur de colonne : ,   * séparateur de colonne : ,
-  * séparater de texte : "+  * séparateur de texte : "
Dans certaines version d'Excel (Mac OS X), il n'est pas possible de régler ces paramètres au moment de la sauvegarde. Dans certaines version d'Excel (Mac OS X), il n'est pas possible de régler ces paramètres au moment de la sauvegarde.
-Il faut alors utiliser Calc de la suite LibreOffice (anciennement OpenOffice) pour pouvoir le faire.+Il faut alors utiliser Calc de la suite LibreOffice (ou OpenOffice) pour pouvoir le faire ou bien modifier le format du fichier metadata.csv pris en charge dans les paramètres TXM (Menu Outils > Préférences > TXM > Utilisateur > Import).
Pour TXM 0.5, le format du fichier metadata.csv varie en fonction du module d'import : Pour TXM 0.5, le format du fichier metadata.csv varie en fonction du module d'import :
Ligne 1506: Ligne 1539:
    * encodage : UTF-8 (ou Unicode)     * encodage : UTF-8 (ou Unicode)
    * séparateur de colonne : ,     * séparateur de colonne : ,
-    * séparater de texte : " +    * séparateur de texte : "
====== Je n'arrive pas à éditer mon fichier metadata.csv avec Calc  ====== ====== Je n'arrive pas à éditer mon fichier metadata.csv avec Calc  ======
Ligne 1713: Ligne 1745:
-====== Je veux faire une partition sur un sous-corpus, mais c'est bizarre, certaines parties semblent avoir disparu ? ======+====== Je veux faire une partition sur un sous-corpus, mais c'est bizarre, certaines parties semblent avoir disparu, ou être vides, ou la partition n'est pas créée ? ====== 
 + 
 +La commande "Créer une Partition" peut être appliquée à un sous-corpus, mais elle produit un résultat incorrect si la structure utilisée pour définir la partition est **au-dessus de**((Équivalences terminologiques : une structure A contenant une structure B est “de niveau supérieur à“ la structure B ou “contient“ la structure B. Une structure B contenue par une structure A est “de niveau inférieur à“ la structure A ou “est contenue“ par la structure A)) la structure utilisée pour définir le sous-corpus. 
 + 
 +Soit un corpus d'entretiens (structure “text”) portant une information sur la tranche d'âge de la personne interviewée (propriété “agecla”, avec des valeurs de la forme “20-32”, “32-38”, etc.), ainsi que des informations sur les thématiques propres à chaque partie des entretiens, définies grâce à la structure “div” :  
 + 
 +Dans ce corpus, on pourra sans difficulté :  
 +  * partitionner un sous-corpus d’entretiens réalisés auprès d'un interviewé ayant entre 38 et 50 ans, afin de faire contraster les entretiens sur le genre : cette opération ne pose aucune difficulté puisque les structures sont de **même niveau** (« text ») ;  
 +  * partitionner un sous-corpus d’entretiens réalisés auprès d'un interviewé ayant entre 38 et 50 ans, afin de faire contraster les différentes parties des entretiens selon leur thématique : cette opération ne posera aucune difficulté puisque la structure ayant servi à définir le sous-corpus (“text”) **contient** la structure servant à définir la partition (“div”).  
 + 
 +En revanche, vous devrez utiliser le mode avancé pour créer une partition si la structure utilisée pour la définir est **supérieure** à la structure utilisée pour définir le sous-corpus. Il faudra donc utiliser le mode avancé dans le cas où l’on souhaiterait, par exemple, partitionner un sous-corpus constitué des parties d'entretien consacrées à la thématique “métier” en vue de faire contraster les entretiens suivant la tranche d'âge de l'interviewé. En effet, dans ce cas, la structure utilisée pour définir le sous-corpus (“div”) est inférieure à la structure servant à définir la partition (“text”). 
 + 
 +Dans le mode avancé, l’utilisateur aura ainsi à entrer les équations suivantes pour partitionner son corpus :  
 +  * partie 1 : [_.text_agecla=“20-32” & _.div_topic=“métier”] expand to div 
 +  * partie 2 : [_.text_agecla=“32-38” & _.div_topic=“métier”] expand to div\\ etc.
-La commande "Créer une Partition" peut être appliquée à un sous-corpus, mais elle produit un résultat incorrect si la structure utilisée pour définir la partition est au-dessus de la structure utilisée pour définir le sous-corpus. Exemples : +Rq. 1 : Cette partition est construite directement sur le corpus entier mais en fait ne couvre que le sous-corpus "métier" (qui n'est pas créé et n'apparaît pas au niveau de l'interface). On fait une exception en construisant une partition qui ne couvre pas tout le domaine sur lequel elle porte (corpus entier), son domaine effectif (métier) reste implicite.
-  * sur un sous-corpus des entretiens réalisés auprès d'un interviewé ayant entre 38 et 50 ans, contraster les entretiens sur le sexe (homme / femme) : OK (structures de même niveau : c'est la même, "text") +
-  * sur un sous-corpus des entretiens réalisés auprès d'un interviewé ayant entre 38 et 50 ans, contraster les différentes parties des entretiens selon leur thématique : OK (la structure ayant servi à définir le sous-corpus, "text", contient la structure servant à définir la partition, "div"). +
-  * sur un sous-corpus constitué des parties d'entretien consacrées à la thématique "métier", contraster les entretiens suivant la tranche d'âge de l'interviewé : attention (la structure ayant servi à définir le sous-corpus, "div", est en dessous de la structure servant à définir la partition, "text").+
-Ce genre de partition est possible mais en mode avancé, dans le cas décrit les équations à entrer pour définir les différentes parties seraient : +Rq. 2 : Le "expand to div" permet de construire les parties comme un ensemble de div (et nom comme un ensemble de mots), et donc de garder la séquence des mots à l'intérieur des div (pour les requêtes sur des expressions).
-  * partie 1 : [_.text_agecla="20-32"] expand to div +
-  * partie 2 : [_.text_agecla="32-38"] expand to div +
-  * etc. +
-Le "expand to div" permet de construire les parties comme un ensemble de div (et nom comme un ensemble de mots), et donc de garder la séquence des mots à l'intérieur des div (pour les requêtes sur des expressions).+
====== Comment faire un sous-corpus à partir d'une recherche de mots ? ====== ====== Comment faire un sous-corpus à partir d'une recherche de mots ? ======
public/faq.1541498167.txt.gz · Dernière modification: 2018/11/06 10:56 par slh@ens-lyon.fr