Comment importer un corpus dans TXM ?

Le plus simple est de sélectionner puis de copier (dans le presse-papier) le texte à importer dans l'outil de votre choix (traitement de texte, navigateur, etc.), puis depuis TXM lancer la commande 'Fichier > Importer > Presse-papier'. Une nouvelle icone de corpus apparaît dans la vue des corpus située à gauche de l'interface qui permet de lui appliquer les outils de TXM. Remarque : dans l'import par le presse-papier, la langue utilisée pour la lemmatisation à la volée est réglée par la préférence 'Outils > Préférences / TXM / Utilisateur / Import : Default language'.

Pour importer un ou plusieurs fichiers dans un format spécifique, voici les différentes options disponibles.

A. Textes écrits

formats TXT et XML

  • TXT : déposer les fichiers source au format TXT dans un répertoire et appliquer le module d'import 'Fichier > Importer > TXT+CSV' sur le répertoire.
  • XML : déposer les fichiers source au format XML dans un répertoire et appliquer le module d'import 'Fichier > Importer > XML/w+CSV' sur le répertoire.

Comme pour tous les modules d'import, vous pouvez de façon optionnelle associer des propriétés à chaque texte (auteur, titre, genre, date…) en déposant un fichier 'metadata.csv' au format CSV dans le répertoire des sources (voir la documentation de ces modules pour le format précis de ce fichier).

Pour vous aider à choisir le format source le plus adapté à votre travail, nous vous invitons à suivre la séquence du tutoriel Support - Atelier preparation de corpus et import dans TXM.pdf' qui utilise des fichiers texte exemples fournis dans l'archive support PreparationEtImportDansTXM.zip.

Cette séquence vous montrera comment choisir au mieux le niveau de représentation de vos textes sources en fonction des services dont vous voulez bénéficier au sein de la plateforme TXM : TXM est conçu pour vous aider à importer progressivement vos corpus, d'une représentation minimaliste à la plus évoluée, pour vous aider à gérer au mieux le coût de préparation de vos sources en fonction du temps dont vous disposez.

Voir également le Tutoriel pour importer des textes bruts (ou 'plain text') dans TXM.

Pour les conversions depuis de nombreux formats de textes vers TXT et XML, nous vous recommandons d'utiliser le service de conversion OxGarage.

sources XML-TEI

Europresse

Factiva

Déposer les fichiers exportés au format XML dans un répertoire et lui appliquer le module d'import 'XML Factiva'.

Déposer les fichiers exportés au format TXT (mail) dans un répertoire et lui appliquer le module d'import 'Factiva TXT'.

Hyperbase

Déposer le fichier dans un répertoire et lui appliquer le module d'import 'Hyperbase'.

Iramuteq, Alceste

Déposer le fichier dans un répertoire et lui appliquer le module d'import 'Alceste'.

Cordial

Déposer les fichiers au format CNR dans un répertoire et lui appliquer le module d'import 'CNR+CSV'.

PDF

pages web (HTML)

Voir la question comment faire pour importer des pages web dans TXM ?

Pour l'aspiration de pages web, nous vous recommandons d'utiliser le logiciel gromoteur.

EPub

TXM n'importe pas actuellement de fichiers EPub directement.

Nous vous recommandons d'utiliser le logiciel Calibre pour en extraire une représentation HTML puis d'utiliser le logiciel Tidy pour obtenir du XHTML à importer avec le module d'import XML/w+CSV. Vous pouvez également extraire une représentation .TXT et utiliser le module d'import TXT+CSV.

Remarque : le logiciel <oXygen/> permet également de manipuler des fichiers EPub.

B. Transcriptions d'enregistrements

Transcriber, .ODT, .DOC, .RTF, .TXT

Déposer les fichiers au format .TRS (saisis avec le logiciel Transcriber) dans un répertoire et lui appliquer le module d'import 'XML Transcriber+CSV'.

Vous pouvez également saisir vos transcriptions directement dans un traitement de texte (Word ou équivalent) en respectant des conventions de transcription élémentaires puis les importer dans TXM après conversion automatique. Voir le tutoriel pour l'import de transcriptions basé sur le module d'import 'XML Transcriber+CSV'.

ELAN, CLAN, Praat

Nous vous recommandons de convertir les fichiers source vers le format Transcriber (ou .TRS) à l'aide du convertisseur TEI_CORPO puis d'utiliser le module d'import 'XML Transcriber+CSV'.

C. Corpus multilingues alignés

TMX

Déposer les fichiers au format TMX dans un répertoire et lui appliquer le module d'import 'XML-TMX'.

On peut tester avec le corpus exemple 'uno-tmx-sample-src.zip'.

public/faq.txt · Dernière modification: 2017/05/17 10:58 par charles.bourdot@ens-lyon.fr