Tutoriel pour TXM 0.7.2

Voici un tutoriel pour préparer un ensemble d'articles exportés du portail Europresse pour pouvoir ensuite les importer dans TXM 0.7.2 avec le module d'import XML/w+CSV. Il a été réalisé par Matthieu Decorde, Yves Le Lay et Serge Heiden – Edit (SH) et testé avec l'aide de Silvia Flaminio et Yves Le Lay. : Quand le nouveau module d'importation Europresse sera disponible dans une version ultérieure de TXM, seule la partie “Récupération dans Europresse” sera pertinente (le reste étant réalisé automatiquement par le module d'importation).

A. Récupération des articles dans le portail Europresse.com

L'accès depuis l'ENS de Lyon se trouve à la rubrique “Informations, Actualités” des ressources en ligne sur le site de l'établissement : http://www.ens-lyon.eu/ressources/ressources-en-ligne-86972.kjsp

  • Rédiger une requête dans la fenêtre “Recherche”. Une liste des opérateurs et des clés est disponible. Il est possible de préciser des périodes et des sources spécifiques.
  • L'affichage des résultats peut être trié par date, par pertinence et par source. Attention à quelques limites de cet affichage : 50 articles par page et 6 pages maximum, soit 300 articles maximum. Au-delà de 300 résultats, il faut restreindre la requête.
  • Sélectionner les résultats pertinents ou l'ensemble de la page.
  • Pour préparer la sauvegarde des résultats, veiller à sélectionner le format HTML et à spécifier que vous désirez sauver le texte intégral (et non la liste de résultats).
  • Accepter les droits et la licence d'utilisation
  • Sauvegarder le fichier de résultats où vous le souhaitez.
  • Recommencer éventuellement le processus de sélection et de sauvegarde des articles sur les pages de résultats suivantes.
B. Préparation des fichiers sources pour le script de transformation
  • Créer un dossier : “moncorpus-src”
  • Dans ce dossier, créer un dossier “orig”
  • Copier dans le dossier “orig” tous les exports de texte intégral au format “*.html” d'Europresse
C. Préparation du script de transformation dans TXM

$TXMHOME est le répertoire ou TXM enregistre les fichiers utilisateur de TXM. Ce chemin est la concaténation du répertoire utilisateur et de “TXM”, il dépend donc du système d'exploitation et de l'identifiant de l'utilisateur. Par exemple, sous Windows Vista/7/8, si mon identifiant est “matthieu” alors TXMHOME vaut “C:\Users\matthieu\TXM”, sous Linux il vaudrait ”/home/matthieu/TXM” et sous Max OS X ”/Users/matthieu”

D. Lancement du script de transformation dans TXM
  • A partir de la vue “Macro”, double cliquer sur la macro “EuroPress2XML”. Et modifier les champs suivant :
    • rootDir : le répertoire qui contient le répertoire “orig” (qui lui même contient les fichiers HTML)
    • encoding: l'encodage des fichiers HTML. Sous Windows : iso-8859-1, Linux : UTF-8
    • debug : afficher plus de message en cas d'erreur
  • A la fin de l'exécution du script plusieurs répertoires sont créés :
    • “moncorpus-src/xhtml” : contient la conversion en “xhtml” desfichiers “html”
    • “moncorpus-src/moncorpus-src” : est le répertoire des sources XML prêtes à être importées dans TXM
    • “moncorpus-src/duplicates” : contient les doublons détectés par le script. Un doublon est détecté si l'article passe les 2 critères suivants :
      • Le titre de l'article
      • Le nombre de caractère de l'article est différent de plus de 10 caractères du nombre de caractères de l'article de même nom précédemment rencontré
    • pour réintégrer les textes qui ne sont pas des doublons, il suffit de déplacer les fichiers dans “moncorpus-src”
E. Import avec le module XML/w+CSV

Il suffit de lancer le module et de pointer vers le répertoire source “moncorpus-src/moncorpus-src” (ce dossier ne doit contenir que les articles XML). En cas de difficulté, vous pouvez contacter Matthieu Decorde ou la liste txm-users.

public/tutoriel_europresse.txt · Dernière modification: 2016/02/02 11:05 par slh@ens-lyon.fr