Tutoriel d'importation du corpus Alexandre Tchitchérine

  1. Pré-requis
    • TXM 0.7.8
    • Installation du TreeTagger dans TXM (Tutoriel) (facultatif, pour l'annotation du corpus)
    • Connexion Internet (pour la conversion Oxgarage)
    • Microsoft Word 2007 ou supérieur
  2. Préparation de la transcription
  3. Préparation des images pour le fac-simimé des pages du document (facultatif)
    • Les images doivent être placées dans un dossier qui porte le même nom que le document XML-TEI qui sera importé (sans extension)
    • L'ordre alphabétique des noms des images doit correspondre à l'ordre des pages. Il peut être nécesssaire d'ajouter des “0” devant les noms numériques (e.g. renommer 9.jpg en 009.jpg)
    • Le nombre d'image doit correspondre exactement au nombre de pages de la transcription
  4. Conversion en XML-TEI
    • Utiliser le service Oxgarage http://www.tei-c.org/oxgarage,
    • Remplir le formulaire
      • Convert from : Documents > Microsoft Word (.docx)
      • Convert to : TEI P5 Document
      • En haut de la page, cliquer sur “Parcourir…”, sélectionner le document
      • Cliquer sur “Convert”
    • Enregistrer le résultat
  5. Préparation de l'import
    • Récupérer l'archive du dossier de paramétrages de l'import
    • Décompresser le dossier de paramétrages, il devient le dossier de sources pour l'importation
    • Décompresser l'archive enregistré depuis Oxgarage
    • Ouvir le dossier décompressé
    • Renommer le fichier tei.xml en atchitcherine.xml (ou autre, le nom du fichier devient l'identifiant du texte dans le corpus)
    • Copier le document XML-TEI dans le dossier de sources
    • Copier le dossier “media” produit par Oxgarage dans le sous-dossier “image” des sources
    • Si on veut produire une édition synoptique avec le fac-simile du manuscrit, copier le dossier contenant les images des pages dans le sous-dossier “images” des sources (cf. l'étape Préparation des images)
  6. Importation dans TXM
    • Lancer TXM
    • Menu Fichier > Importer > XML-XTZ + CSV
    • Dans le formulaire, vérifier les paramétrages :
      • Modifier éventuellement le nom du corpus
      • Langue Princicaple
        • Cocher “Annoter le corpus” si TreeTagger est installé, sinon décocher
        • Sélectionner la langue (fr ou ru)
      • Éditions
        • Cocher “Construire l'édition”
        • Nombre de mots par page : 999999
        • Élément de pagination : pb
        • Si production d'édition synoptique
          • cocher la case Éditions / Build 'facs' edition
          • cliquer sur le bouton ”…” et sélectionner le sous-dossier “images” du dossier des sources
      • Plans textuels
        • Hors texte à éditer : teiHeader
        • Note elements : note
    • Lancer l'import
      • Un nouveau corpus doit apparaître dans l'onglet des corpus
  7. Vérification du corpus
    • Commande Édition
      • l'édition s'affiche en mode synoptique
      • les illustrations s'affichent dans la transcription
      • les descriptions des dessins s'affichent au-dessous des images sous la forme d'un tableau
    • Commande sous-corpus
      • on peut créer un sous-corpus de descriptions des dessins
        • mode simple
        • structure : div
        • propriété : type1
        • valeur : illustration
    • Commande Index
      • Requête : <lieunote> []+ </lieunote> (index des lieux des prises de note dans les descriptions des dessins)

Tutoriel de création d'édition synoptique transcription vs traduction

  1. Importer la transcription (voir le tutoriel ci-dessus) sous le nom ATCHITCHERINE
  2. Préparer la traduction
    • Elle doit avoir exactement le même nombre de pages que la transcription
    • Le fichier doit avoir le même nom que le fichier de la transcription (sinon, il faudra renommer les pages d'édition HTML)
  3. Importer la traduction dans TXM (voir le tutoriel ci-dessus) sous le nom ATCHITCHERINERUPAR
  4. Fermer TXM
  5. Copier le dossier [USERHOME]/TXM/corpora/ATCHITCHERINERUPAR/HTML/ATCHITCHERINERUPAR/default dans un dossier temporaire
  6. Dans le dossier temporaire, renommer 'default' en 'russe'
  7. Copier le dossier 'russe' dans [USERHOME]/TXM/corpora/ATCHITCHERINERUPAR/HTML/ATCHITCHERINE
  8. Ouvrir le fichier [USERHOME]/TXM/corpora/ATCHITCHERINERUPAR/import.xml
  9. Dupliquer l'élément /import/corpora[1]/corpus[1]/editions[1]/edition[1] en remplaçant “default” par “russe” dans l'attribut @name
  10. Dupliquer l'élément /import/corpora[1]/corpus[1]/texts[1]/text[1]/editions[1]/edition[1] en remplaçant “default” par “russe” dans les attributs @index et @name
  11. Enregistrer le fichier et rouvrir TXM
  12. L'édition “russe” doit désormais être disponible
public/novossibirsk_journaux_francophones/tutoriel_importation_atchitcherine.txt · Dernière modification: 2017/04/21 16:06 par alexei.lavrentev@ens-lyon.fr