Analyse du corpus Moritz

Objectif

Projet porté par AL : importer puis analyser le corpus Anton Reiser de Moritz (Moritz, Karl Philipp: Anton Reiser. Berlin, 1785), en vue d'une traduction.

Dans DTA il est composé de 4 volumes :

À ce stade il serait intéressant de préciser le périmètre du corpus, ses structures et propriétés.

Solution

Préparation et import du corpus :

  • récupérer les fichiers TEI de la DTA
  • utiliser le web service de lemmatisation du haut allemand (pour combiner TEI+lemmes) :
    • curl 'http://kaskade.dwds.de/demo/cab/query?a=default&fmt=tei&clean=1&pretty=1&raw=1' -H 'Content-Type: text/xml; charset=utf-8' --data-binary @input.xml > output.xml
  • utiliser le module d'import XTZ
    • étape xsl-front : transformer chaque mot ayant une structure imbriquée <w><moot/><xlit/>mot</w>
      • avant l'import dans TXM appliquer cette XSL qui met à plat la structure w/moot/xlit en conservant tous les attributs.
      • A AMELIORER ? certaines segmentations en <s/> et<w/> coupent les mots. Elles sont dues à des mises en valeur sur des portions de mots. Exemple ci-après du mot Dieſer coupé en deux s/w. Le balisage gère avec @next/@prev mais ne pourrait-on pas plutôt inverser l'ordre des balises hi/s/w en s/w/hi ?

       <hi rendition="#in">
            <s xml:id="s6" next="#s6_2" pn="pa">
                        <w xml:id="w19" next="#w19_1" t="Dieſer" b="328 7" w="Dieser"
                        lemma="diese" tag="PDAT" isLatin1="0" latin1Text="Dieser" isLatinExt="1">D</w>
            </s>
      </hi>
      <s xml:id="s6_2" prev="#s6">
            <w xml:id="w19_1" prev="#w19">ieſer</w>
            [...]
      </s>

  • Vérifier l'édition
    • est il intéressant/pertinent de faire une édition synoptique transcription-facsimilé ? (pas difficile et le facsimilé est plutôt joli et accessible)
    • hyphen de l'édition originale notés mais cela ne gêne pas la lemmatisation. Exemple be¬finden est bien lemmatisé befinden

Peut-être proposer à DTA d'ajouter le service de téléchargement de TEI+CAB plus utile pour l'analyse avec TXM.

Documentation

Si possible, développer la documentation en même temps que la solution.

Utilisateur

Développeur

Recette

Tutoriel décrivant explicitement étape par étape l'usage concret de la solution pour valider sa conformité par rapport aux objectifs.

Alpha ou Étape 1

Beta ou Étape 2

etc.

public/umr_ihrim_moritz.txt · Dernière modification: 2016/12/06 16:38 par maud.ingarao@ens-lyon.fr