Analyse du corpus Moritz

Objectif

Projet porté par AL : importer puis analyser le corpus Anton Reiser de Moritz (Moritz, Karl Philipp: Anton Reiser. Berlin, 1785), en vue d'une traduction.

Dans DTA il est composé de 4 volumes :

À ce stade il serait intéressant de préciser le périmètre du corpus, ses structures et propriétés.

Solution

Préparation et import du corpus :

  • récupérer les fichiers TEI de la DTA
  • utiliser le web service de lemmatisation du haut allemand (pour combiner TEI+lemmes) :
    • curl 'http://kaskade.dwds.de/demo/cab/query?a=default&fmt=tei&clean=1&pretty=1&raw=1' -H 'Content-Type: text/xml; charset=utf-8' --data-binary @input.xml > output.xml
  • utiliser le module d'import XTZ
    • étape xsl-front : transformer chaque mot ayant une structure imbriquée <w><moot/><xlit/>mot</w>
      • avant l'import dans TXM appliquer cette XSL qui met à plat la structure w/moot/xlit en conservant tous les attributs.

Problèmes à résoudre

Segmentation lexicale

  • A. certaines segmentations en <s/> et <w/> coupent les mots. Elles sont dues à des mises en valeur sur des portions de mots. Exemple ci-après du mot Dieſer coupé en deux s/w.

       <hi rendition="#in">
            <s xml:id="s6" next="#s6_2" pn="pa">
                        <w xml:id="w19" next="#w19_1" t="Dieſer" b="328 7" w="Dieser"
                        lemma="diese" tag="PDAT" isLatin1="0" latin1Text="Dieser" isLatinExt="1">D</w>
            </s>
      </hi>
      <s xml:id="s6_2" prev="#s6">
            <w xml:id="w19_1" prev="#w19">ieſer</w>
            [...]
      </s>

  • solution 1 : signaler à DTA le problème de <s> avec <hi> (contact développeur Bryan Jurish + linguiste Susanne Haaf)
  • solution 2 : retailler la XSL pour que les <s> soient corrects
    • le balisage gère avec @next/@prev mais ne pourrait-on pas plutôt inverser l'ordre des balises hi/s/w en s/w/hi ?
  • B. gestion des mots coupés (par lettrines) :
    • il faut gérer les <w> à destination de CQP et à destination de l'édition :
      • pour CQP il faut 1 <w> pour le mot “Dieſer” et son ID
      • pour l'édition il faut que l'ID matche un <span> contenant les <hi> etc.
    • dans le contexte du module d'import XTZ+CSV, il faut tailler des XSL qui font le job

Édition

  • le retour au texte ne fonctionne pas correctement (je me demande si ce n'est pas le '_' dans le nom des fichiers texte qui provoque le problème)
  • la navigation dans les pages ne fonctionne pas correctement
  • idées :
    • est il intéressant/pertinent de faire une édition synoptique transcription-facsimilé ? (pas difficile et le facsimilé est plutôt joli et accessible)

Peut-être proposer à DTA d'ajouter le service de téléchargement de TEI+CAB plus utile pour l'analyse avec TXM.

Documentation

Si possible, développer la documentation en même temps que la solution.

Utilisateur

Développeur

Recette

Tutoriel décrivant explicitement étape par étape l'usage concret de la solution pour valider sa conformité par rapport aux objectifs.

Alpha ou Étape 1

Beta ou Étape 2

etc.

public/umr_ihrim_moritz.txt · Dernière modification: 2018/02/13 11:48 par slh@ens-lyon.fr