Outils pour utilisateurs

Outils du site


public:umr_ihrim_moritz

Ceci est une ancienne révision du document !


Analyse du corpus Moritz

Objectif

Projet porté par AL : importer puis analyser le corpus Anton Reiser de Moritz (Moritz, Karl Philipp: Anton Reiser. Berlin, 1785), en vue d'une traduction.

Dans DTA il est composé de 4 volumes :

À ce stade il serait intéressant de préciser le périmètre du corpus, ses structures et propriétés.

Solution

Préparation et import du corpus :

  • récupérer les fichiers TEI de la DTA
  • utiliser le web service de lemmatisation du haut allemand (pour combiner TEI+lemmes) :
    • curl 'http://kaskade.dwds.de/demo/cab/query?a=default&fmt=tei&clean=1&pretty=1&raw=1' -H 'Content-Type: text/xml; charset=utf-8' --data-binary @input.xml > output.xml
  • utiliser le module d'import XTZ
    • étape xsl-front : transformer chaque mot ayant une structure imbriquée <w><moot/><xlit/>mot</w>
      • avant l'import dans TXM appliquer cette XSL qui met à plat la structure w/moot/xlit en conservant tous les attributs.

Problèmes à résoudre

Segmentation lexicale

  • problème : certaines segmentations en <s/> et <w/> coupent les mots. Elles sont dues à des mises en valeur sur des portions de mots. Exemple ci-après du mot Dieſer coupé en deux s/w.
       <hi rendition="#in">
            <s xml:id="s6" next="#s6_2" pn="pa">
                        <w xml:id="w19" next="#w19_1" t="Dieſer" b="328 7" w="Dieser"
                        lemma="diese" tag="PDAT" isLatin1="0" latin1Text="Dieser" isLatinExt="1">D</w>
            </s>
      </hi>
      <s xml:id="s6_2" prev="#s6">
            <w xml:id="w19_1" prev="#w19">ieſer</w>
            [...]
      </s>      
  • action 1 :
    • retailler la XSL pour que les <s> soient corrects
  • action 2 :
    • le balisage gère avec @next/@prev mais ne pourrait-on pas plutôt inverser l'ordre des balises hi/s/w en s/w/hi ?
    • il faut gérer les <w> à destination de CQP et à destination de l'édition :
      • pour CQP il faut 1 <w> pour le mot “Dieſer” et son ID
      • pour l'édition il faut que l'ID matche un <span> contenant les <hi> etc.
    • dans le contexte du module d'import XTZ+CSV, il faut tailler des XSL qui font le job
  • Vérifier l'édition
    • est il intéressant/pertinent de faire une édition synoptique transcription-facsimilé ? (pas difficile et le facsimilé est plutôt joli et accessible)
    • hyphen de l'édition originale notés mais cela ne gêne pas la lemmatisation. Exemple be¬finden est bien lemmatisé befinden

Peut-être proposer à DTA d'ajouter le service de téléchargement de TEI+CAB plus utile pour l'analyse avec TXM.

Documentation

Si possible, développer la documentation en même temps que la solution.

Utilisateur

Développeur

Recette

Tutoriel décrivant explicitement étape par étape l'usage concret de la solution pour valider sa conformité par rapport aux objectifs.

Alpha ou Étape 1

Beta ou Étape 2

etc.

public/umr_ihrim_moritz.1518518209.txt.gz · Dernière modification: 2018/02/13 11:36 par slh@ens-lyon.fr