Outils pour utilisateurs

Outils du site


public:upr_irht_oriflamms:specs_1

Ceci est une ancienne révision du document !


Spécifications TXM pour Oriflamms. Étape V1

Pouvoir importer les sources d'un projet Oriflamms, utiliser les outils de TXM et développer 3 nouvelles fonctionnalités de décompte spécialisées (peut-être sous forme de macro).

Création d'un projet Oriflamms : commande TEI2Project

(Spécification pour les recettes 1 et 2)

Produire un projet Oriflamms (un ensemble de dossiers contenant des fichiers au format XML-TEI-Oriflamms pour l'importation dans le logiciel Oriflamms et dans TXM) :

  • à partir d'un fichier XML-TEI avec teiCorpus, produire les dossiers :
    • texts : 2 versions :
      • -w (tokenisé par mot)
      • -c (tokenisé par caractère)
    • zones : créer le canevas pour le logiciel Oriflamms (on peut remplacer ces fichiers par le résultat de l'alignement produit par A2IA)
    • img_links : créer le canevas pour le logiciel Oriflamms

Liens

Importation dans TXM

Préparation de l'import TXM pour le module XML-XTZ : commande Project2XTZ

  • résoudre les choices : produire la forme du mot/charactère (+/- abbr) et les propriétés “expan”, “letters-all”, “letters-alignable”, “characters”, “abbr-n”
  • calculer la taille des abréviations et sauver dans une propriété de mot (si > 0 le mot est abrévié) éventuellement prévoir une propriété “est abrévié”
  • calculer les distances aux milestones lb, cb et pb. Nouvelle option d'import XML-XTZ qui calcule les distance et projette l'identifiant des milestones indiqués
  • préparer une édition synoptique avec les images du projet oriflamms
Terminologie
        
    Linguistique :
    Une marque d'abréviation n'est pas une lettre.
    Un caractère est soit une lettre, soit une marque d'abréviation, soit une marque de ponctuation.
    Une lettre est alignable si elle occupe une position autonome sur l'axe horizontal de la chaîne d'écriture.
    Une lettre non alignable peut être suscrite ou représentée par une marque d'abréviation.
    
    Graphique :
    Un caractère alignable a une coordonnée autonome dans l'image.
    L'alignement de certains caractères (modifieurs) dépend de celui d'autres caractères. Ces 
    caractères, non alignables de manière autonome, appartiennent à la catégorie Unicode "combining 
    characters" (\p{M})
    
    Pour les dénombrements :
    - les proportions peuvent se baser sur
      - (a) le nombre total de lettres (expansions comprises)
      - (b) le nombre total de lettres (expansions comprises) et des ponctuations
      - (c) le nombre total de caractères (marques d'abréviations alignables comprises, mais pas les ponctuations)
      - (d) le nombre total de caractèrss (marques d'abréviations alignables et ponctuations comprises)
    
    (EN)CODAGE :
    L'attribut "caractere" est un caractère alignable.
    
     Total lettres : comparantur = 11 
     Total lettres alignables : pant = 4     
     Total caractères alignables : ꝯꝑant = 5
     Total lettres supprimées (non présentes) = Total lettres - Total lettres alignables : 11 - 4 = 7
     Nombre d'abréviations (balises <abbr>) = 3
     
   Expansions : 
     9 -> (com)
     ꝑ -> p(ar)
     ant
     ᷑ -> (ur)
     

Option corpus tokénisé par mot

Source au format projet Oriflamms

       <w>
        <choice>
            <expan ana="ori:align-no"><ex>com</ex></expan>
            <abbr><am></am></abbr>
        </choice>
        <choice>
            <expan ana="ori:align-no">p<ex>ar</ex></expan>
            <abbr><am></am></abbr>
        </choice>ant<choice>
            <expan ana="ori:align-no"><ex>ur</ex></expan>
            <abbr><am></am></abbr>
        </choice>
    </w>

Source prête à l'import XTZ

<w expan="(com)p(ar)ant(ur)" letters-all="comparantur" letters-alignable="pant" characters="ꝯꝑant" abbr-n="3">ꝯꝑant᷑</w>
  • Total lettres = string-length(w/@letters-all)
  • Total lettres alignables = string-length(w/@letters-alignable)
  • Total caractères alignables = string-length(w/@characters)
  • Total caractères = string-length(w/text())
  • Nombre d'abréviations = w/@abbr-n as xs:integer

Option corpus tokénisé par caractère

Source au format projet Oriflamms

       <w>
        <choice>
            <expan ana="ori:align-no"><ex>com</ex></expan>
            <abbr>
                <c><g type="am"></g></c>
            </abbr>
        </choice>
        <choice>
            <expan ana="ori:align-no">p<ex>ar</ex></expan>
            <abbr>
                <c><g type="am"></g></c>
            </abbr>
        </choice>an<choice>
            <abbr>
                <c>t<g type="am"></g></c>
            </abbr>
            <expan ana="ori:align-no">t<ex>ur</ex></expan>
    </w>

Ontologies

  • –> Étape V2 projeter les ontologies : produire un fichier standoff où les annotations sont résolues (exit les refs). Nouvelle option d'import XML-XTZ: dossier d'annotations standoff

Import XTZ

Analyse du corpus

Terminologie

  • les proportions (ou pourcentages) sont calculés par rapport à différents contextes :
    • début, milieu ou fin de ligne
    • intérieur ou extérieur d'entités
    • début, milieu ou fin de mot (pour les caractères)
    • etc.
public/upr_irht_oriflamms/specs_1.1454577292.txt.gz · Dernière modification: 2016/02/04 10:14 par matthieu.decorde@ens-lyon.fr