Outils pour utilisateurs

Outils du site


public:upr_irht_oriflamms:specs_1

Spécifications TXM pour Oriflamms. Étape V1

Pouvoir importer les sources d'un projet Oriflamms et créer un projet Oriflamms.

Création d'un projet Oriflamms : commande TEI2Project

(Spécification pour les recettes 1 et 2)

Produire un projet Oriflamms (un ensemble de dossiers contenant des fichiers au format XML-TEI-Oriflamms pour l'importation dans le logiciel Oriflamms et dans TXM) :

  • à partir d'un fichier XML-TEI avec teiCorpus, produire les dossiers :
    • texts : 2 versions :
      • -w (tokenisé par mot)
      • -c (tokenisé par caractère)
    • zones : créer le canevas pour le logiciel Oriflamms (on peut remplacer ces fichiers par le résultat de l'alignement produit par A2IA)
    • img_links : créer le canevas pour le logiciel Oriflamms

Liens

Importation dans TXM

Préparation de l'import TXM pour le module XML-XTZ : commande Project2XTZ

  • résoudre les choices : produire la forme du mot/charactère (+/- abbr) et les propriétés “expan”, “letters-all”, “letters-alignable”, “characters”, “abbr-n”
  • calculer la taille des abréviations et sauver dans une propriété de mot (si > 0 le mot est abrévié) éventuellement prévoir une propriété “est abrévié”
  • calculer les distances aux milestones lb, cb et pb. Nouvelle option d'import XML-XTZ qui calcule les distance et projette l'identifiant des milestones indiqués
  • préparer une édition synoptique avec les images du projet oriflamms

Terminologie

Linguistique :

  • Un caractère est soit une lettre, soit une marque d'abréviation, soit une marque de ponctuation.
  • Une lettre est alignable si elle occupe une position autonome sur l'axe horizontal de la chaîne d'écriture.
  • Une lettre non alignable peut être représentée ou par une marque d'abréviation.
  • Une marque d'abréviation peut être :
    • une lettre suscrite
      • par exemple un “a suscrit” dans qnͣt, abréviation de quant
    • une lettre modifiée
      • par exemple un “p barré”, ꝑ, abréviation de “per” ou “par
    • un caractère spécial (pas une lettre) occupant une position sur l'axe horizontal la chaîne d'écriture
      • par exemple un “9 tironien”, ꝯ, abréviation de “cum”, “con” ou “com”
    • une marque diacritique
      • un tilde (ou barre horizontale) “de nasalité” au-dessus d'une voyelle, ã, abréviation de “an” ou “am

Graphique

  • Un caractère alignable a une coordonnée autonome dans l'image.
  • L'alignement de certains caractères (modifieurs) dépend de celui d'autres caractères. Ces caractères, non alignables de manière autonome, appartiennent à la catégorie Unicode “combining characters” (\p{M})

Règles d'alignement et de codage

Type de caractèreLettreMarque d'abréviationAlignableBalisage dans expanBalisage dans abbrClasse Unicode
Lettre ordinaireOuiNonOuiN/AN/AL
Lettre adscriteOuiOuiOuiq<ex>u</ex><c rend=“sup”>i</c>q<am><c rend=“sup”>i</c></am>L
Lettre suscriteOuiOuiNonq<ex>u</ex>aq<am>&asup;</am>M
Lettre modifiéeOuiOuiOuip<ex>er</ex><am>&pbardes;</am>Lm ???
Caractère spécial d'abréviationNonOuiOui<ex>cum</ex><am>&condes;</am>S ??? ou Lm
Marque diacritique d'abréviationNonOuiNona<ex>n</ex>a<am>&combtild;</am>M
Marque de ponctuationNonNonOuiN/AN/AP

Pour les dénombrements :

  • les proportions peuvent se baser sur
    • (a) le nombre total de lettres (expansions comprises)
    • (b) le nombre total de lettres (expansions comprises) et des ponctuations
    • (c) le nombre total de caractères (marques d'abréviations alignables comprises, mais pas les ponctuations)
    • (d) le nombre total de caractères (marques d'abréviations alignables et ponctuations comprises)

(EN)CODAGE :

  
  ꝯꝑantͥ
  
   Total lettres (letters-all) : comparantur = 11 
   Total lettres alignables (letters-alignable) : pant = 4     
   Total caractères alignables (characters) : ꝯꝑant = 5
   Total lettres supprimées (non présentes) = Total lettres - Total lettres alignables : 11 - 4 = 7
   Total caractères supprimés = Total lettres - Total caractères alignables : 11 - 5 = 6
   Nombre d'abréviations (balises <abbr>) = 3
   
 Expansions : 
   9 -> (com)
   ꝑ -> p(ar)
   ant
    ᷑ -> (ur)
    
  pͥore
  
  Expansions :
  
   pͥ -> p(r)i (la lettre i est présente mais suscrite, elle n'est normalement pas considérée comme "supprimée")
  
   Total lettres (letters-all) : priore = 6 
   Total lettres alignables (letters-alignable) : pore = 4
   Total lettres présentes : piore = 5
   Total caractères alignables (characters) : pore = 4
   Total lettres supprimées = Total lettres - Total lettres alignables : 6 - 4 = 2 
                              (ou   Total lettres - Total lettres présentes  : 6 - 5 = 1
   Nombre d'abréviations (balises <abbr>) = 1

Option corpus tokénisé par mot

Source au format projet Oriflamms

       <w>
        <choice>
            <expan ana="ori:align-no"><ex>com</ex></expan>
            <abbr><am></am></abbr>
        </choice>
        <choice>
            <expan ana="ori:align-no">p<ex>ar</ex></expan>
            <abbr><am></am></abbr>
        </choice>ant<choice>
            <expan ana="ori:align-no"><ex>ur</ex></expan>
            <abbr><am></am></abbr>
        </choice>
    </w>

Source prête à l'import XTZ

<w expan="(com)p(ar)ant(ur)" letters-all="comparantur" letters-alignable="pant" characters="ꝯꝑant" abbr-n="3">ꝯꝑant᷑</w>
  • Total lettres = string-length(w/@letters-all)
  • Total lettres alignables = string-length(w/@letters-alignable)
  • Total caractères alignables = string-length(w/@characters)
  • Total caractères = string-length(w/text())
  • Nombre d'abréviations = w/@abbr-n as xs:integer

Option corpus tokénisé par caractère

Source au format projet Oriflamms

       <w>
        <choice>
            <expan ana="ori:align-no"><ex>com</ex></expan>
            <abbr>
                <c><g type="am"></g></c>
            </abbr>
        </choice>
        <choice>
            <expan ana="ori:align-no">p<ex>ar</ex></expan>
            <abbr>
                <c><g type="am"></g></c>
            </abbr>
        </choice>an<choice>
            <abbr>
                <c>t<g type="am"></g></c>
            </abbr>
            <expan ana="ori:align-no">t<ex>ur</ex></expan>
    </w>

Source prête à l'import XTZ

<w expan="(com)p(ar)ant(ur)" letters-all="comparantur" letters-alignable="pant" characters="ꝯꝑant" abbr-n="3">
  <choice>
    <abbr>
      <c expan="(com)" letters-all="com" letters-alignable="" characters="ꝯ" abbr-n="1" type="am"></c>
      <c expan="p(ar)" letters-all="par" letters-alignable="p" characters="ꝑ" abbr-n="1" type="am"></c>  
    </abbr>
    <expan ana="ori:align-no"><ex>com</ex></expan>
  </choice>
  <c expan="a" letters-all="a" letters-alignable="a" characters="a" abbr-n="0">a</c>
  <c expan="n" letters-all="n" letters-alignable="n" characters="n" abbr-n="0">n</c>  
  <choice>
    <abbr>
      <c expan="t(ur)" letters-all="tur" letters-alignable="t" characters="t" abbr-n="1">t<g type="am"></g></c>
    </abbr>
    <expan ana="ori:align-no">t<ex>ur</ex></expan>
  </choice>

Ontologies

  • –> Étape V4 projeter les ontologies, cf. specs_4

Analyse du corpus

Terminologie

  • les proportions (ou pourcentages) sont calculés par rapport à différents contextes :
    • début, milieu ou fin de ligne
    • intérieur ou extérieur d'entités
    • début, milieu ou fin de mot (pour les caractères)
    • etc.
public/upr_irht_oriflamms/specs_1.txt · Dernière modification: 2016/03/10 16:00 par matthieu.decorde@ens-lyon.fr