Outils pour utilisateurs

Outils du site


public:upr_irht_oriflamms:specs_1

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:upr_irht_oriflamms:specs_1 [2016/02/04 10:14]
matthieu.decorde@ens-lyon.fr
public:upr_irht_oriflamms:specs_1 [2016/03/10 16:00] (Version actuelle)
matthieu.decorde@ens-lyon.fr
Ligne 3: Ligne 3:
  
  
-Pouvoir importer les sources d'un projet Oriflamms, utiliser les outils de TXM et développer 3 nouvelles fonctionnalités de décompte spécialisées (peut-être sous forme de macro).+Pouvoir importer les sources d'un projet Oriflamms et créer un projet Oriflamms.
  
  
Ligne 33: Ligne 33:
   * préparer une édition synoptique avec les images du projet oriflamms   * préparer une édition synoptique avec les images du projet oriflamms
  
-<​code>​ +==== Terminologie ​====
-Terminologie+
         ​         ​
-    ​Linguistique : +=== Linguistique : === 
-    Une marque d'​abréviation n'est pas une lettre. + 
-    Un caractère est soit une lettre, soit une marque d'​abréviation,​ soit une marque de ponctuation. +  ​* ​Un caractère est soit une lettre, soit une marque d'​abréviation,​ soit une marque de ponctuation. 
-    Une lettre est alignable si elle occupe une position autonome sur l'axe horizontal de la chaîne d'​écriture. +  ​* ​Une lettre est alignable si elle occupe une position autonome sur l'axe horizontal de la chaîne d'​écriture. 
-    Une lettre non alignable peut être suscrite ou représentée par une marque d'​abréviation.+  ​* ​Une lettre non alignable peut être représentée ​ou par une marque d'​abréviation. 
 +  * Une marque d'​abréviation peut être : 
 +    * une lettre suscrite 
 +      * par exemple un "a suscrit"​ dans %%qnͣt%%, abréviation de q//u//ant 
 +    * une lettre modifiée 
 +      * par exemple un "p barré",​ ꝑ, abréviation de "​p//​er//"​ ou "​p//​ar//"​ 
 +    * un caractère spécial (pas une lettre) occupant une position sur l'axe horizontal la chaîne d'​écriture 
 +      * par exemple un "9 tironien",​ ꝯ, abréviation de "​cum",​ "​con"​ ou "​com"​ 
 +    * une marque diacritique 
 +      * un tilde (ou barre horizontale) "de nasalité"​ au-dessus d'une voyelle, ã, abréviation de "​a//​n//"​ ou "​a//​m//"​
     ​     ​
-    ​Graphique ​: +=== Graphique ​=== 
-    Un caractère alignable a une coordonnée autonome dans l'​image. + 
-    L'​alignement de certains caractères (modifieurs) dépend de celui d'​autres caractères. Ces  +  * Un caractère alignable a une coordonnée autonome dans l'​image. 
-    ​caractères,​ non alignables de manière autonome, appartiennent à la catégorie Unicode "​combining ​ +  ​* ​L'​alignement de certains caractères (modifieurs) dépend de celui d'​autres caractères. Ces caractères,​ non alignables de manière autonome, appartiennent à la catégorie Unicode "​combining characters"​ (\p{M}
-    ​characters"​ (\p{M})+     
 +=== Règles d'​alignement et de codage === 
 + 
 + 
 +|Type de caractère|Lettre|Marque d'​abréviation|Alignable|Balisage dans expan|Balisage dans abbr|Classe Unicode| 
 +|Lettre ordinaire|Oui|Non|Oui|N/​A|N/​A|L| 
 +|Lettre adscrite|Oui|Oui|Oui|q<​ex>​u</​ex><​c rend="​sup">​i</​c>​|q<​am><​c rend="​sup">​i</​c></​am>​|L| 
 +|Lettre suscrite|Oui|Oui|Non|q<​ex>​u</​ex>​a|q<​am>&​asup;</​am>​|M| 
 +|Lettre modifiée|Oui|Oui|Oui|p<​ex>​er</​ex>​|<​am>&​pbardes;</​am>​|Lm ???| 
 +|Caractère spécial ​ d'​abréviation|Non|Oui|Oui|<​ex>​cum</​ex>​|<​am>&​condes;</​am>​|S ??? ou Lm| 
 +|Marque diacritique d'​abréviation|Non|Oui|Non|a<​ex>​n</​ex>​|a<​am>&​combtild;</​am>​|M| 
 +|Marque de ponctuation|Non|Non|Oui|N/​A|N/​A|P| 
 + 
 +**Pour les dénombrements :** 
 +  * les proportions peuvent se baser sur 
 +    * %%(a)%% le nombre total de lettres (expansions comprises) 
 +    * %%(b)%% le nombre total de lettres (expansions comprises) et des ponctuations 
 +    * %%(c)%% le nombre total de caractères (marques d'​abréviations alignables comprises, mais pas les ponctuations) 
 +    * %%(d)%% le nombre total de caractères (marques d'​abréviations alignables et ponctuations comprises)
     ​     ​
-    Pour les dénombrements : +**(EN)CODAGE :**
-    - les proportions peuvent se baser sur +
-      - (a) le nombre total de lettres (expansions comprises) +
-      - (b) le nombre total de lettres (expansions comprises) et des ponctuations +
-      - (c) le nombre total de caractères (marques d'​abréviations alignables comprises, mais pas les ponctuations) +
-      - (d) le nombre total de caractèrss (marques d'​abréviations alignables et ponctuations comprises)+
     ​     ​
-    ​(EN)CODAGE : +    ​ꝯꝑantͥ
-    L'​attribut "​caractere"​ est un caractère alignable.+
     ​     ​
-     Total lettres : comparantur = 11  +     Total lettres ​(letters-all) ​: comparantur = 11  
-     Total lettres alignables : pant = 4      +     Total lettres alignables ​(letters-alignable) ​: pant = 4      
-     Total caractères alignables : ꝯꝑant = 5+     Total caractères alignables ​(characters) ​: ꝯꝑant = 5
      Total lettres supprimées (non présentes) = Total lettres - Total lettres alignables : 11 - 4 = 7      Total lettres supprimées (non présentes) = Total lettres - Total lettres alignables : 11 - 4 = 7
 +     Total caractères supprimés = Total lettres - Total caractères alignables : 11 - 5 = 6
      ​Nombre d'​abréviations (balises <​abbr>​) = 3      ​Nombre d'​abréviations (balises <​abbr>​) = 3
            
Ligne 68: Ligne 89:
      ꝑ -> p(ar)      ꝑ -> p(ar)
      ant      ant
-     ᷑ -> (ur) +      ​᷑ -> (ur) 
-      +       
-</code>+    pͥore 
 +     
 +    Expansions : 
 +    ​ 
 +     pͥ -> p(r)i (la lettre i est présente mais suscrite, elle n'est normalement pas considérée comme "​supprimée"​) 
 +     
 +     Total lettres (letters-all) : priore = 6  
 +     Total lettres alignables (letters-alignable) : pore = 4 
 +     Total lettres présentes : piore = 5 
 +     Total caractères alignables (characters) : pore = 4 
 +     Total lettres supprimées = Total lettres - Total lettres alignables : 6 - 4 = 2  
 +                                (ou   Total lettres - Total lettres présentes ​ : 6 - 5 = 1 
 +     ​Nombre d'​abréviations (balises ​<abbr>) = 1 
  
 ==== Option corpus tokénisé par mot ==== ==== Option corpus tokénisé par mot ====
Ligne 126: Ligne 160:
 </​code>​ </​code>​
  
 +**Source prête à l'​import XTZ**
  
 +<code XML>
 +<w expan="​(com)p(ar)ant(ur)"​ letters-all="​comparantur"​ letters-alignable="​pant"​ characters="​ꝯꝑant"​ abbr-n="​3">​
 +  <​choice>​
 +    <​abbr>​
 +      <c expan="​(com)"​ letters-all="​com"​ letters-alignable=""​ characters="​ꝯ"​ abbr-n="​1"​ type="​am">​ꝯ</​c>​
 +      <c expan="​p(ar)"​ letters-all="​par"​ letters-alignable="​p"​ characters="​ꝑ"​ abbr-n="​1"​ type="​am">​ꝑ</​c>  ​
 +    </​abbr>​
 +    <expan ana="​ori:​align-no"><​ex>​com</​ex></​expan>​
 +  </​choice>​
 +  <c expan="​a"​ letters-all="​a"​ letters-alignable="​a"​ characters="​a"​ abbr-n="​0">​a</​c>​
 +  <c expan="​n"​ letters-all="​n"​ letters-alignable="​n"​ characters="​n"​ abbr-n="​0">​n</​c>  ​
 +  <​choice>​
 +    <​abbr>​
 +      <c expan="​t(ur)"​ letters-all="​tur"​ letters-alignable="​t"​ characters="​t"​ abbr-n="​1">​t<​g type="​am">​᷑</​g></​c>​
 +    </​abbr>​
 +    <expan ana="​ori:​align-no">​t<​ex>​ur</​ex></​expan>​
 +  </​choice>​
 +</​code>​
  
 ==== Ontologies ==== ==== Ontologies ====
  
-  * --> Étape ​V2 projeter les ontologies : produire un fichier standoff où les annotations sont résolues (exit les refs). Nouvelle option d'​import XML-XTZdossier d'​annotations standoff+  * --> Étape ​V4 projeter les ontologies, cf. [[public:upr_irht_oriflamms:specs_4]]
  
-===== Import XTZ ===== 
  
  
public/upr_irht_oriflamms/specs_1.1454577292.txt.gz · Dernière modification: 2016/02/04 10:14 par matthieu.decorde@ens-lyon.fr