Outils pour utilisateurs

Outils du site


public:upr_irht_oriflamms:specs_1

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:upr_irht_oriflamms:specs_1 [2016/01/27 10:39]
matthieu.decorde@ens-lyon.fr
public:upr_irht_oriflamms:specs_1 [2016/03/10 16:00] (Version actuelle)
matthieu.decorde@ens-lyon.fr
Ligne 3: Ligne 3:
  
  
-Pouvoir importer les sources d'un projet Oriflamms, utiliser les outils de TXM et développer 3 nouvelles fonctionnalités de décompte spécialisées (peut-être sous forme de macro).+Pouvoir importer les sources d'un projet Oriflamms et créer un projet Oriflamms.
  
  
Ligne 28: Ligne 28:
 ===== Préparation de l'​import TXM pour le module XML-XTZ : commande Project2XTZ ===== ===== Préparation de l'​import TXM pour le module XML-XTZ : commande Project2XTZ =====
  
-  * résoudre les choices : produire la forme du mot (+/- abbr) et les propriétés "expand", "abbrf"+  * résoudre les choices : produire la forme du mot/​charactère ​(+/- abbr) et les propriétés "expan", "letters-all",​ "​letters-alignable",​ "​characters",​ "​abbr-n"
   * calculer la taille des abréviations et sauver dans une propriété de mot (si > 0 le mot est abrévié) éventuellement prévoir une propriété "est abrévié"​   * calculer la taille des abréviations et sauver dans une propriété de mot (si > 0 le mot est abrévié) éventuellement prévoir une propriété "est abrévié"​
-  * calculer les distances aux milestones lb, cb et pb. Nouvelle option d'​import XML-XTZ qui calcul ​les distance et projette l'​identifiant des milestones indiqués+  * calculer les distances aux milestones lb, cb et pb. Nouvelle option d'​import XML-XTZ qui calcule ​les distance et projette l'​identifiant des milestones indiqués 
 +  * préparer une édition synoptique avec les images du projet oriflamms
  
-<​code>​ +==== Terminologie ​====
-Terminologie+
         ​         ​
-    ​Linguistique : +=== Linguistique : === 
-    Une marque d'​abréviation n'est pas une lettre. + 
-    Un caractère est soit une lettre, soit une marque d'​abréviation,​ soit une marque de ponctuation. +  ​* ​Un caractère est soit une lettre, soit une marque d'​abréviation,​ soit une marque de ponctuation. 
-    Une lettre est alignable si elle occupe une position autonome sur l'axe horizontal de la chaîne d'​écriture. +  ​* ​Une lettre est alignable si elle occupe une position autonome sur l'axe horizontal de la chaîne d'​écriture. 
-    Une lettre non alignable peut être suscrite ou représentée par une marque d'​abréviation.+  ​* ​Une lettre non alignable peut être représentée ​ou par une marque d'​abréviation. 
 +  * Une marque d'​abréviation peut être : 
 +    * une lettre suscrite 
 +      * par exemple un "a suscrit"​ dans %%qnͣt%%, abréviation de q//u//ant 
 +    * une lettre modifiée 
 +      * par exemple un "p barré",​ ꝑ, abréviation de "​p//​er//"​ ou "​p//​ar//"​ 
 +    * un caractère spécial (pas une lettre) occupant une position sur l'axe horizontal la chaîne d'​écriture 
 +      * par exemple un "9 tironien",​ ꝯ, abréviation de "​cum",​ "​con"​ ou "​com"​ 
 +    * une marque diacritique 
 +      * un tilde (ou barre horizontale) "de nasalité"​ au-dessus d'une voyelle, ã, abréviation de "​a//​n//"​ ou "​a//​m//"​
     ​     ​
-    ​Graphique ​: +=== Graphique ​=== 
-    Un caractère alignable a une coordonnée autonome dans l'​image. + 
-    L'​alignement de certains caractères (modifieurs) dépend de celui d'​autres caractères. Ces  +  * Un caractère alignable a une coordonnée autonome dans l'​image. 
-    ​caractères,​ non alignables de manière autonome, appartiennent à la catégorie Unicode "​combining ​ +  ​* ​L'​alignement de certains caractères (modifieurs) dépend de celui d'​autres caractères. Ces caractères,​ non alignables de manière autonome, appartiennent à la catégorie Unicode "​combining characters"​ (\p{M})
-    ​characters"​ (\p{M})+
     ​     ​
-    ​Pour les dénombrements : +=== Règles d'​alignement et de codage === 
-    ​- ​les proportions peuvent se baser sur + 
-      ​- ​(a) le nombre total de lettres (expansions comprises) + 
-      ​- ​(b) le nombre total de lettres (expansions comprises) et des ponctuations +|Type de caractère|Lettre|Marque d'​abréviation|Alignable|Balisage dans expan|Balisage dans abbr|Classe Unicode| 
-      ​- ​(c) le nombre total de caractères (marques d'​abréviations alignables comprises, mais pas les ponctuations) +|Lettre ordinaire|Oui|Non|Oui|N/​A|N/​A|L| 
-      ​- ​(d) le nombre total de caractèrss ​(marques d'​abréviations alignables et ponctuations comprises)+|Lettre adscrite|Oui|Oui|Oui|q<​ex>​u</​ex><​c rend="​sup">​i</​c>​|q<​am><​c rend="​sup">​i</​c></​am>​|L| 
 +|Lettre suscrite|Oui|Oui|Non|q<​ex>​u</​ex>​a|q<​am>&​asup;</​am>​|M| 
 +|Lettre modifiée|Oui|Oui|Oui|p<​ex>​er</​ex>​|<​am>&​pbardes;</​am>​|Lm ???| 
 +|Caractère spécial ​ d'​abréviation|Non|Oui|Oui|<​ex>​cum</​ex>​|<​am>&​condes;</​am>​|S ??? ou Lm| 
 +|Marque diacritique d'​abréviation|Non|Oui|Non|a<​ex>​n</​ex>​|a<​am>&​combtild;</​am>​|M| 
 +|Marque de ponctuation|Non|Non|Oui|N/​A|N/​A|P| 
 + 
 +**Pour les dénombrements :** 
 +  ​* ​les proportions peuvent se baser sur 
 +    * %%(a)%% le nombre total de lettres (expansions comprises) 
 +    * %%(b)%% le nombre total de lettres (expansions comprises) et des ponctuations 
 +    * %%(c)%% le nombre total de caractères (marques d'​abréviations alignables comprises, mais pas les ponctuations) 
 +    * %%(d)%% le nombre total de caractères ​(marques d'​abréviations alignables et ponctuations comprises)
     ​     ​
-    ​(EN)CODAGE : +**(EN)CODAGE :**
-    L'​attribut "​caractere"​ est un caractère alignable.+
     ​     ​
-     Total lettres : comparantur = 11  +    ꝯꝑantͥ 
-     Total lettres alignables : pant = 4      +     
-     Total caractères alignables : ꝯꝑant = 5+     Total lettres ​(letters-all) ​: comparantur = 11  
 +     Total lettres alignables ​(letters-alignable) ​: pant = 4      
 +     Total caractères alignables ​(characters) ​: ꝯꝑant = 5
      Total lettres supprimées (non présentes) = Total lettres - Total lettres alignables : 11 - 4 = 7      Total lettres supprimées (non présentes) = Total lettres - Total lettres alignables : 11 - 4 = 7
 +     Total caractères supprimés = Total lettres - Total caractères alignables : 11 - 5 = 6
      ​Nombre d'​abréviations (balises <​abbr>​) = 3      ​Nombre d'​abréviations (balises <​abbr>​) = 3
            
Ligne 67: Ligne 89:
      ꝑ -> p(ar)      ꝑ -> p(ar)
      ant      ant
-     ᷑ -> (ur) +      ​᷑ -> (ur) 
-      +       
-</code>+    pͥore 
 +     
 +    Expansions : 
 +    ​ 
 +     pͥ -> p(r)i (la lettre i est présente mais suscrite, elle n'est normalement pas considérée comme "​supprimée"​) 
 +     
 +     Total lettres (letters-all) : priore = 6  
 +     Total lettres alignables (letters-alignable) : pore = 4 
 +     Total lettres présentes : piore = 5 
 +     Total caractères alignables (characters) : pore = 4 
 +     Total lettres supprimées = Total lettres - Total lettres alignables : 6 - 4 = 2  
 +                                (ou   Total lettres - Total lettres présentes ​ : 6 - 5 = 1 
 +     ​Nombre d'​abréviations (balises ​<abbr>) = 1 
 + 
 + 
 +==== Option corpus tokénisé par mot ==== 
 + 
 +**Source au format projet Oriflamms**
  
-Source au format projet Oriflamms (tokénisée par mot) 
 <code XML> <code XML>
        <​w>​        <​w>​
Ligne 87: Ligne 125:
     </w>     </w>
 </​code>​ </​code>​
-Source prête à l'​import XTZ+**Source prête à l'​import XTZ**
 <code XML> <code XML>
 <w expan="​(com)p(ar)ant(ur)"​ letters-all="​comparantur"​ letters-alignable="​pant"​ characters="​ꝯꝑant"​ abbr-n="​3">​ꝯꝑant᷑</​w>​ <w expan="​(com)p(ar)ant(ur)"​ letters-all="​comparantur"​ letters-alignable="​pant"​ characters="​ꝯꝑant"​ abbr-n="​3">​ꝯꝑant᷑</​w>​
Ligne 98: Ligne 136:
   * Nombre d'​abréviations = w/@abbr-n as xs:integer   * Nombre d'​abréviations = w/@abbr-n as xs:integer
  
 +==== Option corpus tokénisé par caractère ====
  
-  ​--> Étape V2 projeter les ontologies : produire un fichier standoff où les annotations sont résolues (exit les refs). Nouvelle option d'​import XML-XTZ: dossier d'​annotations standoff +**Source ​au format projet Oriflamms ​**
- +
-===== Import XTZ ===== +
- +
- +
-====== Analyse du corpus ====== +
- +
-==== Terminologie ==== +
- +
-  ​les proportions (ou pourcentages) sont calculés par rapport à différents contextes : +
-    * début, milieu ou fin de ligne +
-    * intérieur ou extérieur d'​entités +
-    * début, milieu ou fin de mot (pour les caractères) +
-    * etc. +
- +
-===== Commande AbbreviationsAndLines ===== +
-(Spécification pour la recette 3) +
- +
-  * On sélectionne l'un des corpus CQP : mot ou caractère +
-  * on indique la distance ​au début de ligne +
-  ​on indique la distance à la fin de ligne +
-  * -> GO +
- +
-Écrit dans un fichier CSV : +
-  * plusieurs colonnes : corpus, text, page, colonne, partie de ligne et  +
-  * dans 3 parties de ligne différentes : début, milieu et fin +
-  * pour chaque partie de ligne +
-    * Nombre d’abréviations de la partie (Nabbr) +
-    * Nombre de lettres supprimées par les abréviations (NsupAbbr) +
-    * Nombre de lettres total de la partie de la ligne, résolutions comprises +
-    * Pourcentage de lettres supprimées par les abréviations par rapport au texte développé +
- +
-Exemple de résultat : +
-|corpus | text_id | pb_id | cb_id | lb_id | line_part | Nabbr | NsupAbbr | Ntotal | %=NsupAbbr/​Ntotal| +
-|MSDATES | T1 | P1 | C1 | L1 | s | 5 | ... | ... | | +
-|MSDATES | T1 | P1 | C1 | L2 | m | 0 | ... | ... | | +
-|MSDATES | T1 | P1 | C1 | L3 | e | 2 | ... | ... | | +
-|MSDATES | T2 | P1 | C1 | L1 | s | 5 | ... | ... | | +
-|MSDATES | T2 | P1 | C1 | L2 | m | 2 | ... | ... | | +
-|MSDATES | T2 | P1 | C2 | L1 | e | 8 | ... | ... | | +
-|MSDATES | T2 | P1 | C2 | L2 | s | 10 | ... | ... | | +
-|MSDATES | T2 | P2 | C1 | L1 | m | 8 | ... | ... | | +
-|MSDATES | T2 | P2 | C1 | L2 | e | 10 | ... | ... | | +
- +
-Cas particulier :  +
-  ​un mot coupé par un saut de ligne +
- +
-Ces mots sont découpés en 2 tokens et le mot entier est recodé en structure supérieure. Par exemple : +
 <code XML> <code XML>
-<w> +       <w> 
-  <seg type="wp" ​part="I">sonorita</seg+        <choice>​ 
-  <lb break="​no"/>​ +            <expan ana="ori:​align-no"><​ex>​com</​ex></​expan>​ 
-  <seg type="wp" part="​F">tare<​abbr><​am>​̃</am></​abbr></​seg+            <​abbr>​ 
-</w>+                <​c><​g type="am"></g></​c>​ 
 +            </​abbr>​ 
 +        </​choice>​ 
 +        <choice
 +            <expan ana="ori:align-no">​p<​ex>​ar</​ex><​/expan
 +            <abbr> 
 +                <​c><​g ​type="am"></​g></​c>​ 
 +            </abbr> 
 +        ​</​choice>​an<​choice>​ 
 +            <​abbr>​ 
 +                <​c>​t<​g type="am"></g></​c>​ 
 +            ​</abbr
 +            <expan ana="​ori:​align-no">​t<​ex>​ur</​ex></expan
 +    </w>
 </​code>​ </​code>​
  
-devient+**Source prête à l'​import XTZ**
  
 <code XML> <code XML>
-<w-lb expan="​sonoritatare(m)" letters-all="​sonoritatarem" letters-alignable="​sonoritatare" characters="​sonoritatare" abbr-n="​1">​ +<w expan="​(com)p(ar)ant(ur)" letters-all="​comparantur" letters-alignable="​pant" characters="​ꝯꝑant" abbr-n="​3">​ 
-  <w type="wp" ​part="I" expan="​sonorita" letters-all="​sonorita" letters-alignable="​sonorita" characters="​sonorita" abbr-n="​0">sonorita</w> +  <choice>​ 
-  <lb break="​no"/>​ +    <​abbr>​ 
-  <w type="wp" ​part="F" expan="​tare(m)" letters-all="​tarem" letters-alignable="​tare" characters="​tare" abbr-n="​1">​tare<abbr><am>̃</am></​abbr>/​w+      <c expan="(com)" ​letters-all="com" ​letters-alignable=""​ characters="​ꝯ"​ abbr-n="​1"​ type="​am">​ꝯ</​c>​ 
-</w-lb>+      <c expan="​p(ar)" letters-all="​par" letters-alignable="​p" characters="​" abbr-n="​1" type="​am"></c>  ​ 
 +    ​</abbr> 
 +    <expan ana="ori:align-no"><​ex>​com<​/ex></​expan
 +  </​choice>​ 
 +  <c expan="a" ​letters-all="a" ​letters-alignable="​a"​ characters="​a"​ abbr-n="​0">​a</​c>​ 
 +  <c expan="​n"​ letters-all="​n"​ letters-alignable="​n"​ characters="​n"​ abbr-n="​0">​n</​c> ​  
 +  <​choice>​ 
 +    <​abbr>​ 
 +      <c expan="​t(ur)" letters-all="​tur" letters-alignable="​t" characters="​t" abbr-n="​1">​t<g type="​am"​></g></c> 
 +    ​</​abbr>​ 
 +    <expan ana="​ori:​align-no">​t<​ex>​ur<​/ex></​expan
 +  </choice>
 </​code>​ </​code>​
  
 +==== Ontologies ====
  
 +  * --> Étape V4 projeter les ontologies, cf. [[public:​upr_irht_oriflamms:​specs_4]]
  
  
  
-===== Commande AbbreviationsAndSemantics ​===== +====== Analyse du corpus ======
-(Spécification pour la recette 4)+
  
-  * On sélectionne l'un des corpus CQP : mot ou caractère +==== Terminologie ====
-  * On sélectionne une liste de structures codant des entités sémantiques :  +
-    * name +
-    * persName +
-    * placeName +
-    * orgName +
-    * roleName +
-  * -> GO +
- +
-Ecrit dans un fichier CSV : +
-  * plusieurs colonnes : corpus, text, page, colonne, entité et  +
-  * pour chaque entité d'une colonne de la source + ce qui est en dehors (#REST) +
-    * Nombre d’abréviations dans l'​entité (Nabbr) +
-    * Nombre de lettres supprimées par les abréviations (NsupAbbr) +
-    * Nombre de lettres total dans l'​entité,​ résolutions comprises +
-    * Pourcentage de lettres supprimées par les abréviations par rapport au texte développé +
- +
-si on a coché : persName, orgName : +
- +
-<​code>​ +
-corpus ​       texte        page        colonne ​       entité ​       Nabbr        NsupAbbr ​       Ntotal ​       %=NsupAbbr/​Ntotal +
-MSDATES ​       T1        P1        C1        persName ​       5        ...        ... +
-MSDATES ​       T1        P1        C1        orgName ​       2        ...        ... +
-MSDATES ​       T1        P1        C1        #REST        8        ...        ... +
-MSDATES ​       T1        P1        C2        persName ​       10        ...        ... +
-MSDATES ​       T1        P1        C2        orgName ​       10        ...        ... +
-MSDATES ​       T1        P1        C2        #REST        10        ...        ... +
-... +
-MSDATES ​       T2        P2        C2        persName ​       10        ...        ... +
-MSDATES ​       T2        P2        C2        orgName ​       8        ...        ... +
-MSDATES ​       T2        P2        C2        #REST        10        ...        ... +
-</​code>​ +
- +
-===== Commande Allographes ===== +
- +
-(chantier B) +
- +
-Spécification pour les recettes 5 et 6 (calcul sur les caractères) +
-  * On sélectionne un corpus ou un sous-corpus de type "​caractère"​ +
-  * on choisit un signe +
-  * on choisit une liste d'​allographes connus du signe (tout par défaut) +
-  * on tape une requête CQL qui contient un %%@%% pour indiquer la position du caractère à dénombrer +
-    * prévoir peut-être d'​améliorer l'​assistant de requête : ajouter les structures + mots clés expand to, within +
- +
-=== Terminologie ​=== +
- +
-  * un signe ou graphème est une classe d'​équivalence de caractères (désignée par un caractère) +
-    * ex : min/maj +
-    * ex : s long/s rond +
-  * un allographe est un caractère +
-  * un allographe est une manifestation de signe +
-  * un signe est aux allographes ce qu'un lemme est aux formes +
-  * les relations entre les signes et les allographes sont définies dans l'​ontologie commune charDecl.xml et dans les ontologies spécifiques au projet (cf. [[https://​gestion-projets.irht.cnrs.fr/​projects/​oriflamms/​wiki/​Convention_de_nommage_de_fichiers_et_structure_de_r%C3%A9pertoires]]) +
- +
-=== Décryptage === +
- +
-  * Des menus déroulants = définition des contextes --> implémentation en contraintes CQL (la liste des matchs implémentant les contextes est construite par l'​intersection de sous-corpus) +
-    * Abréviation (présence d’une abréviation dans le même mot) +
-      * [_.w_abbr="​true"​] +
-    * Place dans le mot (un mot monocaractère n'a pas de milieu) +
-      * Début = premier caractère -> <w> [] +
-      * Milieu = pas le premier ni le dernier caractère -> +
-        * [w.pos <_.pos+1 & w+1.pos > _.pos+1] within w +
-        * <w> [] []* @[] []* [] </​w>​ +
-      * Fin = dernier caractère -> [] </​w>​ +
-    * Place dans le texte +
-      * Première lettre  +
-        * De la page +
-          * [pb-start="​1"​] (distance, en lettres, depuis le début de la page) +
-        * De la colonne +
-          * [cb-start="​1"​] +
-        * De la ligne +
-          * [lb-start="​1"​] +
-      * Dernière lettre +
-        * De la page +
-          * [pb-end="​1"​] (distance, en lettres, depuis la fin de la page) +
-        * De la colonne +
-          * [cb-end="​1"​] +
-        * De la ligne +
-          * [lb-end="​1"​] +
-      * Première ligne (sauf en première place) +
-        * De la page +
-          * [lb-n="​1"​] +
-        * De la colonne +
-          * [cb-n="​1"​] +
-      * Dernière ligne (sauf en dernière place) +
-        * De la page +
-          * [lb-pb-end="​1"​] (distance de la ligne depuis le bas de la page) +
-        * De la colonne +
-          * [lb-cb-end="​1"​] +
-    * Éléments d’analyse sémantique : +
-      * occurrences à l’intérieur d’un +
-        * name +
-          * within name +
-        * placeName +
-        * persName +
-        * roleName +
-      * occurrences à l’intérieur d’un élément <w> contenant un attribut (générer la liste des attributs et de leurs contenus) +
-        * [_.w_attribut="​valeur"​] +
-    * Éléments d’analyse syntaxique +
-      * Avant / après +
-        * Ponctuation +
-          * [type="​punct"​] @[] (après) +
-      * Présent dans <w> en première position dans <s> ou <p> +
-        * <s> [] +
-    * Éléments d’analyse graphique +
-      * Immédiatement avant +
-        * Liste des signes +
-          * Liste des allographes +
-            * @[] [sign="​rrot"​|allograph="​slong"​] +
-      * Immédiatement après +
-        * Liste des signes +
-          * Liste des allographes +
-      * Dans un texte où se trouve également : +
-        * Liste des signes +
-          * Liste des allographes +
-            * [sign="​rrot"​] expand to text +
- +
-== exemple 1 == +
-  * avec une CQL + target sur un caractère +
-  * avec le signe sélectionné = s +
-  * avec l'​allographe sélectionné = ſ +
-  * précalculer le nombre du "​signe"​ du target ("​s"​) du corpus +
- +
-On liste les requêtes CQL exprimant les différentes contraintes de sélection de contextes. +
- +
-Tableau résultant : +
-<​code>​ +
-corpus ​   texte    page    colonne ​   signe    allographe ​   %/signe +
-MSDATES ​   T1    P1    C1    s    ſ    5    1 +
-MSDATES ​   T1    P1    C2    s    ſ    0    0 +
-... +
-MSDATES ​   T1    P2    C3    s    ſ    10    2 +
-</​code>​ +
- +
-== exemple 2 == +
-  * avec une CQL + target sur un caractère +
-  * avec le signe sélectionné = s +
-  * avec les allographes sélectionné = TOUS +
-  * précalculer le nombre du "​signe"​ du target ("​s"​) du corpus +
-<​code>​ +
-corpus ​   texte    page    colonne ​   lettre ​   allographe ​   %/lettre +
-MSDATES ​   T1    P1    C1    s    ſ    5    1 +
-MSDATES ​   T1    P1    C2    s    ſ    0    0 +
-MSDATES ​   T1    P1    C2    s    S    0    0 +
-... +
-MSDATES ​   T1    P2    C3    s    ſ    10    2 +
-MSDATES ​   T1    P2    C3    s    s   ​42 ​   2 +
-</​code>​ +
- +
-====== Éléments d'​interface ====== +
- +
-<​code>​ +
-analyse d’un corpus avec indications d’abréviations +
- +
-menu {Analyse graphique} +
-  * {abréviations et lignes}. +
-  * {abréviations et sémantique}. +
-  * {Allographes} +
- +
-Abréviations et lignes +
- +
-Taux d’abrègement +
-Début de ligne +
-  Mots  +
- Caractères +
-[Fenêtre de saisie] +
-Fin de ligne +
-  Mots  +
- Caractères +
-[Fenêtre de saisie] +
- +
- +
-Abréviations et sémantique +
- +
-Liste à cocher contenant les éléments non vides descendants de <p> +
- +
-Allographes +
- +
-  * analyser un signe  +
-    * liste des signes +
-  * ou une analyse avancée +
-    * une liste des signes +
-    * une liste des allographes du signe sélectionnée +
-    * bouton ajouter un critère (paramètre d'​intérogation combinée) +
-      * sélection du critère dans une liste déroulante +
-</​code>​+
  
 +  * les proportions (ou pourcentages) sont calculés par rapport à différents contextes :
 +    * début, milieu ou fin de ligne
 +    * intérieur ou extérieur d'​entités
 +    * début, milieu ou fin de mot (pour les caractères)
 +    * etc.
  
public/upr_irht_oriflamms/specs_1.1453887564.txt.gz · Dernière modification: 2016/01/27 10:39 par matthieu.decorde@ens-lyon.fr