Outils pour utilisateurs

Outils du site


public:upr_irht_oriflamms:specs_1

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:upr_irht_oriflamms:specs_1 [2016/01/20 14:54]
matthieu.decorde@ens-lyon.fr
public:upr_irht_oriflamms:specs_1 [2016/03/10 16:00] (Version actuelle)
matthieu.decorde@ens-lyon.fr
Ligne 1: Ligne 1:
-===== Étape V1 ===== 
  
 +====== Spécifications TXM pour Oriflamms. Étape V1 ======
  
-Pouvoir importer les sources d'un projet Oriflamms, utiliser les outils de TXM et développer 3 nouvelles fonctionnalités de décompte spécialisées (peut-être sous forme de macro). 
  
 +Pouvoir importer les sources d'un projet Oriflamms et créer un projet Oriflamms.
  
-====== Création d'un projet Oriflamms ======+ 
 +====== Création d'un projet Oriflamms ​: commande TEI2Project ​======
 (Spécification pour les recettes 1 et 2) (Spécification pour les recettes 1 et 2)
  
Ligne 25: Ligne 26:
 ====== Importation dans TXM ====== ====== Importation dans TXM ======
  
-===== Préparation de l'​import TXM pour le module XML-XTZ =====+===== Préparation de l'​import TXM pour le module XML-XTZ ​: commande Project2XTZ ​=====
  
-  * résoudre les choices : produire la forme du mot (+/- abbr) et les propriétés "expand", "abbrf"+  * résoudre les choices : produire la forme du mot/​charactère ​(+/- abbr) et les propriétés "expan", "letters-all",​ "​letters-alignable",​ "​characters",​ "​abbr-n"
   * calculer la taille des abréviations et sauver dans une propriété de mot (si > 0 le mot est abrévié) éventuellement prévoir une propriété "est abrévié"​   * calculer la taille des abréviations et sauver dans une propriété de mot (si > 0 le mot est abrévié) éventuellement prévoir une propriété "est abrévié"​
-  * calculer les distances aux milestones lb, cb et pb. Nouvelle option d'​import XML-XTZ qui calcul ​les distance et projette l'​identifiant des milestones indiqués+  * calculer les distances aux milestones lb, cb et pb. Nouvelle option d'​import XML-XTZ qui calcule ​les distance et projette l'​identifiant des milestones indiqués 
 +  * préparer une édition synoptique avec les images du projet oriflamms
  
-<​code>​ +==== Terminologie ​====
-Terminologie+
         ​         ​
-    ​Linguistique : +=== Linguistique : === 
-    Une marque d'​abréviation n'est pas une lettre. + 
-    Un caractère est soit une lettre, soit une marque d'​abréviation,​ soit une marque de ponctuation. +  ​* ​Un caractère est soit une lettre, soit une marque d'​abréviation,​ soit une marque de ponctuation. 
-    Une lettre est alignable si elle occupe une position autonome sur l'axe horizontal de la chaîne d'​écriture. +  ​* ​Une lettre est alignable si elle occupe une position autonome sur l'axe horizontal de la chaîne d'​écriture. 
-    Une lettre non alignable peut être suscrite ou représentée par une marque d'​abréviation.+  ​* ​Une lettre non alignable peut être représentée ​ou par une marque d'​abréviation. 
 +  * Une marque d'​abréviation peut être : 
 +    * une lettre suscrite 
 +      * par exemple un "a suscrit"​ dans %%qnͣt%%, abréviation de q//u//ant 
 +    * une lettre modifiée 
 +      * par exemple un "p barré",​ ꝑ, abréviation de "​p//​er//"​ ou "​p//​ar//"​ 
 +    * un caractère spécial (pas une lettre) occupant une position sur l'axe horizontal la chaîne d'​écriture 
 +      * par exemple un "9 tironien",​ ꝯ, abréviation de "​cum",​ "​con"​ ou "​com"​ 
 +    * une marque diacritique 
 +      * un tilde (ou barre horizontale) "de nasalité"​ au-dessus d'une voyelle, ã, abréviation de "​a//​n//"​ ou "​a//​m//"​
     ​     ​
-    ​Graphique ​: +=== Graphique ​=== 
-    Un caractère alignable a une coordonnée autonome dans l'​image. + 
-    L'​alignement de certains caractères (modifieurs) dépend de celui d'​autres caractères. Ces  +  * Un caractère alignable a une coordonnée autonome dans l'​image. 
-    ​caractères,​ non alignables de manière autonome, appartiennent à la catégorie Unicode "​combining ​ +  ​* ​L'​alignement de certains caractères (modifieurs) dépend de celui d'​autres caractères. Ces caractères,​ non alignables de manière autonome, appartiennent à la catégorie Unicode "​combining characters"​ (\p{M}
-    ​characters"​ (\p{M})+     
 +=== Règles d'​alignement et de codage === 
 + 
 + 
 +|Type de caractère|Lettre|Marque d'​abréviation|Alignable|Balisage dans expan|Balisage dans abbr|Classe Unicode| 
 +|Lettre ordinaire|Oui|Non|Oui|N/​A|N/​A|L| 
 +|Lettre adscrite|Oui|Oui|Oui|q<​ex>​u</​ex><​c rend="​sup">​i</​c>​|q<​am><​c rend="​sup">​i</​c></​am>​|L| 
 +|Lettre suscrite|Oui|Oui|Non|q<​ex>​u</​ex>​a|q<​am>&​asup;</​am>​|M| 
 +|Lettre modifiée|Oui|Oui|Oui|p<​ex>​er</​ex>​|<​am>&​pbardes;</​am>​|Lm ???| 
 +|Caractère spécial ​ d'​abréviation|Non|Oui|Oui|<​ex>​cum</​ex>​|<​am>&​condes;</​am>​|S ??? ou Lm| 
 +|Marque diacritique d'​abréviation|Non|Oui|Non|a<​ex>​n</​ex>​|a<​am>&​combtild;</​am>​|M| 
 +|Marque de ponctuation|Non|Non|Oui|N/​A|N/​A|P| 
 + 
 +**Pour les dénombrements :** 
 +  * les proportions peuvent se baser sur 
 +    * %%(a)%% le nombre total de lettres (expansions comprises) 
 +    * %%(b)%% le nombre total de lettres (expansions comprises) et des ponctuations 
 +    * %%(c)%% le nombre total de caractères (marques d'​abréviations alignables comprises, mais pas les ponctuations) 
 +    * %%(d)%% le nombre total de caractères (marques d'​abréviations alignables et ponctuations comprises)
     ​     ​
-    Pour les dénombrements : +**(EN)CODAGE :**
-    - les proportions peuvent se baser sur +
-      - (a) le nombre total de lettres (expansions comprises) +
-      - (b) le nombre total de lettres (expansions comprises) et des ponctuations +
-      - (c) le nombre total de caractères (marques d'​abréviations alignables comprises, mais pas les ponctuations) +
-      - (d) le nombre total de caractèrss (marques d'​abréviations alignables et ponctuations comprises)+
     ​     ​
-    ​(EN)CODAGE : +    ​ꝯꝑantͥ
-    L'​attribut "​caractere"​ est un caractère alignable.+
     ​     ​
-     Total lettres : comparantur = 11  +     Total lettres ​(letters-all) ​: comparantur = 11  
-     Total lettres alignables : pant = 4      +     Total lettres alignables ​(letters-alignable) ​: pant = 4      
-     Total caractères alignables : ꝯꝑant = 5+     Total caractères alignables ​(characters) ​: ꝯꝑant = 5
      Total lettres supprimées (non présentes) = Total lettres - Total lettres alignables : 11 - 4 = 7      Total lettres supprimées (non présentes) = Total lettres - Total lettres alignables : 11 - 4 = 7
 +     Total caractères supprimés = Total lettres - Total caractères alignables : 11 - 5 = 6
      ​Nombre d'​abréviations (balises <​abbr>​) = 3      ​Nombre d'​abréviations (balises <​abbr>​) = 3
            
Ligne 66: Ligne 89:
      ꝑ -> p(ar)      ꝑ -> p(ar)
      ant      ant
-     ᷑ -> (ur) +      ​᷑ -> (ur) 
-      +       
-</code>+    pͥore 
 +     
 +    Expansions : 
 +    ​ 
 +     pͥ -> p(r)i (la lettre i est présente mais suscrite, elle n'est normalement pas considérée comme "​supprimée"​) 
 +     
 +     Total lettres (letters-all) : priore = 6  
 +     Total lettres alignables (letters-alignable) : pore = 4 
 +     Total lettres présentes : piore = 5 
 +     Total caractères alignables (characters) : pore = 4 
 +     Total lettres supprimées = Total lettres - Total lettres alignables : 6 - 4 = 2  
 +                                (ou   Total lettres - Total lettres présentes ​ : 6 - 5 = 1 
 +     ​Nombre d'​abréviations (balises ​<abbr>) = 1 
 + 
 + 
 +==== Option corpus tokénisé par mot ==== 
 + 
 +**Source au format projet Oriflamms**
  
-Source au format projet Oriflamms (tokénisée par mot) 
 <code XML> <code XML>
        <​w>​        <​w>​
Ligne 86: Ligne 125:
     </w>     </w>
 </​code>​ </​code>​
-Source prête à l'​import XTZ+**Source prête à l'​import XTZ**
 <code XML> <code XML>
 <w expan="​(com)p(ar)ant(ur)"​ letters-all="​comparantur"​ letters-alignable="​pant"​ characters="​ꝯꝑant"​ abbr-n="​3">​ꝯꝑant᷑</​w>​ <w expan="​(com)p(ar)ant(ur)"​ letters-all="​comparantur"​ letters-alignable="​pant"​ characters="​ꝯꝑant"​ abbr-n="​3">​ꝯꝑant᷑</​w>​
Ligne 97: Ligne 136:
   * Nombre d'​abréviations = w/@abbr-n as xs:integer   * Nombre d'​abréviations = w/@abbr-n as xs:integer
  
 +==== Option corpus tokénisé par caractère ====
  
-  ​* --> ​Étape V2 projeter les ontologies ​produire un fichier standoff où les annotations sont résolues (exit les refs). Nouvelle option d'​import XML-XTZdossier d'​annotations standoff+**Source au format projet Oriflamms ** 
 +<code XML> 
 +       <​w>​ 
 +        <​choice>​ 
 +            <expan ana="​ori:​align-no"><​ex>​com</​ex></​expan>​ 
 +            <​abbr>​ 
 +                <​c><​g type="​am">​ꝯ</​g></​c>​ 
 +            </​abbr>​ 
 +        </​choice>​ 
 +        <​choice>​ 
 +            <expan ana="​ori:​align-no">p<​ex>​ar</​ex></​expan>​ 
 +            <​abbr>​ 
 +                <​c><​g type="​am">​ꝑ</​g></​c>​ 
 +            </​abbr>​ 
 +        </​choice>​an<​choice>​ 
 +            <​abbr>​ 
 +                <​c>​t<​g type="​am">​᷑</​g></​c>​ 
 +            </​abbr>​ 
 +            <expan ana="​ori:align-no">​t<​ex>​ur</​ex></​expan>​ 
 +    </​w>​ 
 +</​code>​ 
 + 
 +**Source prête à l'​import ​XTZ** 
 + 
 +<​code ​XML
 +<w expan="​(com)p(ar)ant(ur)"​ letters-all="​comparantur"​ letters-alignable="​pant"​ characters="​ꝯꝑant"​ abbr-n="​3">​ 
 +  <​choice>​ 
 +    <​abbr>​ 
 +      <c expan="​(com)"​ letters-all="​com"​ letters-alignable=""​ characters="​ꝯ"​ abbr-n="​1"​ type="​am">​ꝯ</​c>​ 
 +      <c expan="​p(ar)"​ letters-all="​par"​ letters-alignable="​p"​ characters="​ꝑ"​ abbr-n="​1"​ type="​am">​ꝑ</​c> ​  
 +    </​abbr>​ 
 +    <expan ana="​ori:align-no"><​ex>​com</​ex></​expan>​ 
 +  </​choice>​ 
 +  <c expan="​a"​ letters-all="​a"​ letters-alignable="​a"​ characters="​a"​ abbr-n="​0">​a</​c>​ 
 +  <c expan="​n"​ letters-all="​n"​ letters-alignable="​n"​ characters="​n"​ abbr-n="​0">​n</​c> ​  
 +  <​choice>​ 
 +    <​abbr>​ 
 +      <c expan="​t(ur)"​ letters-all="​tur"​ letters-alignable="​t"​ characters="​t"​ abbr-n="​1">​t<​g type="​am">​᷑</​g></​c>​ 
 +    </​abbr>​ 
 +    <expan ana="​ori:​align-no">​t<​ex>​ur</​ex></​expan>​ 
 +  </​choice>​ 
 +</​code>​ 
 + 
 +==== Ontologies ==== 
 + 
 +  * --> Étape V4 projeter les ontologies, cf. [[public:​upr_irht_oriflamms:​specs_4]]
  
-===== Import XTZ ===== 
  
  
Ligne 112: Ligne 196:
     * début, milieu ou fin de mot (pour les caractères)     * début, milieu ou fin de mot (pour les caractères)
     * etc.     * etc.
- 
-===== Commande AbbréviationsEtLignes ===== 
-(Spécification pour la recette 3) 
- 
-  * On sélectionne l'un des corpus CQP : mot ou caractère 
-  * on indique la distance au début de ligne 
-  * on indique la distance à la fin de ligne 
-  * -> GO 
- 
-Écrit dans un fichier CSV : 
-  * plusieurs colonnes : corpus, text, page, colonne, partie de ligne et  
-  * dans 3 parties de ligne différentes : début, milieu et fin 
-  * pour chaque partie de ligne 
-    * Nombre d’abréviations de la partie (Nabbr) 
-    * Nombre de lettres supprimées par les abréviations (NsupAbbr) 
-    * Nombre de lettres total de la partie de la ligne, résolutions comprises 
-    * Pourcentage de lettres supprimées par les abréviations par rapport au texte développé 
- 
-Exemple de résultat : 
-|corpus | text_id | pb_id | cb_id | lb_id | line_part | Nabbr | NsupAbbr | Ntotal | %=NsupAbbr/​Ntotal| 
-|MSDATES | T1 | P1 | C1 | L1 | s | 5 | ... | ... | | 
-|MSDATES | T1 | P1 | C1 | L2 | m | 0 | ... | ... | | 
-|MSDATES | T1 | P1 | C1 | L3 | e | 2 | ... | ... | | 
-|MSDATES | T2 | P1 | C1 | L1 | s | 5 | ... | ... | | 
-|MSDATES | T2 | P1 | C1 | L2 | m | 2 | ... | ... | | 
-|MSDATES | T2 | P1 | C2 | L1 | e | 8 | ... | ... | | 
-|MSDATES | T2 | P1 | C2 | L2 | s | 10 | ... | ... | | 
-|MSDATES | T2 | P2 | C1 | L1 | m | 8 | ... | ... | | 
-|MSDATES | T2 | P2 | C1 | L2 | e | 10 | ... | ... | | 
- 
-Cas particulier :  
-  * un mot coupé par un saut de ligne 
- 
-===== Commande AbbréviationsEtSémantique ===== 
-(Spécification pour la recette 4) 
- 
-  * On sélectionne l'un des corpus CQP : mot ou caractère 
-  * On sélectionne une liste de structures codant des entités sémantiques 
-  * -> GO 
- 
-Ecrit dans un fichier CSV : 
-  * plusieurs colonnes : corpus, text, page, colonne, entité et  
-  * pour chaque entité d'une colonne de la source + ce qui est en dehors (#REST) 
-    * Nombre d’abréviations dans l'​entité (Nabbr) 
-    * Nombre de lettres supprimées par les abréviations (NsupAbbr) 
-    * Nombre de lettres total dans l'​entité,​ résolutions comprises 
-    * Pourcentage de lettres supprimées par les abréviations par rapport au texte développé 
- 
-si on a coché : persName, orgName : 
- 
-<​code>​ 
-corpus ​       texte        page        colonne ​       entité ​       Nabbr        NsupAbbr ​       Ntotal ​       %=NsupAbbr/​Ntotal 
-MSDATES ​       T1        P1        C1        persName ​       5        ...        ... 
-MSDATES ​       T1        P1        C1        orgName ​       2        ...        ... 
-MSDATES ​       T1        P1        C1        #REST        8        ...        ... 
-MSDATES ​       T1        P1        C2        persName ​       10        ...        ... 
-MSDATES ​       T1        P1        C2        orgName ​       10        ...        ... 
-MSDATES ​       T1        P1        C2        #REST        10        ...        ... 
-... 
-MSDATES ​       T2        P2        C2        persName ​       10        ...        ... 
-MSDATES ​       T2        P2        C2        orgName ​       8        ...        ... 
-MSDATES ​       T2        P2        C2        #REST        10        ...        ... 
-</​code>​ 
- 
-===== Commande Allographes ===== 
- 
-(chantier B) 
- 
-Spécification pour les recettes 5 et 6 (calcul sur les caractères) 
-  * On sélectionne un corpus ou un sous-corpus de type "​caractère"​ 
-  * on choisit un signe 
-  * on choisit une liste d'​allographes connus du signe (tout par défaut) 
-  * on tape une requête CQL qui contient un %%@%% pour indiquer la position du caractère à dénombrer 
-    * prévoir peut-être d'​améliorer l'​assistant de requête : ajouter les structures + mots clés expand to, within 
- 
-=== Terminologie === 
- 
-  * un signe ou graphème est une classe d'​équivalence de caractères (désignée par un caractère) 
-    * ex : min/maj 
-    * ex : s long/s rond 
-  * un allographe est un caractère 
-  * un allographe est une manifestation de signe 
-  * un signe est aux allographes ce qu'un lemme est aux formes 
-  * les relations entre les signes et les allographes sont définies dans l'​ontologie commune charDecl.xml et dans les ontologies spécifiques au projet (cf. [[https://​gestion-projets.irht.cnrs.fr/​projects/​oriflamms/​wiki/​Convention_de_nommage_de_fichiers_et_structure_de_r%C3%A9pertoires]]) 
- 
-=== Décryptage === 
- 
-  * Des menus déroulants = définition des contextes --> implémentation en contraintes CQL (la liste des matchs implémentant les contextes est construite par l'​intersection de sous-corpus) 
-    * Abréviation (présence d’une abréviation dans le même mot) 
-      * [_.w_abbr="​true"​] 
-    * Place dans le mot (un mot monocaractère n'a pas de milieu) 
-      * Début = premier caractère -> <w> [] 
-      * Milieu = pas le premier ni le dernier caractère -> 
-        * [w.pos <_.pos+1 & w+1.pos > _.pos+1] within w 
-        * <w> [] []* @[] []* [] </w> 
-      * Fin = dernier caractère -> [] </w> 
-    * Place dans le texte 
-      * Première lettre ​ 
-        * De la page 
-          * [pb-start="​1"​] (distance, en lettres, depuis le début de la page) 
-        * De la colonne 
-          * [cb-start="​1"​] 
-        * De la ligne 
-          * [lb-start="​1"​] 
-      * Dernière lettre 
-        * De la page 
-          * [pb-end="​1"​] (distance, en lettres, depuis la fin de la page) 
-        * De la colonne 
-          * [cb-end="​1"​] 
-        * De la ligne 
-          * [lb-end="​1"​] 
-      * Première ligne (sauf en première place) 
-        * De la page 
-          * [lb-n="​1"​] 
-        * De la colonne 
-          * [cb-n="​1"​] 
-      * Dernière ligne (sauf en dernière place) 
-        * De la page 
-          * [lb-pb-end="​1"​] (distance de la ligne depuis le bas de la page) 
-        * De la colonne 
-          * [lb-cb-end="​1"​] 
-    * Éléments d’analyse sémantique : 
-      * occurrences à l’intérieur d’un 
-        * name 
-          * within name 
-        * placeName 
-        * persName 
-        * roleName 
-      * occurrences à l’intérieur d’un élément <w> contenant un attribut (générer la liste des attributs et de leurs contenus) 
-        * [_.w_attribut="​valeur"​] 
-    * Éléments d’analyse syntaxique 
-      * Avant / après 
-        * Ponctuation 
-          * [type="​punct"​] @[] (après) 
-      * Présent dans <w> en première position dans <s> ou <p> 
-        * <s> [] 
-    * Éléments d’analyse graphique 
-      * Immédiatement avant 
-        * Liste des signes 
-          * Liste des allographes 
-            * @[] [sign="​rrot"​|allograph="​slong"​] 
-      * Immédiatement après 
-        * Liste des signes 
-          * Liste des allographes 
-      * Dans un texte où se trouve également : 
-        * Liste des signes 
-          * Liste des allographes 
-            * [sign="​rrot"​] expand to text 
- 
-== exemple 1 == 
-  * avec une CQL + target sur un caractère 
-  * avec le signe sélectionné = s 
-  * avec l'​allographe sélectionné = ſ 
-  * précalculer le nombre du "​signe"​ du target ("​s"​) du corpus 
- 
-On liste les requêtes CQL exprimant les différentes contraintes de sélection de contextes. 
- 
-Tableau résultant : 
-<​code>​ 
-corpus ​   texte    page    colonne ​   signe    allographe ​   %/signe 
-MSDATES ​   T1    P1    C1    s    ſ    5    1 
-MSDATES ​   T1    P1    C2    s    ſ    0    0 
-... 
-MSDATES ​   T1    P2    C3    s    ſ    10    2 
-</​code>​ 
- 
-== exemple 2 == 
-  * avec une CQL + target sur un caractère 
-  * avec le signe sélectionné = s 
-  * avec les allographes sélectionné = TOUS 
-  * précalculer le nombre du "​signe"​ du target ("​s"​) du corpus 
-<​code>​ 
-corpus ​   texte    page    colonne ​   lettre ​   allographe ​   %/lettre 
-MSDATES ​   T1    P1    C1    s    ſ    5    1 
-MSDATES ​   T1    P1    C2    s    ſ    0    0 
-MSDATES ​   T1    P1    C2    s    S    0    0 
-... 
-MSDATES ​   T1    P2    C3    s    ſ    10    2 
-MSDATES ​   T1    P2    C3    s    s   ​42 ​   2 
-</​code>​ 
- 
-====== Éléments d'​interface ====== 
- 
-<​code>​ 
-analyse d’un corpus avec indications d’abréviations 
- 
-menu {Analyse graphique} 
-  * {abréviations et lignes}. 
-  * {abréviations et sémantique}. 
-  * {Allographes} 
- 
-Abréviations et lignes 
- 
-Taux d’abrègement 
-Début de ligne 
-  Mots  
- Caractères 
-[Fenêtre de saisie] 
-Fin de ligne 
-  Mots  
- Caractères 
-[Fenêtre de saisie] 
- 
- 
-Abréviations et sémantique 
- 
-Liste à cocher contenant les éléments non vides descendants de <p> 
- 
-Allographes 
- 
-  * analyser un signe  
-    * liste des signes 
-  * ou une analyse avancée 
-    * une liste des signes 
-    * une liste des allographes du signe sélectionnée 
-    * bouton ajouter un critère (paramètre d'​intérogation combinée) 
-      * sélection du critère dans une liste déroulante 
-</​code>​ 
- 
  
public/upr_irht_oriflamms/specs_1.1453298094.txt.gz · Dernière modification: 2016/01/20 14:54 par matthieu.decorde@ens-lyon.fr