Outils pour utilisateurs

Outils du site


public:upr_irht_oriflamms:cdc_1

Cahier des charges 1

Recette 1 : import-export au format Oriflamms

(Chantier A)

Utilisateur importe un fichier d’édition TEI contenant un seul élément racine TEI et plusieurs textes dans des éléments text > group > text > body > p, contenant des éléments <pb> et <lb> non encadrants, ainsi que des éléments d’analyse graphique <choice>, <abbr>, <expan>, <am>, <ex>, et des éléments d’analyse sémantique <name>, <persName>, <placeName>, <orgName>, <roleName>. Les éléments <pb> et <lb> ont les propriétés suivantes :

  • <pb> peut être muni de l’attribut @facs, renvoyant vers un fichier image ou vers un élément <zone>
  • <lb> n’est pas muni systématiquement de l’attribut @n

L’utilisateur place le fichier dans un dossier et utilise le module d'import “TEI Oriflamms” pour créer un corpus binaire. Sur ce corpus binaire, l'utilisateur dispose d'une fonction « Exporter au format Oriflamms ». Le résultat de l’export est un fichier .zip contenant :

  • Un dossier portant le nom du fichier TEI d'origine (sans extension) –> identifiant du corpus Oriflamms
  • Le fichier TEI d’origine dans la racine du dossier
  • Un deuxième fichier TEI d’origine placé dans un sous-dossier “texts” avec les modifications suivantes :
    • Nommage : même nom avec le suffixe ‘–w’
    • ajout d'un élément <milestone unit=“surface”/> devant chaque <pb/> portant un attribut @facs
    • ajout d’un élément <cb/> avec @n=‘1’ dans les text > body > p qui en sont dépourvu
    • ajout de l’attribut @n dans l’élément <lb/>, avec les caractéristiques suivantes :
      • si l’élément <lb/> contient déjà un @n, le conserver tel quel ;
      • si l’élément <lb/> contient déjà d’autres attributs, les conserver ;
      • s’il n’y pas de @n dans les <lb>, le contenu de l’attribut @n est renseigné de façon incrémentale de 1 à N (sans compter les <lb type=“rejet”/> ni les lb ayant un attribut n avec une valeur non numérique, par ex. “3bis”)
      • s’il y a des attributs @n ayant une valeur numérique dans les <lb>, renseigner les attributs @n créés de façon incrémentale de (N+1) avec N étant la valeur présente dans le <lb> précédent (sans compter les <lb type=“rejet”/>.
    • Éléments de tokénisation au niveau mot <w>
    • Ajout d’un @xml:id pour les éléments <pb/>, <cb/>, <lb/>, <w>, <pc>
    • Ajout d'un @corresp pour les <lb type=“rejet”>, qui pointe vers un lb de la même colonne, dont @n est identique au sien
  • Un troisième fichier TEI avec les propriétés suivantes :
    • Nommage : le nom du fichier d’origine avec le suffixe ‘-c’.
      • Propriétés : mêmes propriétés que le fichier avec suffixe –w, sauf :
      • Suppression des éléments choice > (expan|reg|corr) et de leur contenu, en conservant le contenu de choice > (abbr|orig|sic)
      • Suppression des éléments <app> > <rdg> correspondant à des leçons différentes du manuscrit de base
      • Suppression de tous les éléments portant un attribut @ana=“ori:align-no”
      • Tokénisation au niveau caractère <c>
      • Ajout d’identifiant pour les éléments <c>
  • Dans un sous-dossier nommé “zones”, un fichier [ZONE] par nom d’image identifié dans les éléments <milestone unit=“surface”>
    • Nommage : [corpusID]_surf_[imageID]-zones.xml
    • Propriétés : ce fichier contient un entête TEI minimal et une structure pour écrire des données de zonage par le logiciel Oriflamms
    • Exemple :
      <?xml version="1.0" encoding="utf-8"?>
      <TEI xmlns="http://www.tei-c.org/ns/1.0">
         <teiHeader>
            <fileDesc>
               <titleStmt>
                  <title>Image zones for surf_IRHT_P_000166</title>
               </titleStmt>
               <publicationStmt>
                  <p>Oriflamms project</p>
               </publicationStmt>
               <sourceDesc>
                  <p>Converted from Oriflamms XML-TEI transcription file</p>
               </sourceDesc>
            </fileDesc>
            <revisionDesc>
               <change when="2015-12-02">File created</change>
            </revisionDesc>
         </teiHeader>
         <facsimile xml:base="../img/">
            <surface xml:id="surf_IRHT_P_000166">
               <graphic url="IRHT_P_000166.tif"/>
            </surface>
         </facsimile>
      </TEI>
  • Dans un sous-dossier nommé “img_links”, un fichier [LINK] par nom d’image identifié dans les éléments <milestone unit=“surface”/>
    • Nommage : [corpusID]_surf_[imageID]-links.xml
    • Propriétés : ce fichier contient un entête TEI minimal et une structure pour écrire des données de liens zones d'image/transcription par le logiciel Oriflamms

Recette 2 : idem avec teiCorpus

Des différences de traitement apparaitront entre ces deux types de corpus au niveau du format TEI-TXM

Recette 3 : analyse d’un corpus avec indications d’abréviations

(Chantiers A et B, voir les précisions)

L’Utilisateur importe dans TXM via le module TEI Oriflamms un fichier d’édition TEI contenant un élément racine teiCorpus et plusieurs textes dans des éléments TEI > text > body > p, contenant des éléments <pb> et <lb> non encadrants, ainsi que des éléments d’analyse graphique <choice>, <abbr>, <expan>, <am>, <ex>, et des éléments d’analyse sémantique <name>, <persName>, <placeName>, <orgName>, <roleName>.

L’utilisateur sélectionne dans le paquet de macros Oriflamms, un sous-paquet {Analyse graphique} et double-clique sur {abréviations et lignes}.

Une boîte de dialogue s’ouvre permettant de sélectionner, aussi bien pour le début que pour la fin de ligne :

  • Le nombre de mots (chantier A) ou le nombre de caractères (chantier B) qui constitue le « début » et la « fin » de ligne
  • Le nombre de caractères est compté sur les caractères avec abréviations non résolues et sans compter les lettres suscrites (‘combining letters’) et les tildes, selon les mêmes règles que l’exclusion de l’alignement (chantier B)
Taux d’abrègement
Début de ligne
[] Mots {champ de saisie}
[] Caractères
Fin de ligne
[] Mots{champ de saisie}
[] Caractères

Le résultat est un tableau comprenant

  • À chaque niveau de granularité :
    • ensemble du corpus
    • TEI > text
    • Page
      • Nombre pour la page entière
      • Nombre moyen par ligne dans la page
    • Colonne
      • Nombre pour la colonne entière
      • Nombre moyen par ligne dans la page
    • Ligne
  • Les informations suivantes :
    • Nombre d’abréviations
    • Nombre de lettres supprimées par les abréviations
    • Pourcentage de lettres supprimées par les abréviations par rapport au texte développé

Recette 4 : analyse d’un corpus avec indications d’abréviations

(Chantier A)

L’Utilisateur importe via le module TEI Oriflamms un fichier d’édition TEI Oriflamms contenant un élément racine teiCorpus et plusieurs textes dans des éléments TEI > text > body > p, contenant des éléments <pb> et <lb> non encadrants, ainsi que des éléments d’analyse graphique <choice>, <abbr>, <expan>, <am>, <ex>, et des éléments d’analyse sémantique <name>, <persName>, <placeName>, <orgName>, <roleName>.

L’utilisateur sélectionne dans le paquet de macros Oriflamms, un sous-paquet {Analyse graphique} et double-clique sur {abréviations et sémantique}.

Une boîte de dialogue s’ouvre permettant de sélectionner les éléments que l’on veut analyser. La boîte offre une liste à cocher contenant les éléments non vides descendants de <p>.

Le résultat est un tableau .csv qui comprend :

  • pour les éléments suivants :
    • chaque élément coché
    • ensemble du texte
    • l’ensemble du texte hors des éléments cochés
  • aux niveaux suivants :
    • ensemble du corpus
    • texte
    • page
  • Les informations suivantes, réparties dans chaque catégorie d’élément coché :
    • Nombre d’abréviations moyen
    • Nombre moyen de lettres supprimées par les abréviations
    • Pourcentage de lettres supprimées par les abréviations par rapport au texte développé

Recette 5 : analyse de texte avec indications d’allographes

(Chantier B)

L’Utilisateur importe via le module XML-Oriflamms un dossier de données oriflamms, dont une transcription TEI Oriflamms contenant un élément racine teiCorpus et plusieurs textes dans des éléments TEI > text > body > p, contenant

  • des éléments <pb> et <lb> non encadrants,
  • des éléments d’analyse graphique <choice>, <abbr>, <expan>, <am>, <ex>,
  • des éléments d’analyse sémantique <name>, <persName>, <placeName>, <orgName>, <roleName>
  • des éléments d’analyse graphique au niveau du caractère dans un fichier séparé, lié par la présence d’un attribut @xml:id dans chaque fichier et l’existence d’un lien déclaré entre les deux identifiants dans un troisième fichier

L’utilisateur sélectionne dans le paquet de macros Oriflamms un sous-paquet {Analyse graphique} et double-clique sur {Allographes}.

  • « Analyse d’un signe » / « Analyse avancée »
  • L’utilisateur choisit la seconde possibilité
  • par deux menus déroulants : un signe (par exemple « s ») puis un allographe de cette lettre (s/ſ/S//)
  • Des paramètres pour une interrogation combinée (avec un bouton « ajouter un critère », avec opérateur booléen « ET » par défaut)
  • Des menus déroulants :
    • Abréviation (présence d’une abréviation dans le même mot)
    • Place dans le mot
      • Début
      • Milieu
      • Fin
    • Place dans le texte
      • Première lettre
        • De la page
        • De la colonne
        • De la ligne
      • Dernière lettre
        • De la page
        • De la colonne
        • De la ligne
      • Première ligne (sauf en première place)
        • De la page
        • De la colonne
      • Dernière ligne (sauf en dernière place)
        • De la page
        • De la colonne
    • Éléments d’analyse sémantique :
      • occurrences à l’intérieur d’un
        • name
        • placeName
        • persName
        • roleName
      • occurrences à l’intérieur d’un élément <w> contenant un attribut
        • [générer la liste des attributs et de leurs contenus]
    • Éléments d’analyse syntaxique
      • Avant / après
        • Ponctuation
      • Présent dans <w> en première position dans <s> ou <p>
    • Éléments d’analyse graphique
      • Immédiatement avant
        • Liste des signes
          • Liste des allographes
      • Immédiatement après
        • Liste des signes
          • Liste des allographes
      • Dans un texte où se trouve également :
        • Liste des signes
          • Liste des allographes

Nota : si les différents textes dans le corpus ne comptent qu’une seule colonne, griser les possibilités concernant les colonnes ;

Nota : les listes d’allographes doivent reprendre ceux déclarés dans le fichier spécifique et ajouter la valeur « indifférent ».

Le résultat est un tableau comprenant :

  • aux niveaux suivants :
    • ensemble du corpus
    • texte
    • page
  • Les informations suivantes, reprenant chaque catégorie d’élément coché :
    • Pourcentage d’emploi de l’allographe sélectionné
    • Nombre d’occurrences de la lettre

Recette 6 : analyse d’un signe

(Chantier B)

L’Utilisateur importe avec le module TEI Oriflamms les données Oriflamms, dont un fichier d’édition TEI Oriflamms contenant un élément racine teiCorpus et plusieurs textes dans des éléments TEI > text > body > p, contenant

  • des éléments <pb> et <lb> non encadrants,
  • des éléments d’analyse graphique <choice>, <abbr>, <expan>, <am>, <ex>,
  • des éléments d’analyse sémantique <name>, <persName>, <placeName>, <orgName>, <roleName>
  • des éléments d’analyse graphique au niveau du caractère dans un fichier séparé, lié par la présence d’un attribut @xml:id dans chaque fichier et l’existence d’un lien déclaré entre les deux identifiants dans un troisième fichier

L’utilisateur sélectionne dans le paquet de macros Oriflamms un sous-paquet {Analyse graphique} et double-clique sur {Allographes}.

Une boîte de dialogue s’ouvre permettant de sélectionner :

  • « Analyse d’un signe » / « Analyse avancée »
  • L’utilisateur choisit la première possibilité
  • Menu déroulant : « Liste des signes » (avec le premier niveau de la liste des signes)
  • Cliquer sur un bouton « Analyser »

Le résultat est un tableau comprenant :

  • aux niveaux suivants :
    • ensemble du corpus
    • texte, avec les métadonnées de l’élément <origDate> @when ou [@notBefore-@notAfter] descendant de l’élément TEI du niveau, ainsi que les métadonnées de l’élément <origPlace>
    • page
  • le nombre total d’occurrences du signe et la répartition des allographes en nombre et en pourcentages
  • dans l’ensemble des situations exposées dans le scénario précédent
public/upr_irht_oriflamms/cdc_1.txt · Dernière modification: 2016/02/17 17:16 par matthieu.decorde@ens-lyon.fr