Outils pour utilisateurs

Outils du site


public:umr_proclac_corpus_akkadien

Sample of a Corpus of Old Babylonian Letters

Description du projet

Dans le cadre d'un doctorat (UMR 7192 http://www.digitorient.com/?author=152), il s'agit d'analyser un corpus de lettres écrites en langue akkadienne au IIe mil. av. J.-C., sur des tablettes d'argile, en Mésopotamie.

Les sources sont encodées en XML-TEI. L'élément <w> encode la forme orthographique, le lemme et la catégorie grammaticale des mots. L'élément <g> encode chaque signe cunéiforme.

La forme orthographique de chaque mot apparaît sous une forme translittérée : chaque signe cunéiforme est translittéré en alphabet latin (élargi aux diacritiques) et les différents signes cunéiformes composant un même mot sont séparés par le délimiteur tiret '-', le point '.' ou les parenthèses (), selon les normes établies par l'équipe Archibab (http://www.archibab.fr).

L'analyse se réalise soit au niveau lexical, par le biais de la forme orthographique, du lemme ou de la catégorie grammaticale, soit au niveau du signe cunéiforme. En raison de la diversité des niveaux d'analyse, l'annotation des lettres au niveau lexical (avec l'élément <w>) et l'annotation des lettres au niveau des signes cunéiformes (avec l'élément <g>) se font dans deux fichiers .xml distincts.

1) Dans les fichiers encodés au niveau lexical (<w>), les mots dont certains signes ont disparu de la surface de la tablette d'argile, mais qui ont été restitués par le transcripteur, sont encodés avec l'élément <unclear>. Les mots qui ont totalement disparu de la surface de la tablette mais qui ont été restitués par le transcripteur sont encodés avec l'élément <supplied>.

2) De la même façon, dans les fichiers encodés au niveau du signe cunéiforme (<w>), les signes partiellement effacés et restitués sont encodés avec <unclear> et les signes totalement effacés mais restitués sont encodés avec <supplied>.

Deux feuilles de transformation XSL ont été établies pour importer les sources selon différents modes, en plus du mode XML standard.

Contact : Marine Béranger

Exploitation du corpus

Un extrait du corpus ainsi qu'un tutoriel décrivant plusieurs analyses possibles sont disponibles sur le portail de démonstration de TXM : http://portal.textometrie.org/demo

Tutoriel d'importation du corpus des lettres annotées au niveau lexical (<w>) avec filtrage des mots partiellement ou totalement effacés sur la tablette d'argile

Il s'agit d'importer le corpus des lettres annotées au niveau lexical avec une feuille XSLT, afin de pouvoir distinguer, dans TXM, les mots visibles sur la tablette d'argile des mots partiellement ou totalement effacés :

  • créer un dossier “corpusakkadienmots” (le nom du dossier deviendra le nom du corpus)
  • mettre les fichiers source encodés au niveau lexical (<w>) dans le dossier créé
  • télécharger la feuille de style txm-filter-corpusakkadien-xmlw_mots_effaces.xsl
    • Attention à ne pas mettre la feuille de style dans le même dossier que les fichiers source
  • dans TXM, utiliser la commande Fichier –> Importer –> XML/W + CSV
  • dans le formulaire d'importation :
    • sélectionner le dossier des sources (e.g. “corpusakkadienmots”)
    • sous “Langue principale”, décocher la case “Annoter le corpus
    • sous “Feuille XSL d'entrée”, sélectionner la feuille de style “txm-filter-corpusakkadien-xmlw_mots_effaces.xsl”
      • cliquer sur ”…“ et naviguer jusqu'au dossier où la feuille de style a été sauvegardée
      • attention à ne pas cliquer sur “Ajouter un paramètre”, car cela efface la sélection de la feuille de style
    • cliquer sur “Lancer l'import du corpus”

Tutoriel d'importation du corpus des lettres annotées au niveau du signe cunéiforme

Il s'agit d'analyser et de comparer les signes cunéiformes utilisés par les scribes, en rendant possible la consultation d'une édition Unicode des lettres et la consultation des facsimilés des tablettes. La transformation donne à voir les signes cunéiformes (balisés <g> dans les sources) comme les mots des sources tout en recodant les mots dans une structure immédiatement supérieure.

Étape 1 : préparation des sources et de TXM

Cette étape est obligatoire pour construire l'édition synoptioque avec les facsimilé des tablettes

  • images
    • les images des tablettes doivent être converties au format JPEG (conversion par lot possible avec IrfanView, cf. http://www.irfanview.com/)
    • créer un dossier “img”
    • pour chaque tablette (fichier xml) créer un sous-dossier dans “img”, dont le nom correspond à celui du doc xml (sans extension)
    • placer les fichiers images dans les sous-dossiers correspondants
    • l'ordre alphabétique des noms des fichiers image doit correspondre à leur ordre dans la transcription (c'est OK avec les suffixes “face” et “revers”)
  • fichiers xml
    • il faut ajouter des balises <pb/> chaque fois qu'on passe à une nouvelle image :
      • toujours au début de chaque tablette (juste après la balise ouvrante <text>)
      • devant le premier mot du revers, si la face et le revers ne figurent pas sur la même image
    • ajouter un attribut @facs à chaque <pb/> avec le chemin vers le fichier image commençant par ”../“
      • par exemple : <pb facs=”../img/AbB_2_1/AbB_2_1_face.jpg“/>
      • cette opération peut être automatisée grâce à la macro AddFacsAttribute dans TXM
    • (facultatif) ajouter un attribut @n à <pb/>, c'est ne numéro ou le titre de la page qui s'affichera en haut
  • TXM
    • installer l'extension “Synoptic Editor”
      • Menu Fichier / Ajouter une extension
      • Cocher l'extension “Synoptic Editor”, cliquer sur Terminer et suivre les instructions pas à pas

Étape 2 (obligatoire) : importation du corpus en mode translittéré

  • créer un dossier “CASYLLABSG” (le du dossier deviendra le nom du corpus)
  • mettre les fichiers source dans le dossier créé
  • télécharger la feuille de style txm-filter-corpusakkadien-xmlw_syllabes-cuneiform.xsl http://sourceforge.net/projects/txm/files/library/xsl/txm-filter-corpusakkadien-xmlw_syllabes-cuneiform.xsl/download
    • Attention à ne pas mettre la feuille de style dans le même dossier que les fichiers source
  • dans TXM, utiliser la commande Fichier –> Importer –> XML/W + CSV
  • dans le formulaire d'importation :
    • sélectionner le dossier des sources (e.g. “CASYLLABESG”)
    • sous “Langue principale”, décocher la case “Annoter le corpus”
    • sous “Feuille XSL d'entrée”, sélectionner la feuille de style “txm-filter-corpusakkadien-xmlw_syllabes-cuneiform.xsl”
      • cliquer sur ”…“ et naviguer jusqu'au dossier où la feuille de style a été sauvegardée
      • attention à ne pas cliquer sur “Ajouter un paramètre”, car cela efface la sélection de la feuille de style
    • cliquer sur “Lancer l'import du corpus”

N.B. A chaque signe cunéiforme (<g>) sont associés un numéro Unicode et la référence du signe dans le syllabaire de Rykle Borger (Mesopotamiches Zeichenlexikon, Münster, 2010 [2e ed.]. Ces informarions seront disponibles en tant que propriétés de tokens : “ref-unicode” et “ref-syllabaire” (Mesopotamisches Zeichenlexikon, Münster, March 2004, cf. http://www.digitorient.com/wp/wp-content/uploads/2015/04/Paleo-bab_complet.pdf)

Étape 3 (facultative) Mise à jour de l'édition translittérée (affichage des sauts de lignes et de traits d'union entre les syllabes)

  • télécharger la feuille de style txm-edition-xtz-corpusakkadien-translit.xsl http://sourceforge.net/projects/txm/files/library/xsl/txm-edition-xtz-corpusakkadien-translit.xsl/download et la mettre dans le dossier [nom_utilisateur]/TXM/xsl
  • vérifier si les macros Edition sont installées
    • dans TXM, ouvrir la vue Macro (Affichage / Vue / Macro)
    • dans la vue “Macro”, cliquer sur “Actualiser”, si un “dossier” “edition” s'affiche, double-cliquer dessus et vérifier que las macros “EditionUpdater” et “FacsEditionBuilder” sont présentes
    • Sélectionner (clic gauche) le corpus “CASYLLABESG”, puis double-cliquer sur la macro “EditionUpdater”
    • dans le champ “xslEdition”, cliquer sur ”…“ et sélectionner la feuille “txm-edition-xtz-corpusakkadien-translit.xsl”
    • vérifier que le champ “editionName” affiche “default”, ne pas le modifier
    • cliquer sur “Exécution”
    • La console doit afficher des messages comme ceci :
Exécution de EditionUpdaterMacro.groovy
Working on CASYLLABESG corpus
/home/alavrent/txm-edition-xtz.xsl
Parameters:
	xslEdition = /home/alavrent/TXM/xsl/txm-edition-xtz-corpusakkadien-translit.xsl
	xslPages = txm-edition-page-split.xsl
	editionName = default
	useTokenizedDirectory = false
XSLs: txm-edition-xtz-corpusakkadien-translit.xsl & txm-edition-page-split.xsl

Backup of /home/alavrent/TXM/corpora/CASYLLABESG/HTML/CASYLLABESG/default directory to /home/alavrent/TXM/corpora/CASYLLABESG/HTML-default-back...
.......
Applying XSL 1: /home/alavrent/TXM/xsl/txm-edition-xtz-corpusakkadien-translit.xsl...
...
Applying XSL 2: /home/alavrent/TXM/xsl/txm-edition-page-split.xsl...
...
Moteur de recherche lancé en mode mémoire.
Moteur statistique lancé.connecté.
Chargement des sous-corpus et des partitions...Terminé.
New edition created.
Terminé: 10249 ms
  • Dans TXM, faire un clic-droit sur le corpus, sélectionner “Edition”, cliquer sur le bouton “Page suivante”
  • On doit voir les sauts de ligne comme dans le facsimile et des traits d'union entre les syllabes d'un mot

Étape 4 (facultative) Production d'une édition affichant les caractères cunéiformes

  • télécharger la feuille de style txm-edition-xtz-cuneiform.xsl http://sourceforge.net/projects/txm/files/library/xsl/txm-edition-xtz-cuneiform.xsl/download et la mettre dans le dossier [nom_utilisateur]/TXM/xsl
  • vérifier si les macros Edition sont installées
    • dans TXM, ouvrir la vue Macro (Affichage / Vue / Macro)
    • dans la vue “Macro”, cliquer sur “Actualiser”, si un “dossier” “edition” s'affiche, double-cliquer dessus et vérifier que las macros “EditionUpdater” et “FacsEditionBuilder” sont présentes
    • Sélectionner (clic gauche) le corpus “CASYLLABESG”, puis double-cliquer sur la macro “EditionUpdater”
    • dans le champ “xslEdition”, cliquer sur ”…“ et sélectionner la feuille “txm-edition-xtz-cuneiform.xsl”
    • dans le champ “editionName”, saisir “cuneiforme”
    • cliquer sur “Exécution”
    • La console doit afficher des messages comme ceci :
Exécution de EditionUpdaterMacro.groovy
Working on CASYLLABESG corpus
/home/alavrent/txm-edition-xtz.xsl
Parameters:
	xslEdition = /media/alavrent/data/TXM/xsl/txm-edition-xtz-cuneiform.xsl
	xslPages = txm-edition-page-split.xsl
	editionName = cuneiforme
	useTokenizedDirectory = false
XSLs: txm-edition-xtz-cuneiform.xsl & txm-edition-page-split.xsl

This is a new edition
Applying XSL 1: /media/alavrent/data/TXM/xsl/txm-edition-xtz-cuneiform.xsl...
...
Applying XSL 2: /home/alavrent/TXM/xsl/txm-edition-page-split.xsl...
...
Update corpus configuration
Moteur de recherche lancé en mode mémoire.
Moteur statistique lancé.connecté.
Chargement des sous-corpus et des partitions...Terminé.
New edition created.
Terminé: 21560 ms
  • Dans TXM, faire un clic-droit sur le corpus, sélectionner “Open edition 2” (disponible si l'extension “Synoptic editor” est installée)
  • 2 éditions : “default” et “cuneiforme” doivent être disponibles

Étape 5 (facultative) : Ajout des facsimilé des tablettes

  • Sélectionner (clic gauche) le corpus “CASYLLABESG”, puis double-cliquer sur la macro “FacsEditionBuilder”
  • Décocher la case “Debug”
  • Cliquer sur “Exécution”
  • La console doit afficher des messages comme ceci :
Exécution de FacsEditionBuilderMacro.groovy
Working on CASYLLABESG corpus
Parameters:
	attribute = facs
	tag =  pb
	editionName =  facs
Working directory=/home/alavrent/TXM/corpora/CASYLLABESG/txm/CASYLLABESG
** Old version of facs edition found.
 removing the 'edition' reference from the corpus configuration.
 delete /home/alavrent/TXM/corpora/CASYLLABESG/HTML/CASYLLABESG/facs
** Updating corpus configuration...
** Building new edition HTML files...
 Creating edition 'facs' directory: '/home/alavrent/TXM/corpora/CASYLLABESG/HTML/CASYLLABESG/facs'
 Building HTML pages of text=AbB_2_3
 Building edition references in corpus configuration
 Building HTML pages of text=AbB_2_2
 Building edition references in corpus configuration
 Building HTML pages of text=AbB_2_1
 Building edition references in corpus configuration
 Saving corpus configuration...
Moteur de recherche lancé en mode mémoire.
Moteur statistique lancé.connecté.
Chargement des sous-corpus et des partitions...Terminé.
New edition created.
Terminé: 5620 ms
  • ouvrir le dossier [nom_utilisateur]/TXM/corpora/CASYLLABESG/HTML/CASYLLABESG et copier dedans le dossier “img” (contenant les images)
  • utiliser la fonction “Open edition 2” pour sélectionner les éditions à afficher

Exclure les mots ou syllabes peu lisibles ou ajoutés par l'éditeur

  • Dans les transcriptions d'origine les balises TEI <unclear> et <supplied> sont utilisées pour marquer ces segments
  • Dans le corpus tokenisé au niveau des mots, ces informations sont projetées au niveau des propriétés lexicales :
    • si un mot se trouve à l'intérieur de <supplied> ou de <unclear>, la propriété no-unclear prend la valeur “¤”
    • si une partie du mot se trouve dans <supplied> ou de <unclear>, la propriété no-unclear contient la partie du mot extérieure à ces balises
    • sinon, elle est identique à la forme du mot
    • si un mot se trouve à l'intérieur de <supplied>, la propriété no-supplied prend la valeur “¤”
    • si une partie du mot se trouve dans <supplied>, la propriété no-supplied contient la partie du mot extérieure à cette balises
    • sinon, elle est identique à la forme du mot
      • exemple de requête permettant d'exlure tous les mots “pas sûrs” : [no-unclear!=“¤”]
  • Dans le corpus tokenisé au niveau des syllabes
    • les propriétés non-unclear et non-supplied sont disponibles au niveau de la structure <word>
      • exemple de requête permettant d'exlure tous les mots “pas sûrs” : [_.word_no-unclear=“¤”]
    • au niveau des syllabes
      • la propriété “unclear” prend la valeur “yes” à l'intérieur de <unclear>
      • la propriété “supplied” prend la valeur “yes” à l'intérieur de <supplied>
      • exemple de requête permettant d'exlure tous les syllabes “pas sûres” : [unclear=“no” & supplied=“no”]



Retour à la liste des projets.

public/umr_proclac_corpus_akkadien.txt · Dernière modification : 29/11/2015 19:28 de marine.beranger@etu.ephe.fr