Dans le cadre d'un doctorat (UMR 7192 http://www.digitorient.com/?author=152), il s'agit d'analyser un corpus de lettres écrites en langue akkadienne au IIe mil. av. J.-C., sur des tablettes d'argile, en Mésopotamie.
Les sources sont encodées en XML-TEI. L'élément <w> encode la forme orthographique, le lemme et la catégorie grammaticale des mots. L'élément <g> encode chaque signe cunéiforme.
La forme orthographique de chaque mot apparaît sous une forme translittérée : chaque signe cunéiforme est translittéré en alphabet latin (élargi aux diacritiques) et les différents signes cunéiformes composant un même mot sont séparés par le délimiteur tiret '-', le point '.' ou les parenthèses (), selon les normes établies par l'équipe Archibab (http://www.archibab.fr).
L'analyse se réalise soit au niveau lexical, par le biais de la forme orthographique, du lemme ou de la catégorie grammaticale, soit au niveau du signe cunéiforme. En raison de la diversité des niveaux d'analyse, l'annotation des lettres au niveau lexical (avec l'élément <w>) et l'annotation des lettres au niveau des signes cunéiformes (avec l'élément <g>) se font dans deux fichiers .xml distincts.
1) Dans les fichiers encodés au niveau lexical (<w>), les mots dont certains signes ont disparu de la surface de la tablette d'argile, mais qui ont été restitués par le transcripteur, sont encodés avec l'élément <unclear>. Les mots qui ont totalement disparu de la surface de la tablette mais qui ont été restitués par le transcripteur sont encodés avec l'élément <supplied>.
2) De la même façon, dans les fichiers encodés au niveau du signe cunéiforme (<w>), les signes partiellement effacés et restitués sont encodés avec <unclear> et les signes totalement effacés mais restitués sont encodés avec <supplied>.
Deux feuilles de transformation XSL ont été établies pour importer les sources selon différents modes, en plus du mode XML standard.
Contact : Marine Béranger
Un extrait du corpus ainsi qu'un tutoriel décrivant plusieurs analyses possibles sont disponibles sur le portail de démonstration de TXM : http://portal.textometrie.org/demo
Il s'agit d'importer le corpus des lettres annotées au niveau lexical avec une feuille XSLT, afin de pouvoir distinguer, dans TXM, les mots visibles sur la tablette d'argile des mots partiellement ou totalement effacés :
Il s'agit d'analyser et de comparer les signes cunéiformes utilisés par les scribes, en rendant possible la consultation d'une édition Unicode des lettres et la consultation des facsimilés des tablettes. La transformation donne à voir les signes cunéiformes (balisés <g> dans les sources) comme les mots des sources tout en recodant les mots dans une structure immédiatement supérieure.
Cette étape est obligatoire pour construire l'édition synoptioque avec les facsimilé des tablettes
N.B. A chaque signe cunéiforme (<g>) sont associés un numéro Unicode et la référence du signe dans le syllabaire de Rykle Borger (Mesopotamiches Zeichenlexikon, Münster, 2010 [2e ed.]. Ces informarions seront disponibles en tant que propriétés de tokens : “ref-unicode” et “ref-syllabaire” (Mesopotamisches Zeichenlexikon, Münster, March 2004, cf. http://www.digitorient.com/wp/wp-content/uploads/2015/04/Paleo-bab_complet.pdf)
Exécution de EditionUpdaterMacro.groovy Working on CASYLLABESG corpus /home/alavrent/txm-edition-xtz.xsl Parameters: xslEdition = /home/alavrent/TXM/xsl/txm-edition-xtz-corpusakkadien-translit.xsl xslPages = txm-edition-page-split.xsl editionName = default useTokenizedDirectory = false XSLs: txm-edition-xtz-corpusakkadien-translit.xsl & txm-edition-page-split.xsl Backup of /home/alavrent/TXM/corpora/CASYLLABESG/HTML/CASYLLABESG/default directory to /home/alavrent/TXM/corpora/CASYLLABESG/HTML-default-back... ....... Applying XSL 1: /home/alavrent/TXM/xsl/txm-edition-xtz-corpusakkadien-translit.xsl... ... Applying XSL 2: /home/alavrent/TXM/xsl/txm-edition-page-split.xsl... ... Moteur de recherche lancé en mode mémoire. Moteur statistique lancé.connecté. Chargement des sous-corpus et des partitions...Terminé. New edition created. Terminé: 10249 ms
Exécution de EditionUpdaterMacro.groovy Working on CASYLLABESG corpus /home/alavrent/txm-edition-xtz.xsl Parameters: xslEdition = /media/alavrent/data/TXM/xsl/txm-edition-xtz-cuneiform.xsl xslPages = txm-edition-page-split.xsl editionName = cuneiforme useTokenizedDirectory = false XSLs: txm-edition-xtz-cuneiform.xsl & txm-edition-page-split.xsl This is a new edition Applying XSL 1: /media/alavrent/data/TXM/xsl/txm-edition-xtz-cuneiform.xsl... ... Applying XSL 2: /home/alavrent/TXM/xsl/txm-edition-page-split.xsl... ... Update corpus configuration Moteur de recherche lancé en mode mémoire. Moteur statistique lancé.connecté. Chargement des sous-corpus et des partitions...Terminé. New edition created. Terminé: 21560 ms
Exécution de FacsEditionBuilderMacro.groovy Working on CASYLLABESG corpus Parameters: attribute = facs tag = pb editionName = facs Working directory=/home/alavrent/TXM/corpora/CASYLLABESG/txm/CASYLLABESG ** Old version of facs edition found. removing the 'edition' reference from the corpus configuration. delete /home/alavrent/TXM/corpora/CASYLLABESG/HTML/CASYLLABESG/facs ** Updating corpus configuration... ** Building new edition HTML files... Creating edition 'facs' directory: '/home/alavrent/TXM/corpora/CASYLLABESG/HTML/CASYLLABESG/facs' Building HTML pages of text=AbB_2_3 Building edition references in corpus configuration Building HTML pages of text=AbB_2_2 Building edition references in corpus configuration Building HTML pages of text=AbB_2_1 Building edition references in corpus configuration Saving corpus configuration... Moteur de recherche lancé en mode mémoire. Moteur statistique lancé.connecté. Chargement des sous-corpus et des partitions...Terminé. New edition created. Terminé: 5620 ms