L'objectif est de réaliser la chaîne complète de fichiers XML-TEI source, vers l'annotation dans TXM, puis l'export vers la plateforme XML du PHN, puis la mise en ligne par le biais d'un site web.
Le format actuellement utilisé par TXM pour persister les annotations sémantiques est une version inlinée du format XML-TXM dans laquelle les annotations prennent la forme de structures ayant des propriétés dominant les mots annotés (“ou portant l'annotation”). C'est également un format qui n'est pas full TEI conformant.
La contrainte est pour l'instant donné par CQP qui gère les données en arbres. Ainsi les chevauchements, si ils restent encodés en tant que structures, devraient être gérés par plusieurs arbres concurrents.
La stratégie d'export consiste à produire un fichier XML-TEI indépendant encodant les annotations d'un référentiel externe (ex: Symogih) en les associant à des identifiants de mots TXM.
Description des contraintes (A VALIDER) :
La plateforme doit pouvoir considérer que le corpus est partageable par plusieurs utilisateurs, avec de facto une analyse du texte sans doute différente et donc parfois concurrente (projection de catégorisation alternative, chevauchante sur les mêmes empans textuels).
Par ailleurs, le chevauchement peut déjà existé dans le cas d'un seul utilisateur du fait qu'un même empan textuel peut faire référence à plusieurs entités différentes. Ex: “Les universités de droit de Padoue et de Rome ont été crées en …”,
Pour gérer ces couches d'annotation qui se superposent, le format stand-off semble le plus adapté.
Pour le moment, la compatibilité entre TXM et la plateforme d'éditions en ligne du PHN (avec le framework eXist et l'encodage d'objets/unités de connaissance Symogih dans les corpus) est visée.
Vérification que l'encodage structurel TEI produit par Persée est compatible avec celui attendu par la plateforme du PHN.
<s xml:id=“DiOb5714_6”>Hiermattina con <name xml:id=“DiOb5714_10” ref=“Actr807”>Mons.r Dini</name> lessi la sua modestissima….</s>
et stand-off)pour chaque date d'annotation
Un export est composé de textes (au format pivot XML-TXM) et de fichiers stand-off (un par annotateur).
... <tei:p> ... <w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2152"> <txm:form>Faculté</txm:form> </w> <w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2153"> <txm:form>de</txm:form> </w> <w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2154"> <txm:form>théologie</txm:form> </w> <w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2155"> <txm:form>de</txm:form> </w> <w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2156"> <txm:form>Paris</txm:form> </w> ... </tei:p> ...
<TEI xmlns="http://www.tei-c.org/ns/1.0"> <teiHeader> <fileDesc> <titleStmt> <title>Title</title> </titleStmt> <publicationStmt> <p>Publication Information</p> </publicationStmt> <sourceDesc> <p>Ce document permet l'annotation sémantique de tous les textes concernant l'association avec des unités de connaissance</p> </sourceDesc> </fileDesc> </teiHeader> <text> <body> <div> <div> <!-- La date dans le header indique la date d'annotation --> <head> <date type="annotation_date" when="2016-06-16"/> </head> <span type="named_entities_identifications" ana="CoAc56389" target="#w_article_baip_1254-0714_1850_num_01_005_974_tei_2152 #w_article_baip_1254-0714_1850_num_01_005_974_tei_2153 #w_article_baip_1254-0714_1850_num_01_005_974_tei_2154 #w_article_baip_1254-0714_1850_num_01_005_974_tei_2155 #w_article_baip_1254-0714_1850_num_01_005_974_tei_2156" /> </div> </div> </body> </text> </TEI>