Discussion sur l'exportation d'annotations SyMoGIH depuis TXM

L'objectif est de réaliser la chaîne complète de fichiers XML-TEI source, vers l'annotation dans TXM, puis l'export vers la plateforme XML du PHN, puis la mise en ligne par le biais d'un site web.

Existant de la plateforme

Le format actuellement utilisé par TXM pour persister les annotations sémantiques est une version inlinée du format XML-TXM dans laquelle les annotations prennent la forme de structures ayant des propriétés dominant les mots annotés (“ou portant l'annotation”). C'est également un format qui n'est pas full TEI conformant.

La contrainte est pour l'instant donné par CQP qui gère les données en arbres. Ainsi les chevauchements, si ils restent encodés en tant que structures, devraient être gérés par plusieurs arbres concurrents.

Discussion

La stratégie d'export consiste à produire un fichier XML-TEI indépendant encodant les annotations d'un référentiel externe (ex: Symogih) en les associant à des identifiants de mots TXM.

Rappel du workflow

  • Persée livre les sources TEI-XML (v1)
  • TXM intègre ces sources et produit des annotations sémantiques (plutôt Entités Nommés) (v1')
  • PHN intègre ces sources et produit d'autres annotations (v1²), en accord avec les guidelines TEI pour la communauté Symogih, publiéesici.
    • complémentaires (d'autres EN, ou des Unités de connaissance associant les EN)
    • modifiant certaines (corrections d'EN, changement du typage des unités documentaires avec des AbOb Symogih plus précis (définition) que les termes du vocabulaire contrôlé de Persée).

Description des contraintes (A VALIDER) :

  • Persée a déjà des token non linguistique (<mot>), qu'ils utilisent pour ajouter des pointeurs vers les images correspondantes au découpage par l'OCR.
  • TXM produit une édition, en accord avec les utilisateurs du corpus : pour pouvoir rendre l'activité d'annotation au sein de la vue Edition et Concordance la plus confortable et pertinente possible (création de localisations/références, pour le retour au texte et l'affichage de l'édition, …). Cela revient à décider du niveau d'agrégation des fichiers (Unité Documentaire) livrés par Persée.
  • Plateforme XML PHN (Symogih) n'utilise pas les mots

Rappel de la complexité d'un corpus multi-utilisateurs et/ou multi-références

La plateforme doit pouvoir considérer que le corpus est partageable par plusieurs utilisateurs, avec de facto une analyse du texte sans doute différente et donc parfois concurrente (projection de catégorisation alternative, chevauchante sur les mêmes empans textuels).

Par ailleurs, le chevauchement peut déjà existé dans le cas d'un seul utilisateur du fait qu'un même empan textuel peut faire référence à plusieurs entités différentes. Ex: “Les universités de droit de Padoue et de Rome ont été crées en …”,

Pour gérer ces couches d'annotation qui se superposent, le format stand-off semble le plus adapté.

Pour le moment, la compatibilité entre TXM et la plateforme d'éditions en ligne du PHN (avec le framework eXist et l'encodage d'objets/unités de connaissance Symogih dans les corpus) est visée.

Vérification que l'encodage structurel TEI produit par Persée est compatible avec celui attendu par la plateforme du PHN.

Proposition d'Architecture et de Format

  • fichiers de textes pivots XML-TXM :
    • le fichier pivot (contenant les balises TEI du texte source et les <w> supports des annotations) correspond au fichier unité documentaire de TXM (XML-TXM)
      • ce fichier pivot doit correspondre également au fichier unité documentaire source
        • pour la V1, les étapes split-merge et front de l'import XTZ+CSV ne doivent donc pas changer les unités documentaires (un fichier source doit correspondre à un texte TXM)
    • choix du support de l'annotation :
      • les unités lexicales (balise <w>) du format pivot XML-TXM sont laissées telles quelles et leur ID est utilisé pour porter les annotations
      • on supprime les <coac> et consorts encodant les annotations dans le format XML-TXM
  • fichiers stand-off d'annotations
    • chaque fichier correspond à un texte et à un annotateur
    • annotation :
      • pour la V1 les annotations sont toutes réalisées dans TXM (l'import des sources ne tient pas compte d'encodages spécifiques à SyMoGIH, inlinés eg. <s xml:id=“DiOb5714_6”>Hiermattina con <name xml:id=“DiOb5714_10” ref=“Actr807”>Mons.r Dini</name> lessi la sua modestissima….</s> et stand-off)
      • les annotations sont regroupées dans une <div> pour chaque date d'annotation
      • une annotation <span> encode :
        • une localisation dans le fichier source (voir la stratégie de support de l'annotation ci-dessus)
        • un type qui ne peut être que “identification d'entités nommés” (pour l'instant l'interface d'annotation d'unités de connaissances - type 'unités de connaissance' tel que discuté dans le contexte de l'export d'annotations - n'est pas développée)
        • dans la V1 il n'y a pas de double niveau [span type=“passage” [span ana=“Info118843”]] parce que l'UI de TXM ne permet pas de les annoter
    • identité d'annotateur : l'annotation est multi-utilisateur
      • il y a un fichier d'export d'annotations par utilisateur
      • l'identifiant de l'utilisateur correspond à celui du compte SyMoGIH utilisé (pour les modes sans SyMoGIH, basic et expert, on pourra utiliser l'identifiant de session de l'utilisateur)
    • datation
      • le grain de datation est le jour (s'il faut gérer un jour des conflits d'annotations la granularité pourra être plus fine)
      • le jour encode la date de dernière modification (si on veut différencier création et modification il faudra encoder deux dates différentes)

Exemple concret

Un export est composé de textes (au format pivot XML-TXM) et de fichiers stand-off (un par annotateur).

Fichier de texte pivot

...
<tei:p>
	...
	<w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2152">
		<txm:form>Faculté</txm:form>
	</w>
	<w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2153">
		<txm:form>de</txm:form>
	</w>
	<w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2154">
		<txm:form>théologie</txm:form>
	</w>
	<w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2155">
		<txm:form>de</txm:form>
	</w>
	<w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2156">
		<txm:form>Paris</txm:form>
	</w>
        ...
</tei:p>
...

Fichier stand-off d'annotations SyMoGIH d'un annotateur

<TEI xmlns="http://www.tei-c.org/ns/1.0">
    <teiHeader>
        <fileDesc>
            <titleStmt>
                <title>Title</title>
            </titleStmt>
            <publicationStmt>
                <p>Publication Information</p>
            </publicationStmt>
            <sourceDesc>
                <p>Ce document permet l'annotation sémantique de tous les textes concernant l'association avec des unités de connaissance</p>
            </sourceDesc>
        </fileDesc>
    </teiHeader>
    <text>
        <body>
            <div>
                <div>
                    <!-- La date dans le header indique la date d'annotation -->
                    <head>
                        <date type="annotation_date" when="2016-06-16"/>
                    </head>
                    <span type="named_entities_identifications" ana="CoAc56389" 
                          target="#w_article_baip_1254-0714_1850_num_01_005_974_tei_2152 
                                  #w_article_baip_1254-0714_1850_num_01_005_974_tei_2153 
                                  #w_article_baip_1254-0714_1850_num_01_005_974_tei_2154 
                                  #w_article_baip_1254-0714_1850_num_01_005_974_tei_2155 
                                  #w_article_baip_1254-0714_1850_num_01_005_974_tei_2156" />
                </div>
            </div>
         </body>
      </text>
 </TEI>

Biblio pour gérer le stand-off et les annotations

public/bhe_specs_encodage_export.txt · Dernière modification: 2016/10/27 10:26 par slh@ens-lyon.fr