Outils pour utilisateurs

Outils du site


public:annotation:specs_export_xml:symogih

Export Symogih des annotations

Objectif

L'objectif est de réaliser la chaîne complète de fichiers XML-TEI source, vers l'annotation dans TXM, puis l'export vers la plateforme XML du PHN.

Méthode

Enregistrer les annotations dans le format XML-TEI Symogih :

  • un fichier XML principal qui contient le texte, ses structures et les mots
  • des fichiers XML d'annotations par annotateur

Solution

Ajouter une nouvelle commande “Exporter les annotations au format XML-TEI…” dans le menu principal “Export”.

Paramètres :

  • en entrée : un corpus importé par le module XTZ+CSV et annoté dans TXM (pas par l'extension Analec)
  • en sortie : une archive ZIP composée d'un répertoire contenant les fichiers texte XML et les ficheirs annotations XML

Si le corpus contient des annotations non-sauvegardées, la commande SaveAnnotation est appelée avant de débuter l'export.

À la fin de la commande l'archive contient (un répertoire qui contient) :

  • les fichiers de textes pivots XML-TXM
    • les noms de fichiers sont les noms XML-TXM de TXM
    • sans les balises d'annotation (ex: <CoAc>)
    • les mots sont conservés avec leurs propriétés (sous-éléments txm:ana)
  • des fichiers stand-off d'annotations
    • les noms de fichier sont : nom du texte (cf ci-dessus) + '_annotations_' + <identifiant_annotateur>+ '.xml'
    • chaque fichier correspond à un texte et à un annotateur
      • encodé dans le teiHeader
    • les annotations :
      • sont regroupés par date dans une
        • le sous élément <head> contient un élément <date> qui encode la date de l'annotation au jour près
        • une annotation est encodée dans un
          • l'attribut 'type' encode le type de l'annotation
          • l'attribut 'subtype' a la valeur 'name'
          • l'attribut 'ana' encode la valeur de l'annotation (l'identifiant SyMoGIH)
          • l'attribut 'target' encode la liste des ID de mots recouverts par l'annotation (ID séparés par une espace ' ')

        Exemples de fichiers :

        • fichier XML-TEI-SyMoGIH:
          ...
          <tei:p>
          	...
          	<w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2152">
          		<txm:form>Faculté</txm:form>
          	</w>
          	<w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2153">
          		<txm:form>de</txm:form>
          	</w>
          	<w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2154">
          		<txm:form>théologie</txm:form>
          	</w>
          	<w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2155">
          		<txm:form>de</txm:form>
          	</w>
          	<w id="w_article_baip_1254-0714_1850_num_01_005_974_tei_2156">
          		<txm:form>Paris</txm:form>
          	</w>
           
        • fichier annotation :
          <TEI xmlns="http://www.tei-c.org/ns/1.0">
              <teiHeader>
                  <fileDesc>
                      <titleStmt>
                          <title>Title</title>
                      </titleStmt>
                      <publicationStmt>
                          <p>Publication Information à renseigner</p>
                      </publicationStmt>
                      <sourceDesc>
                          <p>Ce document permet l'annotation sémantique de tous les textes, par auteur</p>
                      </sourceDesc>
                      <encodingDesc>
                          <projectDesc>
                              <p>Annotations created by ANNOTATOR, for the use in Symogih XML platform</p>
                          </projectDesc> 
                      </encodingDesc>            
                  </fileDesc>
              </teiHeader>
              <text>
                  <body>
                      <div>
                          <div>
                              <!-- La date dans le header indique la date d'annotation -->
                              <head>
                                  <date type="annotation_date" when="2016-06-16"/>
                              </head>
                              <span type="named_entities_identifications" subtype="name" ana="CoAc56389"
                                    target="#w_article_baip_1254-0714_1850_num_01_005_974_tei_2152 
                                            #w_article_baip_1254-0714_1850_num_01_005_974_tei_2153 
                                            #w_article_baip_1254-0714_1850_num_01_005_974_tei_2154 
                                            #w_article_baip_1254-0714_1850_num_01_005_974_tei_2155 
                                            #w_article_baip_1254-0714_1850_num_01_005_974_tei_2156" />
                          </div>
                      </div>
                   </body>
                </text>
           </TEI>
public/annotation/specs_export_xml/symogih.txt · Dernière modification: 2016/10/25 18:03 par slh@ens-lyon.fr