Développements

Étape 0

Un premier objectif est de réaliser une première version d'import du corpus complet, pour la faire circuler auprès des partenaires utilisant TXM en local ou à distance en l'hébergeant temporairement sous contrôle d'accès dans le portail TXM de l'équipe Cactus.

Étape 1

Un deuxième objectif consiste à développer dans TXM la possibilité d'annoter des séquences de mots par des catégories sémantiques de SyMoGIH (exemples d'entités).

Étape 2

Un troisième objectif consiste à développer dans TXM la possibilité d'exporter le corpus annoté en fonction des spécifications pour un encodage TEI propre à la sémantique SyMoGIH.

Recettes

Cette section concerne les recettes des différents chantiers du projet de liaison.

Recette étape 0

La recette valide en utilisant et vérifiant les versions successives du corpus BHE importé dans TXM.

Les versions 1 et 2 ont été diffusées et testées.

Recette étape 1

La recette valide le premier prototype de TXM permettant l'annotation SyMoGIH : Recette BETA de l'étape 1 du chantier annotation SyMoGIH avec TXM, 7 Juillet 2016

Recette étape 2

La recette valide la capacité à exporter les annotations SyMoGIH depuis TXM vers la plateforme XML du PHN.

  • il faut être connecté à Internet pour toute la durée de la recette
  • il faut avoir un compte SyMoGIH
  • télécharger le corpus du roman « Voyage en 80 jours » de Jules Vernes (TDM80JS.txm) préparé pour la recette : https://sourceforge.net/projects/txm/files/corpora/tdm80j/TDM80JS.txm/download
  • lancer TXM 0.7.7
  • passer le niveau de mise à jour à « BETA »
    • menu « Outils / Préférences »
      • rubrique « TXM / Avancé »
      • Mettre le champ « Niveau de mise à jour » à la valeur « BETA »
  • lancer la mise à jour 0.7.8 BETA
    • menu « Fichier / Vérifier les mises à jour »
    • installer la mise à jour « TXM 0.7.8 BETA » (avec redémarrage)
  • charger le corpus TDM80JS.txm dans TXM
  • activer le mode d'annotation 'Avancé' dans les préférences TXM > Utilisateur > Annotation
  • annoter le lieu Paris
    • faire la concordance du mot "Paris"
    • lancer l'annotation en cliquant sur le bouton crayon
      • lors du premier accès, le site du référentiel SyMoGIH vous demande de vous connecter :
        → renseigner votre login et mot de passe SyMoGIH
    • dans la barre d'outils d'annotation
  • annoter la personne “James Forster”
    • faire la concordance de la séquence "James" "Forster"
    • lancer l'annotation en cliquant sur le bouton crayon
    • dans la barre d'outils d'annotation
  • exporter les annotations
    • sélectionner le corpus TDM80JS
    • lancer la commande 'Fichier > Exporter > Annotations au format XML-TEI…'
      • choisir le fichier zip à créer ou à remplacer
    • l'archive contient un répertoire des fichiers suivants :
      • le fichier 'tdm80js_<identifiant-utilisateur>_annotations.xml' contient les annotations :

<?xml version="1.0" ?><TEI><teiHeader><fileDesc><titleStmt><title>tdm80j</title></titleStmt><publicationStmt><p>PUBLICATION INFO à renseigner</p></publicationStmt><sourceDesc><p>Ce document permet l'annotation sémantique de tous les textes, par auteur</p></sourceDesc></fileDesc><encodingDesc><projectDesc><p>Annotations created by mdecorde, for the use in Symogih XML platform</p></projectDesc></encodingDesc></teiHeader><text><body>
<div>
<div>
<head><date type="annotation_date" when="2016-10-27"></date></head>
<span type="named_entities_identifications" ana="Actr54985" target="#w_tdm80j_1373 #w_tdm80j_1374"><!--type=Actr--></span>
<span type="named_entities_identifications" ana="Actr54985" target="#w_tdm80j_1534 #w_tdm80j_1535"><!--type=Actr--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_1691"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="Actr54985" target="#w_tdm80j_1972 #w_tdm80j_1973"><!--type=Actr--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_2464"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_6862"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_7366"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_11591"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_11604"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_11747"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_12065"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_16793"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_50890"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_55395"><!--type=NaPl--></span>
</div>
</div></body></text></TEI>

  • le fichier 'tdm80j.xml' contient le texte avec les mots encodés nécessaires à l'ancrage des annotations

<?xml version="1.0" ?>
<TEI>
 <teiHeader>...</teiHeader>
 <text>
   <div type="chapter" id="div1" part="N" org="uniform" sample="complete">
     <head/>
     <p part="N">
       <w id="w_tdm80j_2460">
           <txm:form>un</txm:form>
           <txm:ana resp="none" type="#n">2460</txm:ana>
           <txm:ana resp="#txm" type="#frpos">DET:ART</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">un</txm:ana>
       </w>
       <w id="w_tdm80j_2461">
           <txm:form>vrai</txm:form>
           <txm:ana resp="none" type="#n">2461</txm:ana>
           <txm:ana resp="#txm" type="#frpos">ADJ</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">vrai</txm:ana>
       </w>
       <w id="w_tdm80j_2462">
           <txm:form>Parisien</txm:form>
           <txm:ana resp="none" type="#n">2462</txm:ana>
           <txm:ana resp="#txm" type="#frpos">NOM</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">parisien</txm:ana>
       </w>
       <w id="w_tdm80j_2463">
           <txm:form>de</txm:form>
           <txm:ana resp="none" type="#n">2463</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PRP</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">de</txm:ana>
       </w>
       <w id="w_tdm80j_2464">
           <txm:form>Paris</txm:form>
           <txm:ana resp="none" type="#n">2464</txm:ana>
           <txm:ana resp="#txm" type="#frpos">NAM</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">Paris</txm:ana>
       </w>
       <w id="w_tdm80j_2465">
           <txm:form>,</txm:form>
           <txm:ana resp="none" type="#n">2465</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PUN</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">,</txm:ana>
       </w>
       <w id="w_tdm80j_2466">
           <txm:form>depuis</txm:form>
           <txm:ana resp="none" type="#n">2466</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PRP</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">depuis</txm:ana>
       </w>
       <w id="w_tdm80j_2467">
           <txm:form>cinq</txm:form>
           <txm:ana resp="none" type="#n">2467</txm:ana>
           <txm:ana resp="#txm" type="#frpos">NUM</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">cinq</txm:ana>
       </w>
       <w id="w_tdm80j_2468">
           <txm:form>ans</txm:form>
           <txm:ana resp="none" type="#n">2468</txm:ana>
           <txm:ana resp="#txm" type="#frpos">NOM</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">an</txm:ana>
       </w>
       <w id="w_tdm80j_2469">
           <txm:form>qu’</txm:form>
           <txm:ana resp="none" type="#n">2469</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PRO:REL</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">que</txm:ana>
       </w>
       <w id="w_tdm80j_2470">
           <txm:form>il</txm:form>
           <txm:ana resp="none" type="#n">2470</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PRO:PER</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">il</txm:ana>
       </w>
       <w id="w_tdm80j_2471">
           <txm:form>habitait</txm:form>
           <txm:ana resp="none" type="#n">2471</txm:ana>
           <txm:ana resp="#txm" type="#frpos">VER:impf</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">habiter</txm:ana>
       </w>
       . . .
      </p>
     </div>
     </text>
 </TEI>

public/bhe_developpements.txt · Dernière modification: 2017/04/07 16:22 par slh@ens-lyon.fr