UMR LARHRA

Cette page sert au suivi du projet associant l'UMR LARHRA et l'UMR IHRIM pour développer des relations entre la plateforme SyMoGIH (Système Modulaire de Gestion de l’Information Historique, site web http://symogih.org, site wiki https://groupes.renater.fr/wiki/symogih) et la plateforme TXM. Le projet BHE est un cadre d'expérimentation sur le corpus BAIP de livraisons mensuelles du “Bulletin administratif de l’Instruction publique”.

Dans la mesure où cette page est pour l'instant accessible publiquement, il est recommandé de maintenir un minimum d'anonymat.

Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.

Projet BHE

Le projet Bibliothèque historique de l'éducation (BHE) dispose d'un espace dédié (accès restreint).

Le PHN du LARHRA a son propre wiki de suivi (accès restreint). Il mobilise potentiellement FB, SG, VA et SB.

L'équipe Cactus de l'IHRIM utilise cette page de suivi et mobilise potentiellement SH, BP, MD?, AL.

Descriptif du corpus BAIP

Le corpus d'un peu plus de 2 millions d'occurrences s'étend sur 11 années de parution. Il est numérisé par Persée et produit sous deux formes XML-TEI propres à Persée :

  • A) une version complète du corpus BAIP où chaque mois correspond à un tei:text :
    • archive : baip.zip
    • commentaire : un fichier TEI par numéro
  • B) une version segmentée partielle du BAIP où les rubriques situées à l'intérieur d'un mensuel correspondent à un tei:text (cette version est en cours de production, et sera finalisée au début de l'été 2015) :
    • archive : baip_1854_59-60_gen2015-02-20.zip
    • commmentaire : fichiers TEI (et METS) générés pour les numéros 59 et 60 du BAIP (Numéros 1854, 59 et 60 segmentés). Ces deux fascicules ont subi l'intégralité de la chaîne Persée avec une documentation fine.

Les deux versions du corpus ont été déposées dans le répertoire partagé de projets Cactus : '///Projets/Textométrie/SpUV/BHE'.

Le corpus numérisé est par ailleurs accessible à partir d'une connexion avec l'application jGalith de Persée.

Les images de pages sont en ligne

Import du corpus BAIP dans TXM

Étapes

Étape 0

Un premier objectif est de réaliser une première version d'import du corpus complet, pour la faire circuler auprès des partenaires utilisant TXM en local ou à distance en l'hébergeant temporairement sous contrôle d'accès dans le portail TXM de l'équipe Cactus.

Étape 1

Un deuxième objectif consiste à développer dans TXM la possibilité d'annoter des séquences de mots par des catégories sémantiques de SyMoGIH (exemples d'entités).

Étape 2

Un troisième objectif consiste à développer dans TXM la possibilité d'exporter le corpus annoté en fonction des spécifications pour un encodage TEI propre à la sémantique SyMoGIH.

Recettes

Cette section concerne les recettes des différents chantiers du projet de liaison.

Recette étape 0

La recette valide en utilisant et vérifiant les versions successives du corpus BHE importé dans TXM.

Les versions 1 et 2 ont été diffusées et testées.

Recette étape 1

La recette valide le premier prototype de TXM permettant l'annotation SyMoGIH : Recette BETA de l'étape 1 du chantier annotation SyMoGIH avec TXM, 7 Juillet 2016

Recette étape 2

La recette valide la capacité à exporter les annotations SyMoGIH depuis TXM vers la plateforme XML du PHN.

  • il faut être connecté à Internet pour toute la durée de la recette
  • il faut avoir un compte SyMoGIH
  • télécharger le corpus du roman « Voyage en 80 jours » de Jules Vernes (TDM80JS.txm) préparé pour la recette : https://sourceforge.net/projects/txm/files/corpora/tdm80j/TDM80JS.txm/download
  • lancer TXM 0.7.7
  • passer le niveau de mise à jour à « BETA »
    • menu « Outils / Préférences »
      • rubrique « TXM / Avancé »
      • Mettre le champ « Niveau de mise à jour » à la valeur « BETA »
  • lancer la mise à jour 0.7.8 BETA
    • menu « Fichier / Vérifier les mises à jour »
    • installer la mise à jour « TXM 0.7.8 BETA » (avec redémarrage)
  • charger le corpus TDM80JS.txm dans TXM
  • activer le mode d'annotation 'Avancé' dans les préférences TXM > Utilisateur > Annotation
  • annoter le lieu Paris
    • faire la concordance du mot "Paris"
    • lancer l'annotation en cliquant sur le bouton crayon
      • lors du premier accès, le site du référentiel SyMoGIH vous demande de vous connecter :
        → renseigner votre login et mot de passe SyMoGIH
    • dans la barre d'outils d'annotation
  • annoter la personne “James Forster”
    • faire la concordance de la séquence "James" "Forster"
    • lancer l'annotation en cliquant sur le bouton crayon
    • dans la barre d'outils d'annotation
  • exporter les annotations
    • sélectionner le corpus TDM80JS
    • lancer la commande 'Fichier > Exporter > Annotations au format XML-TEI…'
      • choisir le fichier zip à créer ou à remplacer
    • l'archive contient un répertoire des fichiers suivants :
      • le fichier 'tdm80js_<identifiant-utilisateur>_annotations.xml' contient les annotations :

<?xml version="1.0" ?><TEI><teiHeader><fileDesc><titleStmt><title>tdm80j</title></titleStmt><publicationStmt><p>PUBLICATION INFO à renseigner</p></publicationStmt><sourceDesc><p>Ce document permet l'annotation sémantique de tous les textes, par auteur</p></sourceDesc></fileDesc><encodingDesc><projectDesc><p>Annotations created by mdecorde, for the use in Symogih XML platform</p></projectDesc></encodingDesc></teiHeader><text><body>
<div>
<div>
<head><date type="annotation_date" when="2016-10-27"></date></head>
<span type="named_entities_identifications" ana="Actr54985" target="#w_tdm80j_1373 #w_tdm80j_1374"><!--type=Actr--></span>
<span type="named_entities_identifications" ana="Actr54985" target="#w_tdm80j_1534 #w_tdm80j_1535"><!--type=Actr--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_1691"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="Actr54985" target="#w_tdm80j_1972 #w_tdm80j_1973"><!--type=Actr--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_2464"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_6862"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_7366"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_11591"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_11604"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_11747"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_12065"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_16793"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_50890"><!--type=NaPl--></span>
<span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_55395"><!--type=NaPl--></span>
</div>
</div></body></text></TEI>

  • le fichier 'tdm80j.xml' contient le texte avec les mots encodés nécessaires à l'ancrage des annotations

<?xml version="1.0" ?>
<TEI>
 <teiHeader>...</teiHeader>
 <text>
   <div type="chapter" id="div1" part="N" org="uniform" sample="complete">
     <head/>
     <p part="N">
       <w id="w_tdm80j_2460">
           <txm:form>un</txm:form>
           <txm:ana resp="none" type="#n">2460</txm:ana>
           <txm:ana resp="#txm" type="#frpos">DET:ART</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">un</txm:ana>
       </w>
       <w id="w_tdm80j_2461">
           <txm:form>vrai</txm:form>
           <txm:ana resp="none" type="#n">2461</txm:ana>
           <txm:ana resp="#txm" type="#frpos">ADJ</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">vrai</txm:ana>
       </w>
       <w id="w_tdm80j_2462">
           <txm:form>Parisien</txm:form>
           <txm:ana resp="none" type="#n">2462</txm:ana>
           <txm:ana resp="#txm" type="#frpos">NOM</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">parisien</txm:ana>
       </w>
       <w id="w_tdm80j_2463">
           <txm:form>de</txm:form>
           <txm:ana resp="none" type="#n">2463</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PRP</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">de</txm:ana>
       </w>
       <w id="w_tdm80j_2464">
           <txm:form>Paris</txm:form>
           <txm:ana resp="none" type="#n">2464</txm:ana>
           <txm:ana resp="#txm" type="#frpos">NAM</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">Paris</txm:ana>
       </w>
       <w id="w_tdm80j_2465">
           <txm:form>,</txm:form>
           <txm:ana resp="none" type="#n">2465</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PUN</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">,</txm:ana>
       </w>
       <w id="w_tdm80j_2466">
           <txm:form>depuis</txm:form>
           <txm:ana resp="none" type="#n">2466</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PRP</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">depuis</txm:ana>
       </w>
       <w id="w_tdm80j_2467">
           <txm:form>cinq</txm:form>
           <txm:ana resp="none" type="#n">2467</txm:ana>
           <txm:ana resp="#txm" type="#frpos">NUM</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">cinq</txm:ana>
       </w>
       <w id="w_tdm80j_2468">
           <txm:form>ans</txm:form>
           <txm:ana resp="none" type="#n">2468</txm:ana>
           <txm:ana resp="#txm" type="#frpos">NOM</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">an</txm:ana>
       </w>
       <w id="w_tdm80j_2469">
           <txm:form>qu’</txm:form>
           <txm:ana resp="none" type="#n">2469</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PRO:REL</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">que</txm:ana>
       </w>
       <w id="w_tdm80j_2470">
           <txm:form>il</txm:form>
           <txm:ana resp="none" type="#n">2470</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PRO:PER</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">il</txm:ana>
       </w>
       <w id="w_tdm80j_2471">
           <txm:form>habitait</txm:form>
           <txm:ana resp="none" type="#n">2471</txm:ana>
           <txm:ana resp="#txm" type="#frpos">VER:impf</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">habiter</txm:ana>
       </w>
       . . .
      </p>
     </div>
     </text>
 </TEI>

Réunions


Retour à la liste des projets.

public/umr_larhra_projet_bhe.txt · Dernière modification: 2016/10/27 18:16 par slh@ens-lyon.fr