Outils pour utilisateurs

Outils du site


public:umr_larhra_projet_bhe

Ceci est une ancienne révision du document !


UMR LARHRA

Cette page sert au suivi du projet associant l'UMR LARHRA et l'UMR IHRIM pour développer des relations entre la plateforme SyMoGIH (Système Modulaire de Gestion de l’Information Historique, site web http://symogih.org, site wiki https://groupes.renater.fr/wiki/symogih) et la plateforme TXM. Le projet BHE est un cadre d'expérimentation sur le corpus BAIP de livraisons mensuelles du “Bulletin administratif de l’Instruction publique”.

Dans la mesure où cette page est pour l'instant accessible publiquement, il est recommandé de maintenir un minimum d'anonymat.

Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.

Projet BHE

Le projet Bibliothèque historique de l'éducation (BHE) dispose d'un espace dédié (accès restreint).

Le PHN du LARHRA a son propre wiki de suivi (accès restreint). Il mobilise potentiellement FB, SG, VA et SB.

L'équipe Cactus de l'IHRIM utilise cette page de suivi et mobilise potentiellement SH, BP, MD?, AL.

Descriptif du corpus BAIP

Le corpus d'un peu plus de 2 millions d'occurrences s'étend sur 11 années de parution. Il est numérisé par Persée et produit sous deux formes XML-TEI propres à Persée :

  • A) une version complète du corpus BAIP où chaque mois correspond à un tei:text :
    • archive : baip.zip
    • commentaire : un fichier TEI par numéro
  • B) une version segmentée partielle du BAIP où les rubriques situées à l'intérieur d'un mensuel correspondent à un tei:text (cette version est en cours de production, et sera finalisée au début de l'été 2015) :
    • archive : baip_1854_59-60_gen2015-02-20.zip
    • commmentaire : fichiers TEI (et METS) générés pour les numéros 59 et 60 du BAIP (Numéros 1854, 59 et 60 segmentés). Ces deux fascicules ont subi l'intégralité de la chaîne Persée avec une documentation fine.

Les deux versions du corpus ont été déposées dans le répertoire partagé de projets Cactus : '///Projets/Textométrie/SpUV/BHE'.

Le corpus numérisé est par ailleurs accessible à partir d'une connexion avec l'application jGalith de Persée.

Les images de pages sont en ligne

Import du corpus BAIP dans TXM

Planification

Étape 0

Un premier objectif est de réaliser une première version d'import du corpus complet, pour la faire circuler auprès des partenaires utilisant TXM en local ou à distance en l'hébergeant temporairement sous contrôle d'accès dans le portail TXM de l'équipe Cactus.

Étape 1

Un deuxième objectif consiste à développer dans TXM la possibilité d'annoter des séquences de mots par des catégories sémantiques de SyMoGIH (exemples d'entités).

Prototype de TXM 0.7.7 permettant l'annotation d'entités SyMoGIH par concordance :

Étape 2

Un troisième objectif consiste à développer dans TXM la possibilité d'exporter le corpus annoté d'après les spécifications pour un encodage TEI propre à la sémantique SyMoGIH.

Recettes

Cette section concerne les recettes des différents chantiers du projet de liaison.

Recette étape 0

La recette valide en utilisant et vérifiant les versions successives du corpus BHE importé dans TXM.

Les versions 1 et 2 ont été diffusées et testées.

Recette étape 1

La recette valide le premier prototype de TXM permettant l'annotation SyMoGIH : Recette BETA de l'étape 1 du chantier annotation SyMoGIH avec TXM, 7 Juillet 2016

Recette étape 2

La recette valide la capacité à exporter les annotations SyMoGIH depuis TXM vers la plateforme XML du PHN.

  • il faut être connecté à Internet pour toute la durée de la recette
  • il faut avoir un compte SyMoGIH
  • télécharger le corpus du roman « Voyage en 80 jours » de Jules Vernes (TDM80JS.txm) préparé pour la recette : https://sourceforge.net/projects/txm/files/corpora/tdm80j/TDM80JS.txm/download
  • lancer TXM 0.7.7
  • passer le niveau de mise à jour à « BETA »
    • menu « Outils / Préférences »
      • rubrique « TXM / Avancé »
      • Mettre le champ « Niveau de mise à jour » à la valeur « BETA »
  • lancer la mise à jour 0.7.8 BETA
    • menu « Fichier / Vérifier les mises à jour »
    • installer la mise à jour « TXM 0.7.8 BETA » (avec redémarrage)
  • charger le corpus TDM80JS.txm dans TXM
  • activer le mode d'annotation 'Avancé' dans les préférences TXM > Utilisateur > Annotation
  • annoter le lieu Paris
    • faire la concordance du mot "Paris"
    • lancer l'annotation en cliquant sur le bouton crayon
      • lors du premier accès, le site du référentiel SyMoGIH vous demande de vous connecter :
        → renseigner votre login et mot de passe SyMoGIH
        ACTUELLEMENT JE NE DÉPASSE PAS CE STADE SUR MON PORTABLE : le clic sur le bouton crayon provoque ces messages dans la console
    • dans la barre d'outils d'annotation
      • choisir le type 'Lieux'
      • choisir la valeur 'NaPl2085' (d'après http://symogih.org/?q=named-places-list)
      • remplacer 'lignes sélectionnées' par 'toutes les lignes'
      • cliquer sur 'OK'
        ACTUELLEMENT JE NE DÉPASSE PAS CE STADE SUR MON PC DE BUREAU : le clic sur 'OK' provoque cette stacktrace
  • annoter la personne “James Forster”
    • faire la concordance de la séquence "James" "Forster"
    • lancer l'annotation en cliquant sur le bouton crayon
    • dans la barre d'outils d'annotation
  • exporter les annotations
    • sélectionner le corpus TDM80J
    • lancer la commande 'Fichier > Exporter les annotations' (l'enregistrement est inclus dans l'export, si nécessaire)
      • choisir le dossier (à créer ou déjà crée) dans lequel on exporte
  • les fichiers résultants se trouvent dans le répertoire choisi précédemment
    • le fichier 'tdm80j_<identifiant-utilisateur>_annotation.xml' contient les annotations en standoff :
<?xml version="1.0" ?>
<TEI>
    <teiHeader>
        <fileDesc>
            <titleStmt>
                <title>tdm80j</title>
            </titleStmt>
            <publicationStmt>
                <p>PUBLICATION INFO à renseigner</p>
            </publicationStmt>
            <sourceDesc>
                <p>Ce document permet l'annotation sémantique de tous les textes</p>
            </sourceDesc>
        </fileDesc>
        <encodingDesc>
            <projectDesc>
                <p>Annotations created by gazelledess, for the use in Symogih XML platform</p>
            </projectDesc>
        </encodingDesc>
    </teiHeader>
    <text>
        <body>
            <div>
                <div>
                    <head>
                        <date type="annotation_date" when="2016-10-03"/>
                    </head>
                    <span type="named_entities_identifications" ana="NaPl2085"
                        target="#w_tdm80j_2464"><!--type=NaPl--></span>
               
              	 </div>
             </div>
	 </body>
     </text>
 </TEI>
  • le fichier 'tdm80j.xml' contient le texte avec les mots encodés pour l'ancrage des annotations
<?xml version="1.0" ?>
<TEI>
 <teiHeader>...</teiHeader>
 <text>
   <div type="chapter" id="div1" part="N" org="uniform" sample="complete">
     <head/>
     <p part="N">
       <w id="w_tdm80j_2460">
           <txm:form>un</txm:form>
           <txm:ana resp="none" type="#n">2460</txm:ana>
           <txm:ana resp="#txm" type="#frpos">DET:ART</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">un</txm:ana>
       </w>
       <w id="w_tdm80j_2461">
           <txm:form>vrai</txm:form>
           <txm:ana resp="none" type="#n">2461</txm:ana>
           <txm:ana resp="#txm" type="#frpos">ADJ</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">vrai</txm:ana>
       </w>
       <w id="w_tdm80j_2462">
           <txm:form>Parisien</txm:form>
           <txm:ana resp="none" type="#n">2462</txm:ana>
           <txm:ana resp="#txm" type="#frpos">NOM</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">parisien</txm:ana>
       </w>
       <w id="w_tdm80j_2463">
           <txm:form>de</txm:form>
           <txm:ana resp="none" type="#n">2463</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PRP</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">de</txm:ana>
       </w>
       <w id="w_tdm80j_2464">
           <txm:form>Paris</txm:form>
           <txm:ana resp="none" type="#n">2464</txm:ana>
           <txm:ana resp="#txm" type="#frpos">NAM</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">Paris</txm:ana>
       </w>
       <w id="w_tdm80j_2465">
           <txm:form>,</txm:form>
           <txm:ana resp="none" type="#n">2465</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PUN</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">,</txm:ana>
       </w>
       <w id="w_tdm80j_2466">
           <txm:form>depuis</txm:form>
           <txm:ana resp="none" type="#n">2466</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PRP</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">depuis</txm:ana>
       </w>
       <w id="w_tdm80j_2467">
           <txm:form>cinq</txm:form>
           <txm:ana resp="none" type="#n">2467</txm:ana>
           <txm:ana resp="#txm" type="#frpos">NUM</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">cinq</txm:ana>
       </w>
       <w id="w_tdm80j_2468">
           <txm:form>ans</txm:form>
           <txm:ana resp="none" type="#n">2468</txm:ana>
           <txm:ana resp="#txm" type="#frpos">NOM</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">an</txm:ana>
       </w>
       <w id="w_tdm80j_2469">
           <txm:form>qu’</txm:form>
           <txm:ana resp="none" type="#n">2469</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PRO:REL</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">que</txm:ana>
       </w>
       <w id="w_tdm80j_2470">
           <txm:form>il</txm:form>
           <txm:ana resp="none" type="#n">2470</txm:ana>
           <txm:ana resp="#txm" type="#frpos">PRO:PER</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">il</txm:ana>
       </w>
       <w id="w_tdm80j_2471">
           <txm:form>habitait</txm:form>
           <txm:ana resp="none" type="#n">2471</txm:ana>
           <txm:ana resp="#txm" type="#frpos">VER:impf</txm:ana>
           <txm:ana resp="#txm" type="#frlemma">habiter</txm:ana>
       </w>
      </p>
     </div>
     </text>
 </TEI>

Réunions


Retour à la liste des projets.

public/umr_larhra_projet_bhe.1477555050.txt.gz · Dernière modification: 2016/10/27 09:57 par slh@ens-lyon.fr