Ceci est une ancienne révision du document !
Cette page sert au suivi du projet associant l'UMR LARHRA et l'UMR IHRIM pour développer des relations entre la plateforme SyMoGIH (Système Modulaire de Gestion de l’Information Historique, site web http://symogih.org, site wiki https://groupes.renater.fr/wiki/symogih) et la plateforme TXM. Le projet BHE est un cadre d'expérimentation sur le corpus BAIP de livraisons mensuelles du “Bulletin administratif de l’Instruction publique”.
Dans la mesure où cette page est pour l'instant accessible publiquement, il est recommandé de maintenir un minimum d'anonymat.
Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.
Le projet Bibliothèque historique de l'éducation (BHE) dispose d'un espace dédié (accès restreint).
Le PHN du LARHRA a son propre wiki de suivi (accès restreint). Il mobilise potentiellement FB, SG, VA et SB.
L'équipe Cactus de l'IHRIM utilise cette page de suivi et mobilise potentiellement SH, BP, MD?, AL.
Le corpus d'un peu plus de 2 millions d'occurrences s'étend sur 11 années de parution. Il est numérisé par Persée et produit sous deux formes XML-TEI propres à Persée :
Les deux versions du corpus ont été déposées dans le répertoire partagé de projets Cactus : '///Projets/Textométrie/SpUV/BHE'.
Le corpus numérisé est par ailleurs accessible à partir d'une connexion avec l'application jGalith de Persée.
Voir le chantier d'import du corpus BAIP.
Un premier objectif est de réaliser une première version d'import du corpus complet, pour la faire circuler auprès des partenaires utilisant TXM en local ou à distance en l'hébergeant temporairement sous contrôle d'accès dans le portail TXM de l'équipe Cactus.
Un deuxième objectif consiste à développer dans TXM la possibilité d'annoter des séquences de mots par des catégories sémantiques de SyMoGIH (exemples d'entités).
Prototype de TXM 0.7.7 permettant l'annotation d'entités SyMoGIH par concordance :
Un troisième objectif consiste à développer dans TXM la possibilité d'exporter le corpus annoté d'après les spécifications pour un encodage TEI propre à la sémantique SyMoGIH.
Cette section concerne les recettes des différents chantiers du projet de liaison.
La recette valide en utilisant et vérifiant les versions successives du corpus BHE importé dans TXM.
Les versions 1 et 2 ont été diffusées et testées.
La recette valide le premier prototype de TXM permettant l'annotation SyMoGIH : Recette BETA de l'étape 1 du chantier annotation SyMoGIH avec TXM, 7 Juillet 2016
La recette valide la capacité à exporter les annotations SyMoGIH depuis TXM vers la plateforme XML du PHN.
<?xml version="1.0" ?> <TEI> <teiHeader> <fileDesc> <titleStmt> <title>tdm80j</title> </titleStmt> <publicationStmt> <p>PUBLICATION INFO à renseigner</p> </publicationStmt> <sourceDesc> <p>Ce document permet l'annotation sémantique de tous les textes</p> </sourceDesc> </fileDesc> <encodingDesc> <projectDesc> <p>Annotations created by gazelledess, for the use in Symogih XML platform</p> </projectDesc> </encodingDesc> </teiHeader> <text> <body> <div> <div> <head> <date type="annotation_date" when="2016-10-03"/> </head> <span type="named_entities_identifications" ana="NaPl2085" target="#w_tdm80j_2464"><!--type=NaPl--></span> </div> </div> </body> </text> </TEI>
<?xml version="1.0" ?> <TEI> <teiHeader>...</teiHeader> <text> <div type="chapter" id="div1" part="N" org="uniform" sample="complete"> <head/> <p part="N"> <w id="w_tdm80j_2460"> <txm:form>un</txm:form> <txm:ana resp="none" type="#n">2460</txm:ana> <txm:ana resp="#txm" type="#frpos">DET:ART</txm:ana> <txm:ana resp="#txm" type="#frlemma">un</txm:ana> </w> <w id="w_tdm80j_2461"> <txm:form>vrai</txm:form> <txm:ana resp="none" type="#n">2461</txm:ana> <txm:ana resp="#txm" type="#frpos">ADJ</txm:ana> <txm:ana resp="#txm" type="#frlemma">vrai</txm:ana> </w> <w id="w_tdm80j_2462"> <txm:form>Parisien</txm:form> <txm:ana resp="none" type="#n">2462</txm:ana> <txm:ana resp="#txm" type="#frpos">NOM</txm:ana> <txm:ana resp="#txm" type="#frlemma">parisien</txm:ana> </w> <w id="w_tdm80j_2463"> <txm:form>de</txm:form> <txm:ana resp="none" type="#n">2463</txm:ana> <txm:ana resp="#txm" type="#frpos">PRP</txm:ana> <txm:ana resp="#txm" type="#frlemma">de</txm:ana> </w> <w id="w_tdm80j_2464"> <txm:form>Paris</txm:form> <txm:ana resp="none" type="#n">2464</txm:ana> <txm:ana resp="#txm" type="#frpos">NAM</txm:ana> <txm:ana resp="#txm" type="#frlemma">Paris</txm:ana> </w> <w id="w_tdm80j_2465"> <txm:form>,</txm:form> <txm:ana resp="none" type="#n">2465</txm:ana> <txm:ana resp="#txm" type="#frpos">PUN</txm:ana> <txm:ana resp="#txm" type="#frlemma">,</txm:ana> </w> <w id="w_tdm80j_2466"> <txm:form>depuis</txm:form> <txm:ana resp="none" type="#n">2466</txm:ana> <txm:ana resp="#txm" type="#frpos">PRP</txm:ana> <txm:ana resp="#txm" type="#frlemma">depuis</txm:ana> </w> <w id="w_tdm80j_2467"> <txm:form>cinq</txm:form> <txm:ana resp="none" type="#n">2467</txm:ana> <txm:ana resp="#txm" type="#frpos">NUM</txm:ana> <txm:ana resp="#txm" type="#frlemma">cinq</txm:ana> </w> <w id="w_tdm80j_2468"> <txm:form>ans</txm:form> <txm:ana resp="none" type="#n">2468</txm:ana> <txm:ana resp="#txm" type="#frpos">NOM</txm:ana> <txm:ana resp="#txm" type="#frlemma">an</txm:ana> </w> <w id="w_tdm80j_2469"> <txm:form>qu’</txm:form> <txm:ana resp="none" type="#n">2469</txm:ana> <txm:ana resp="#txm" type="#frpos">PRO:REL</txm:ana> <txm:ana resp="#txm" type="#frlemma">que</txm:ana> </w> <w id="w_tdm80j_2470"> <txm:form>il</txm:form> <txm:ana resp="none" type="#n">2470</txm:ana> <txm:ana resp="#txm" type="#frpos">PRO:PER</txm:ana> <txm:ana resp="#txm" type="#frlemma">il</txm:ana> </w> <w id="w_tdm80j_2471"> <txm:form>habitait</txm:form> <txm:ana resp="none" type="#n">2471</txm:ana> <txm:ana resp="#txm" type="#frpos">VER:impf</txm:ana> <txm:ana resp="#txm" type="#frlemma">habiter</txm:ana> </w> </p> </div> </text> </TEI>