Outils pour utilisateurs

Outils du site


public:umr_larhra_projet_bhe

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Dernière révision Les deux révisions suivantes
public:umr_larhra_projet_bhe [2016/10/27 10:30]
slh@ens-lyon.fr
public:umr_larhra_projet_bhe [2017/04/07 16:21]
slh@ens-lyon.fr
Ligne 15: Ligne 15:
 L'​équipe Cactus de l'​IHRIM utilise cette page de suivi et mobilise potentiellement SH, BP, MD?, AL. L'​équipe Cactus de l'​IHRIM utilise cette page de suivi et mobilise potentiellement SH, BP, MD?, AL.
  
-===== Descriptif du corpus BAIP ===== +  ​* [[bhe_corpus_baip|Corpus ​BAIP]] 
- +  * [[bhe_developpements|Développements]]
-Le corpus d'un peu plus de 2 millions d'​occurrences s'​étend sur 11 années de parution. Il est numérisé par Persée et produit sous deux formes XML-TEI propres à Persée : +
-  ​A) une version complète du corpus BAIP où chaque mois correspond à un tei:text : +
-    * archive : baip.zip +
-    * commentaire : un fichier TEI par numéro +
-  * B) une version segmentée partielle du BAIP où les rubriques situées à l'​intérieur d'un mensuel correspondent à un tei:text (cette version est en cours de production, et sera finalisée au début de l'​été 2015) : +
-    * archive : baip_1854_59-60_gen2015-02-20.zip +
-    * commmentaire : //fichiers TEI (et METS) générés pour les numéros 59 et 60 du BAIP (Numéros 1854, 59 et 60 segmentés). Ces deux fascicules ont subi l'​intégralité de la chaîne Persée avec une documentation fine.// +
- +
-Les deux versions du corpus ont été déposées dans le répertoire partagé de projets Cactus : '​%%///​Projets/​Textométrie/​SpUV/​BHE%%'​. +
- +
-Le corpus numérisé est par ailleurs accessible à partir d'une connexion avec l'​application jGalith de Persée. +
- +
-[[public:​umr_larhra_projet_bhe_images|Les images de pages sont en ligne]] +
- +
-===== Import du corpus BAIP dans TXM ===== +
- +
-Voir le [[public:​umr_larhra_projet_bhe:​import_baip|chantier d'​import du corpus ​BAIP]]+
- +
-===== Planification ===== +
- +
-==== Étape 0 ==== +
- +
-Un premier objectif est de réaliser une première version d'​import du corpus complet, pour la faire circuler auprès des partenaires utilisant TXM en local ou à distance en l'​hébergeant temporairement sous contrôle d'​accès dans le portail TXM de l'​équipe Cactus. +
- +
-==== Étape 1 ==== +
- +
-Un deuxième objectif consiste à développer dans TXM la possibilité d'​annoter des séquences de mots par des catégories sémantiques de SyMoGIH ([[bhe_tests_annoter|exemples d'​entités]]). +
- +
-Prototype de TXM 0.7.7 permettant l'​annotation d'​entités SyMoGIH par concordance : +
-  * [[https://​groupes.renater.fr/​wiki/​txm-info/​public/​annotation/​specs_manual_annotation|Spécifications générales de l'​annotation]] +
-    * [[https://​groupes.renater.fr/​wiki/​txm-info/​public/​annotation/​specs_assisted_annotation/​specs_annotation_concordance|Spécification d'​annotation par concordances]] (les balises [V1] marquent les choix de l'​étape 1) +
-  * Planification du développement +
-    * [[http://​forge.cbp.ens-lyon.fr/​redmine/​versions/​39|Étape 1]] +
-  * Planification de la livraison +
-    * recette de livraison, qui comprend : +
-      * la mise à jour TXM 0.7.8 ALPHA (puis BETA) +
-      * l'​utilisation d'une version V2 du corpus binaire BAIP pré-équipé avec : +
-        * l'​accès au référentiel Symogih +
-        * des éditions synoptiques édition+facsimilé +
- +
-==== Étape 2 ==== +
- +
-Un troisième objectif consiste à développer dans TXM la possibilité d'​exporter le corpus annoté d'​après les [[https://​groupes.renater.fr/​wiki/​symogih/​symogih_manuel/​principes_pour_le_balisage_semantique|spécifications pour un encodage TEI propre à la sémantique SyMoGIH]]. +
-  * [[bhe_specs_encodage_export|Discussion]] +
-  * [[https://​groupes.renater.fr/​wiki/​txm-info/​public/​annotation/​specs_export_xml/​symogih|Spécifications]] +
- +
-===== Recettes ===== +
- +
-Cette section concerne les recettes des différents chantiers du projet de liaison. +
- +
-==== Recette étape 0 ==== +
- +
-La recette valide en utilisant et vérifiant les versions successives du corpus BHE importé dans TXM. +
- +
-Les versions 1 et 2 ont été diffusées et testées. +
- +
-==== Recette étape 1 ==== +
- +
-La recette valide le premier prototype de TXM permettant l'​annotation SyMoGIH : {{:​public:​bhe-txm-symogih-recette-e_tape-1-v7.pdf|Recette BETA de l'​étape 1 du +
-chantier annotation SyMoGIH avec TXM, 7 Juillet 2016}} +
- +
-==== Recette étape 2 ==== +
- +
-La recette valide la capacité à exporter les annotations SyMoGIH depuis TXM vers la plateforme XML du PHN. +
- +
-  * il faut être connecté à Internet pour toute la durée de la recette +
-  * il faut avoir un compte SyMoGIH +
-  * télécharger le corpus du roman « Voyage en 80 jours » de Jules Vernes (TDM80JS.txm) préparé pour la recette : [[https://​sourceforge.net/​projects/​txm/​files/​corpora/​tdm80j/​TDM80JS.txm/​download]] +
-  * lancer TXM 0.7.7 +
-  * passer le niveau de mise à jour à « BETA » +
-    * menu « Outils / Préférences » +
-      * rubrique « TXM / Avancé » +
-      * Mettre le champ « Niveau de mise à jour » à la valeur « BETA » +
-  * lancer la mise à jour 0.7.8 BETA +
-    * menu « Fichier / Vérifier les mises à jour » +
-    * installer la mise à jour « TXM 0.7.8 BETA » (avec redémarrage) +
-  * charger le corpus TDM80JS.txm dans TXM +
-  * activer le mode d'​annotation '​Avancé'​ dans les préférences TXM > Utilisateur > Annotation +
-  * annoter le lieu Paris +
-    * faire la concordance du mot %%"​Paris"​%% +
-    * lancer l'​annotation en cliquant sur le bouton crayon +
-      * lors du premier accès, le site du référentiel SyMoGIH vous demande de vous connecter :\\ -> renseigner votre login et mot de passe SyMoGIH\\ -> **ACTUELLEMENT JE NE DÉPASSE PAS CE STADE SUR MON PORTABLE** : le clic sur le bouton crayon provoque ces [[retour_chantier_symogih_recette_2_connexion_console_Paris_OK|messages dans la console]] +
-    * dans la barre d'​outils d'​annotation +
-      * choisir le type '​Lieux'​ +
-      * choisir la valeur '​NaPl2085'​ (d'​après [[http://​symogih.org/?​q=named-places-list]]) +
-      * remplacer '​lignes sélectionnées'​ par '​toutes les lignes'​ +
-      * cliquer sur '​OK'​\\ -> **ACTUELLEMENT JE NE DÉPASSE PAS CE STADE SUR MON PC DE BUREAU** : le clic sur '​OK'​ provoque cette [[retour_chantier_symogih_recette_2_stacktrace_Paris_OK|stacktrace]] +
-  * annoter la personne "James Forster"​ +
-    * faire la concordance de la séquence %%"​James"​ "​Forster"​%% +
-    * lancer l'​annotation en cliquant sur le bouton crayon +
-    * dans la barre d'​outils d'​annotation +
-      * choisir la catégorie '​Acteurs'​ +
-      * choisir la valeur '​Actr54985'​ (faisons comme si c'​était [[http://​symogih.org/?​q=actor-record/​54985]]) +
-      * choisir '​toutes les lignes'​ +
-      * cliquer sur '​OK'​ +
-  * exporter les annotations +
-    * sélectionner le corpus TDM80J +
-    * lancer la commande '​Fichier > Exporter les annotations'​ (l'​enregistrement est inclus dans l'​export,​ si nécessaire) +
-      * choisir le dossier (à créer ou déjà crée) dans lequel on exporte +
-  * les fichiers résultants se trouvent dans le répertoire choisi précédemment +
-    * le fichier '​tdm80j_<​identifiant-utilisateur>​_annotation.xml'​ contient les annotations en standoff : +
-<​code>​ +
-<?xml version="​1.0"​ ?> +
-<​TEI>​ +
-    <​teiHeader>​ +
-        <​fileDesc>​ +
-            <​titleStmt>​ +
-                <​title>​tdm80j</​title>​ +
-            </​titleStmt>​ +
-            <​publicationStmt>​ +
-                <​p>​PUBLICATION INFO à renseigner</​p>​ +
-            </​publicationStmt>​ +
-            <​sourceDesc>​ +
-                <p>Ce document permet l'​annotation sémantique de tous les textes</​p>​ +
-            </​sourceDesc>​ +
-        </​fileDesc>​ +
-        <​encodingDesc>​ +
-            <​projectDesc>​ +
-                <​p>​Annotations created by gazelledess,​ for the use in Symogih XML platform</​p>​ +
-            </​projectDesc>​ +
-        </​encodingDesc>​ +
-    </​teiHeader>​ +
-    <​text>​ +
-        <​body>​ +
-            <​div>​ +
-                <​div>​ +
-                    <​head>​ +
-                        <date type="​annotation_date"​ when="​2016-10-03"/>​ +
-                    </​head>​ +
-                    <span type="​named_entities_identifications"​ ana="​NaPl2085"​ +
-                        target="#​w_tdm80j_2464"><​!--type=NaPl--></​span>​ +
-                +
-              </​div>​ +
-             </​div>​ +
- </​body>​ +
-     </​text>​ +
- </​TEI>​ +
-</​code>​ +
- +
-  * le fichier '​tdm80j.xml'​ contient le texte avec les mots encodés pour l'​ancrage des annotations +
-<​code>​ +
-<?xml version="​1.0"​ ?> +
-<​TEI>​ +
- <​teiHeader>​...</​teiHeader>​ +
- <​text>​ +
-   <​div type="​chapter"​ id="​div1"​ part="​N"​ org="​uniform"​ sample="​complete">​ +
-     <​head/>​ +
-     <p part="​N">​ +
-       <w id="​w_tdm80j_2460">​ +
-           <​txm:​form>​un</​txm:​form>​ +
-           <​txm:​ana resp="​none"​ type="#​n">​2460</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frpos">​DET:​ART</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frlemma">​un</​txm:​ana>​ +
-       </​w>​ +
-       <w id="​w_tdm80j_2461">​ +
-           <​txm:​form>​vrai</​txm:​form>​ +
-           <​txm:​ana resp="​none"​ type="#​n">​2461</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frpos">​ADJ</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frlemma">​vrai</​txm:​ana>​ +
-       </​w>​ +
-       <w id="​w_tdm80j_2462">​ +
-           <​txm:​form>​Parisien</​txm:​form>​ +
-           <​txm:​ana resp="​none"​ type="#​n">​2462</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frpos">​NOM</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frlemma">​parisien</​txm:​ana>​ +
-       </​w>​ +
-       <w id="​w_tdm80j_2463">​ +
-           <​txm:​form>​de</​txm:​form>​ +
-           <​txm:​ana resp="​none"​ type="#​n">​2463</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frpos">​PRP</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frlemma">​de</​txm:​ana>​ +
-       </​w>​ +
-       <w id="​w_tdm80j_2464">​ +
-           <​txm:​form>​Paris</​txm:​form>​ +
-           <​txm:​ana resp="​none"​ type="#​n">​2464</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frpos">​NAM</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frlemma">​Paris</​txm:​ana>​ +
-       </​w>​ +
-       <w id="​w_tdm80j_2465">​ +
-           <​txm:​form>,</​txm:​form>​ +
-           <​txm:​ana resp="​none"​ type="#​n">​2465</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frpos">​PUN</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frlemma">,</​txm:​ana>​ +
-       </​w>​ +
-       <w id="​w_tdm80j_2466">​ +
-           <​txm:​form>​depuis</​txm:​form>​ +
-           <​txm:​ana resp="​none"​ type="#​n">​2466</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frpos">​PRP</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frlemma">​depuis</​txm:​ana>​ +
-       </​w>​ +
-       <w id="​w_tdm80j_2467">​ +
-           <​txm:​form>​cinq</​txm:​form>​ +
-           <​txm:​ana resp="​none"​ type="#​n">​2467</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frpos">​NUM</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frlemma">​cinq</​txm:​ana>​ +
-       </​w>​ +
-       <w id="​w_tdm80j_2468">​ +
-           <​txm:​form>​ans</​txm:​form>​ +
-           <​txm:​ana resp="​none"​ type="#​n">​2468</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frpos">​NOM</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frlemma">​an</​txm:​ana>​ +
-       </​w>​ +
-       <w id="​w_tdm80j_2469">​ +
-           <​txm:​form>​qu’</​txm:​form>​ +
-           <​txm:​ana resp="​none"​ type="#​n">​2469</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frpos">​PRO:​REL</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frlemma">​que</​txm:​ana>​ +
-       </​w>​ +
-       <w id="​w_tdm80j_2470">​ +
-           <​txm:​form>​il</​txm:​form>​ +
-           <​txm:​ana resp="​none"​ type="#​n">​2470</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frpos">​PRO:​PER</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frlemma">​il</​txm:​ana>​ +
-       </​w>​ +
-       <w id="​w_tdm80j_2471">​ +
-           <​txm:​form>​habitait</​txm:​form>​ +
-           <​txm:​ana resp="​none"​ type="#​n">​2471</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frpos">​VER:​impf</​txm:​ana>​ +
-           <​txm:​ana resp="#​txm"​ type="#​frlemma">​habiter</​txm:​ana>​ +
-       </​w>​ +
-      </​p>​ +
-     </​div>​ +
-     </​text>​ +
- </​TEI>​ +
-</​code>​+
  
 ====== Réunions ====== ====== Réunions ======
public/umr_larhra_projet_bhe.txt · Dernière modification: 2017/04/07 16:24 par slh@ens-lyon.fr