Descriptif du corpus BAIP

Le corpus d'un peu plus de 2 millions d'occurrences s'étend sur 11 années de parution. Il est numérisé par Persée et produit sous deux formes XML-TEI propres à Persée :

  • A) une version complète du corpus BAIP où chaque mois correspond à un tei:text :
    • archive : baip.zip
    • commentaire : un fichier TEI par numéro
  • B) une version segmentée partielle du BAIP où les rubriques situées à l'intérieur d'un mensuel correspondent à un tei:text (cette version est en cours de production, et sera finalisée au début de l'été 2015) :
    • archive : baip_1854_59-60_gen2015-02-20.zip
    • commmentaire : fichiers TEI (et METS) générés pour les numéros 59 et 60 du BAIP (Numéros 1854, 59 et 60 segmentés). Ces deux fascicules ont subi l'intégralité de la chaîne Persée avec une documentation fine.

Les deux versions du corpus ont été déposées dans le répertoire partagé de projets Cactus : '///Projets/Textométrie/SpUV/BHE'.

Le corpus numérisé est par ailleurs accessible à partir d'une connexion avec l'application jGalith de Persée.

Les images de pages sont en ligne

Import du corpus BAIP dans TXM

public/bhe_corpus_baip.txt · Dernière modification: 2017/04/07 16:21 par slh@ens-lyon.fr