Table des matières

Cette page sert au suivi des projets de l'UMR HISOMA mobilisant TXM.

Dans la mesure où cette page est actuellement publique, il est recommandé de veiller à maintenir un niveau d'anonymat raisonnable. (merci de nous contacter si cette page doit évoluer vers plus de confidentialité)

Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.

Projet "La Bible de Bernard de Clairvaux"

Descriptif du projet

Contexte

L'équipe des Sources Chrétiennes est une composante du laboratoire HiSoMa “Histoire et Sources des Mondes Antiques” au sein de la Maison de l'Orient et de la Méditerranée. Elle a pour activité essentielle l'édition et la traduction d'écrits des Pères de l'Église. Les ouvrages de la collection Sources Chrétiennes sont, pour la grande majorité, bilingues, avec le texte original sur la page de gauche et la traduction française sur celle de droite. Ces ouvrages sont publiés par les Éditions du Cerf.

Corpus

Le projet “Bible de Bernard” concerne un corpus de textes au sein de la collection Sources Chrétiennes : les textes parus - et à paraître - de Bernard de Clairvaux. Ce corpus comporte une soixantaine d'ouvrages (liste sur le site de Sources Chrétiennes http://www.sources-chretiennes.mom.fr/index.php?pageid=auteurs_anciens&id=19&sourcepg=auteurs_anciens)
Le projet s'articule autour de deux axes :

Objectifs généraux

Cette partie du projet “Bible de Bernard” s'appuie sur l'encodage fin des textes et des citations scripturaires et cherche à proposer aux chercheurs un outil personnel sur poste d'interrogation et de consultation de ces textes. Cet outil devra proposer, à la lecture comme à l'interrogation, des extraits de texte du corpus Bernard de Clairvaux (textes latins) ainsi que des extraits de la Vulgate (Biblia Sacra Vulgata, édition de Weber-Gryson). L'outil réalisé dans TXM serait à mettre en relation, pour la visualisation de contextes élargis, avec la base de textes intégraux (latin + traduction) en cours de développement par un éditeur privé.

Spécifications

(Au séminaire du 29 mai 2017, on a vu l'exemple de l'édition synoptique de la Quête du Graal, disponible par exemple sur le portail de la Base de français médiéval :

Exemples de commandes et de requêtes présentés le 29 mai 2017

Remarques :

Liens documentation du langage de requête CQL (moteur CQP = Corpus Query Processor) :

Encodage du corpus

Le corpus existe sous différentes représentations.

IMPORTANT : il faut prévoir un processus pour pouvoir recharger dans TXM des versions corrigées et/ou complétées des fichiers initialement importés, dans la mesure où le corpus est à des degrés différents d'encodage. La procédure d'import dans TXM devra donc être documentée très précisément.

Textes de Bernard

Vulgate

Un ficher XML complet de la Vulgate est disponible : SF_2014-09-06_LAT_VULGATE_(BIBLIA SACRA VULGATA).xml

Ou sinon

Descriptif de l'encodage XML-TEI

L'encodage en XML-TEI des textes du corpus s'appuie sur un système d'identifiants. Le texte latin et sa traduction sont encodés exactement de la même manière ; leurs identifiants sont identiques, mais ils sont préfixés de la langue du document (lat ou fr). Chaque niveau de la structure du document est encodé. Ainsi, les <div> structurelles, mais aussi les titres, les paragraphes, les citations, les incises, les notes et les mots ont un identifiant spécifique. Cet identifiant se présente ainsi (par exemple pour un mot) : [langue du document].w.[titre abrégé du texte].[numéro du mot dans le texte]. Les identifiants des mots de la Vulgate sont : Vg.[titre abrégé du livre].[numéro de chapitre].[numéro de verset].[numéro du mot dans le verset]. Dans le texte latin, les citations scripturaires sont suivies d'une note qui renvoie précisément aux mots de la Vulgate cités.

Changements à opérer

Une XSL pré-import effectue de nombreux changements au niveau de l'encodage des textes. Il faudra l'améliorer afin qu'elle intègre les plages de versets et les versets non-consécutifs dans les identifiants des citations. Il faudra également voir pour préciser d'une manière ou d'une autre quels mots appartiennent à la Bible dans les citations, et leur numéro dans le verset correspondant. Ajout de métadonnées dans les fichiers.

Réalisations

Achevées

En cours

* Récupération du corpus Bible de Bernard en fichiers Word en vue d'un import rapide sur TXM en début de chaîne

Prévues

Recettes

–> Pour importer la Bible dans TXM :

–> Pour importer d'autres textes de Bernard :


Retour à la liste des projets.