Cette page sert au suivi des projets de l'UMR HISOMA mobilisant TXM.
Dans la mesure où cette page est actuellement publique, il est recommandé de veiller à maintenir un niveau d'anonymat raisonnable. (merci de nous contacter si cette page doit évoluer vers plus de confidentialité)
Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.
L'équipe des Sources Chrétiennes est une composante du laboratoire HiSoMa “Histoire et Sources des Mondes Antiques” au sein de la Maison de l'Orient et de la Méditerranée. Elle a pour activité essentielle l'édition et la traduction d'écrits des Pères de l'Église. Les ouvrages de la collection Sources Chrétiennes sont, pour la grande majorité, bilingues, avec le texte original sur la page de gauche et la traduction française sur celle de droite. Ces ouvrages sont publiés par les Éditions du Cerf.
Le projet “Bible de Bernard” concerne un corpus de textes au sein de la collection Sources Chrétiennes : les textes parus - et à paraître - de Bernard de Clairvaux. Ce corpus comporte une soixantaine d'ouvrages (liste sur le site de Sources Chrétiennes http://www.sources-chretiennes.mom.fr/index.php?pageid=auteurs_anciens&id=19&sourcepg=auteurs_anciens)
Le projet s'articule autour de deux axes :
Cette partie du projet “Bible de Bernard” s'appuie sur l'encodage fin des textes et des citations scripturaires et cherche à proposer aux chercheurs un outil personnel sur poste d'interrogation et de consultation de ces textes. Cet outil devra proposer, à la lecture comme à l'interrogation, des extraits de texte du corpus Bernard de Clairvaux (textes latins) ainsi que des extraits de la Vulgate (Biblia Sacra Vulgata, édition de Weber-Gryson). L'outil réalisé dans TXM serait à mettre en relation, pour la visualisation de contextes élargis, avec la base de textes intégraux (latin + traduction) en cours de développement par un éditeur privé.
(Au séminaire du 29 mai 2017, on a vu l'exemple de l'édition synoptique de la Quête du Graal, disponible par exemple sur le portail de la Base de français médiéval :
<seg_id=".*Lc.*">[]+</seg>
<seg>[]+</seg>[]{0,3}<seg>[]+</seg>
ou peut-être plus précisément
<seg_type="scripturalQ">[]+</seg>[]{0,3}<seg_type="scripturalQ">[]+</seg>
<seg_id="Vg.Lc.1.26">[]+</seg>[]+<seg_type="scripturalQ">[]
verit.*
; la cooccurrence est d'abord lancée sur la bible, puis sur les Psaumes et sur les Proverbes, pour comparer l'environnement du mot dans ces deux livres : le mot est-il employé avec le même sens, les mêmes voisins ?
verit.*
serait la plus représentée :
verit.*
sur cette partition
Remarques :
Liens documentation du langage de requête CQL (moteur CQP = Corpus Query Processor) :
Le corpus existe sous différentes représentations.
IMPORTANT : il faut prévoir un processus pour pouvoir recharger dans TXM des versions corrigées et/ou complétées des fichiers initialement importés, dans la mesure où le corpus est à des degrés différents d'encodage. La procédure d'import dans TXM devra donc être documentée très précisément.
Un ficher XML complet de la Vulgate est disponible : SF_2014-09-06_LAT_VULGATE_(BIBLIA SACRA VULGATA).xml
Ou sinon
L'encodage en XML-TEI des textes du corpus s'appuie sur un système d'identifiants. Le texte latin et sa traduction sont encodés exactement de la même manière ; leurs identifiants sont identiques, mais ils sont préfixés de la langue du document (lat ou fr). Chaque niveau de la structure du document est encodé. Ainsi, les <div> structurelles, mais aussi les titres, les paragraphes, les citations, les incises, les notes et les mots ont un identifiant spécifique. Cet identifiant se présente ainsi (par exemple pour un mot) : [langue du document].w.[titre abrégé du texte].[numéro du mot dans le texte]. Les identifiants des mots de la Vulgate sont : Vg.[titre abrégé du livre].[numéro de chapitre].[numéro de verset].[numéro du mot dans le verset]. Dans le texte latin, les citations scripturaires sont suivies d'une note qui renvoie précisément aux mots de la Vulgate cités.
Une XSL pré-import effectue de nombreux changements au niveau de l'encodage des textes. Il faudra l'améliorer afin qu'elle intègre les plages de versets et les versets non-consécutifs dans les identifiants des citations. Il faudra également voir pour préciser d'une manière ou d'une autre quels mots appartiennent à la Bible dans les citations, et leur numéro dans le verset correspondant. Ajout de métadonnées dans les fichiers.
–> Pour importer la Bible dans TXM :
–> Pour importer d'autres textes de Bernard :