Cette page sert au suivi des projets de l'UMR HISOMA mobilisant TXM.

Dans la mesure où cette page est actuellement publique, il est recommandé de veiller à maintenir un niveau d'anonymat raisonnable. (merci de nous contacter si cette page doit évoluer vers plus de confidentialité)

Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.

Projet "La Bible de Bernard de Clairvaux"

Descriptif du projet

Contexte

L'équipe des Sources Chrétiennes est une composante du laboratoire HiSoMa “Histoire et Sources des Mondes Antiques” au sein de la Maison de l'Orient et de la Méditerranée. Elle a pour activité essentielle l'édition et la traduction d'écrits des Pères de l'Église. Les ouvrages de la collection Sources Chrétiennes sont, pour la grande majorité, bilingues, avec le texte original sur la page de gauche et la traduction française sur celle de droite. Ces ouvrages sont publiés par les Éditions du Cerf.

Corpus

Le projet “Bible de Bernard” concerne un corpus de textes au sein de la collection Sources Chrétiennes : les textes parus - et à paraître - de Bernard de Clairvaux. Ce corpus comporte une soixantaine d'ouvrages (liste sur le site de Sources Chrétiennes http://www.sources-chretiennes.mom.fr/index.php?pageid=auteurs_anciens&id=19&sourcepg=auteurs_anciens)
Le projet s'articule autour de deux axes :

  • le premier consiste en l'implémentation d'une chaîne d'édition allant de l'établissement du texte à sa publication papier (mise en page dans InDesign) en passant par un fichier pivot en XML-TEI. Cette chaîne est issue de la chaîne d'édition structurée Métopes de Caen, adaptée pour répondre aux besoins spécifiques du corpus. Elle permet un encodage fin des données en XML-TEI ;
  • le second concerne plus particulièrement l'encodage des citations scripturaires, réalisé plus finement que pour la seule édition papier, en vue d'interrogations complexes via TXM.

Objectifs généraux

Cette partie du projet “Bible de Bernard” s'appuie sur l'encodage fin des textes et des citations scripturaires et cherche à proposer aux chercheurs un outil personnel sur poste d'interrogation et de consultation de ces textes. Cet outil devra proposer, à la lecture comme à l'interrogation, des extraits de texte du corpus Bernard de Clairvaux (textes latins) ainsi que des extraits de la Vulgate (Biblia Sacra Vulgata, édition de Weber-Gryson). L'outil réalisé dans TXM serait à mettre en relation, pour la visualisation de contextes élargis, avec la base de textes intégraux (latin + traduction) en cours de développement par un éditeur privé.

Spécifications

(Au séminaire du 29 mai 2017, on a vu l'exemple de l'édition synoptique de la Quête du Graal, disponible par exemple sur le portail de la Base de français médiéval :

  • sélectionner dans la marge de gauche le corpus GRAAL,
  • cliquer sur l'icone “maison” dans la barre de boutons en haut de la fenêtre,
  • puis choisir le bouton “Édition”.
  • Le choix des éditions à afficher en parallèle se fait par le menu déroulant en bas à droite.
    [SH] Remarque : on peut accéder directement à une page synoptique de ce type dans l'édition du GRAAL en accédant au lien suivant :
    • la page est présentée d'emblée en vue synoptique combinant 3 versions : l'image du fac-simile de la colonne du folio, la transcription diplomatique et l'édition critique
    • il s'agit de la page 176c contenant deux mots précis du texte (leurs identifiants uniques sont indiqués dans l'URL d'accès) mis en évidence dans les éditions avec un arrière plan rouge-rosé)
Exemples de commandes et de requêtes présentés le 29 mai 2017
  • Construction de sous-corpus : menu “Corpus” > Commande “Sous-corpus” > onglet “Simple”, sélection d'une valeur (ex. L'homélie de Bernard en latin) ou de plusieurs valeurs (sélection multiple, ex. les livres de la Bible).
  • Recherche des citations de Luc (inventaire et décompte) : INDEX de
    <seg_id=".*Lc.*">[]+</seg>
  • Recherche de deux citations à moins de 3 mots de distance : CONCORDANCE de
    <seg>[]+</seg>[]{0,3}<seg>[]+</seg>
    ou peut-être plus précisément
    <seg_type="scripturalQ">[]+</seg>[]{0,3}<seg_type="scripturalQ">[]+</seg>
  • Recherche des citations qui suivent celles de Lc I,26 : CONCORDANCE de
    <seg_id="Vg.Lc.1.26">[]+</seg>[]+<seg_type="scripturalQ">[]
  • Illustration de la fonction PROGRESSION (sur le sous-corpus de l'homélie de Bernard) (requête = par exemple les citations)
  • INDEX puis COOCCURRENCE de
    verit.*
    ; la cooccurrence est d'abord lancée sur la bible, puis sur les Psaumes et sur les Proverbes, pour comparer l'environnement du mot dans ces deux livres : le mot est-il employé avec le même sens, les mêmes voisins ?
  • Au passage, présentation très rapide de la recherche des livres où la famille de mots
    verit.*
    serait la plus représentée :
    • Outils > PARTITION (simple) de la Bible selon les text/id (= ici les livres)
    • INDEX de
      verit.*
      sur cette partition
    • transformation en TABLE LEXICALE avec option “Total toutes les occurrences du corpus”
    • fusion de toutes les lignes sauf #RESTE#, en “VERIT-”
    • calcul de SPÉCIFICITÉS
    • sélection de la ligne “VERIT-”, et par clic-droit lancer l'affichage d'un diagramme en bâtons visualisant la distribution du mot dans les différents livres. La hauteur des bâtons correspond à un indice statistique de sur- ou sous-représentation, tenant compte des tailles des livres et de la fréquence du mot dans le livre et dans la bible ; modélisation mathématique sous-jacente qui peut être présentée très clairement ; mieux que fréquence normalisée ou pourcentage (plus précis, plus informatif), et pas simplement heuristique (supposant par exemple que la langue suivrait une certaine loi statistique comme la loi normale).

Remarques :

  • Les références de localisation des passages présentés en concordance (colonne la plus à gauche) peuvent être composées de façon souple avec n'importe quelle information disponible dans le corpus (n'importe quelle propriété (~attribut XML) sur n'importe quelle structure (~élément XML du source). Pour cela, faire un clic-droit dans la table de concordance affichée et dans le menu présenté sélectionner la première ligne, “Options d'affichage des références”.
  • L'affichage en tableau des concordances est inadapté lorsque le pivot (le mot/passage recherché) est long ou/et de longueur très variable (ex. une ou plusieurs citations). Dans ce cas, le dépouillement des résultats s'opère en double-cliquant sur chaque ligne de concordance pour visualiser le passage sélectionné dans le contexte de l'édition. Il est commode de cliquer sur l'onglet de l'Edition et de le tirer sur le côté de la fenêtre de sorte qu'elle se dédouble, afin de voir simultanément les lignes de concordance (servant en qq sorte de sommaire de navigation pour les occurrences recensées) et la présentation de l'occurrence sélectionné en contexte. Cependant le jour de la démonstration le retour au texte dans l'édition de ne fonctionnait que pour certains textes du corpus ; l'import du corpus pourra être rectifié pour corriger cela (problème dû à la présence d'attributs “id” sur des éléments “w” dans le fichier source, attributs à renommer au moment de l'import).

Liens documentation du langage de requête CQL (moteur CQP = Corpus Query Processor) :

Encodage du corpus

Le corpus existe sous différentes représentations.

IMPORTANT : il faut prévoir un processus pour pouvoir recharger dans TXM des versions corrigées et/ou complétées des fichiers initialement importés, dans la mesure où le corpus est à des degrés différents d'encodage. La procédure d'import dans TXM devra donc être documentée très précisément.

Textes de Bernard

  • a) Word → 100% du corpus
  • b) Word stylé encodant les citations → 80%
  • c) XML-TEI reprenant l'encodage des citations → X%
  • d) XML-TEI final affinant le système d'identifiants des versets → Y%

Vulgate

Un ficher XML complet de la Vulgate est disponible : SF_2014-09-06_LAT_VULGATE_(BIBLIA SACRA VULGATA).xml

Ou sinon

  • a) Tableau Excel où des colonnes encodent la structure de la Bible (livre, chapitre, verset) et chaque ligne encode un verset
  • b) 80 fichiers XML correspondant aux livres (produits à partir de la nouvelle macro STRUCTUREDCSV2XML)
  • c) 80 fichiers XML-TEI structurés

Descriptif de l'encodage XML-TEI

L'encodage en XML-TEI des textes du corpus s'appuie sur un système d'identifiants. Le texte latin et sa traduction sont encodés exactement de la même manière ; leurs identifiants sont identiques, mais ils sont préfixés de la langue du document (lat ou fr). Chaque niveau de la structure du document est encodé. Ainsi, les <div> structurelles, mais aussi les titres, les paragraphes, les citations, les incises, les notes et les mots ont un identifiant spécifique. Cet identifiant se présente ainsi (par exemple pour un mot) : [langue du document].w.[titre abrégé du texte].[numéro du mot dans le texte]. Les identifiants des mots de la Vulgate sont : Vg.[titre abrégé du livre].[numéro de chapitre].[numéro de verset].[numéro du mot dans le verset]. Dans le texte latin, les citations scripturaires sont suivies d'une note qui renvoie précisément aux mots de la Vulgate cités.

Changements à opérer

Une XSL pré-import effectue de nombreux changements au niveau de l'encodage des textes. Il faudra l'améliorer afin qu'elle intègre les plages de versets et les versets non-consécutifs dans les identifiants des citations. Il faudra également voir pour préciser d'une manière ou d'une autre quels mots appartiennent à la Bible dans les citations, et leur numéro dans le verset correspondant. Ajout de métadonnées dans les fichiers.

Réalisations

Achevées

  • Ajout d'une XSL pré-import afin de modifier l'encodage des textes
    • Transfert de l'@id des mots en un @rend afin de laisser la possibilité à TXM de générer ses propres identifiants pour permettre le retour au texte
    • Suppression des balises <ref> pour éviter le bug de TXM (qui cherche un lien quand il y a une balise <ref>) – temporaire ?
    • Ajout de <pb/> avant chaque <div> de niveau “chapitre” afin de créer le découpage par page de l'édition
    • Processus inversé pour les notes : on re-transforme les attributs “allusion”, “citation inexacte”, etc. en texte dans la note (correspondance version papier).
    • Génération d'un @id pour toutes les citations afin de pointer vers les identifiants des versets de la Bible
  • Ajout d'un dossier css et d'un dossier xsl pour importer le corpus et créer l'édition
  • Création d'un script Groovy pour transformer un tableau en fichier XML
  • Création d'une XSL pour transformer les fichiers XML de la Vulgate en fichiers XML-TEI structurés comme souhaité

En cours

* Récupération du corpus Bible de Bernard en fichiers Word en vue d'un import rapide sur TXM en début de chaîne

Prévues

  • Transformer les fichiers Word stylé (b) du corpus Bernard en XML afin de les importer dans TXM
  • Ajouter des métadonnées aux textes (créer un fichier metadata.csv) :
    • pour encoder l'ordre des textes du corpus de Bernard
    • pour encoder l'ordre des livres de la Vulgate
    • pour pouvoir faire des sous-corpus et des partitions pertinents
  • Trouver un moyen d'intégrer les plages de versets et les versets non-consécutifs dans les identifiants des citations qui pointent vers la Bible – voir ce qu'il se passe pour le retour au texte lorsque l'identifiant d'une citation pointe vers deux versets.
  • Importer la Vulgate dans d'autres langues représentée dans d'autres tableaux Excel (en s'appuyant sur la macro STRUCTUREDCSV2XML), je pense au moins au français contemporain
    • éventuellement produire une édition synoptique multilingue de la Vulgate

Recettes

–> Pour importer la Bible dans TXM :

  • Utiliser la macro STRUCTUREDCSV2XML pour transformer le fichier Excel en fichiers XML
  • Utiliser la macro ExecXSL puis renseigner :
    • Le dossier contenant les fichiers créés par la macro précédente
    • Le chemin vers la XSL XSL_prepa_bible.xsl (à modifier à chaque nouvelle Bible, car elle est spécifique aux livres de la Vulgate en latin)
  • Mettre les fichiers ainsi créés dans le dossier à importer dans TXM
  • Lancer l’import en tokenisant et en lemmatisant (selon la langue de la Bible)

–> Pour importer d'autres textes de Bernard :

  • Créer un dossier avec les fichiers à importer
  • Les modifier avec la macro ExecXSL et la XSL pre-import_TXM.xsl
  • Les fichiers étant déjà tokenisés et lemmatisés, importer simplement le corpus (ajouter les fichiers de la Bible, eux aussi tokénisés et lemmatisés) :
    • Dans le dossier d’import doivent se trouver les dossiers xsl et css servant à construire l’édition
  • Utiliser ensuite les exemples de sommaire général et de sommaire de page si l’on souhaite en construire un pour la version poste (réfléchir à la mise en place d’une construction automatique de celui-ci ?)

Retour à la liste des projets.

public/umr_hisoma.txt · Dernière modification: 2017/08/05 10:09 par laurence.mellerin@mom.fr