Cette page sert au suivi des projets de l'UMR HISOMA mobilisant TXM.
Dans la mesure où cette page est actuellement publique, il est recommandé de veiller à maintenir un niveau d'anonymat raisonnable. (merci de nous contacter si cette page doit évoluer vers plus de confidentialité)
Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.
L'équipe des Sources Chrétiennes est une composante du laboratoire HiSoMa “Histoire et Sources des Mondes Antiques” au sein de la Maison de l'Orient et de la Méditerranée. Elle a pour activité essentielle l'édition et la traduction d'écrits des Pères de l'Église. Les ouvrages de la collection Sources Chrétiennes sont, pour la grande majorité, bilingues, avec le texte original sur la page de gauche et la traduction française sur celle de droite. Ces ouvrages sont publiés par les Éditions du Cerf.
Cette partie du projet “Bible de Bernard” s'appuie sur l'encodage fin des textes et des citations scripturaires et cherche à proposer aux chercheurs un outil personnel sur poste d'interrogation et de consultation de ces textes. Cet outil devra proposer, à la lecture comme à l'interrogation, des extraits de texte du corpus Bernard de Clairvaux (textes latins) ainsi que des extraits de la Vulgate (Biblia Sacra Vulgata, édition de Weber-Gryson).
L'outil réalisé dans TXM serait à mettre en relation, pour la visualisation de contextes élargis, avec la base de textes intégraux (latin + traduction) en cours de développement par un éditeur privé.
(Au séminaire du 29 mai 2017, on a vu l'exemple de l'édition synoptique de la Quête du Graal, disponible par exemple sur le portail de la Base de français médiéval :
sélectionner dans la marge de gauche le corpus GRAAL,
cliquer sur l'icone “maison” dans la barre de boutons en haut de la fenêtre,
puis choisir le bouton “Édition”.
Le choix des éditions à afficher en parallèle se fait par le menu déroulant en bas à droite.
[SH] Remarque : on peut accéder directement à une page synoptique de ce type dans l'édition du GRAAL en accédant au
lien suivant :
Construction de sous-corpus : menu “Corpus” > Commande “Sous-corpus” > onglet “Simple”, sélection d'une valeur (ex. L'homélie de Bernard en latin) ou de plusieurs valeurs (sélection multiple, ex. les livres de la Bible).
Recherche des citations de Luc (inventaire et décompte) : INDEX de
<seg_id=".*Lc.*">[]+</seg>
Recherche de deux citations à moins de 3 mots de distance : CONCORDANCE de
<seg>[]+</seg>[]{0,3}<seg>[]+</seg>
ou peut-être plus précisément
<seg_type="scripturalQ">[]+</seg>[]{0,3}<seg_type="scripturalQ">[]+</seg>
Recherche des citations qui suivent celles de Lc I,26 : CONCORDANCE de
<seg_id="Vg.Lc.1.26">[]+</seg>[]+<seg_type="scripturalQ">[]
Illustration de la fonction PROGRESSION (sur le sous-corpus de l'homélie de Bernard) (requête = par exemple les citations)
INDEX puis COOCCURRENCE de
verit.*
; la cooccurrence est d'abord lancée sur la bible, puis sur les Psaumes et sur les Proverbes, pour comparer l'environnement du mot dans ces deux livres : le mot est-il employé avec le même sens, les mêmes voisins ?
Au passage, présentation très rapide de la recherche des livres où la famille de mots
verit.*
serait la plus représentée :
Outils > PARTITION (simple) de la Bible selon les text/id (= ici les livres)
INDEX de
verit.*
sur cette partition
transformation en TABLE LEXICALE avec option “Total toutes les occurrences du corpus”
fusion de toutes les lignes sauf #RESTE#, en “VERIT-”
calcul de SPÉCIFICITÉS
sélection de la ligne “VERIT-”, et par clic-droit lancer l'affichage d'un diagramme en bâtons visualisant la distribution du mot dans les différents livres. La hauteur des bâtons correspond à un indice statistique de sur- ou sous-représentation, tenant compte des tailles des livres et de la fréquence du mot dans le livre et dans la bible ; modélisation mathématique sous-jacente qui peut être présentée très clairement ; mieux que fréquence normalisée ou pourcentage (plus précis, plus informatif), et pas simplement heuristique (supposant par exemple que la langue suivrait une certaine loi statistique comme la loi normale).
Remarques :
Les références de localisation des passages présentés en concordance (colonne la plus à gauche) peuvent être composées de façon souple avec n'importe quelle information disponible dans le corpus (n'importe quelle propriété (~attribut
XML) sur n'importe quelle structure (~élément
XML du source). Pour cela, faire un clic-droit dans la table de concordance affichée et dans le menu présenté sélectionner la première ligne, “Options d'affichage des références”.
L'affichage en tableau des concordances est inadapté lorsque le pivot (le mot/passage recherché) est long ou/et de longueur très variable (ex. une ou plusieurs citations). Dans ce cas, le dépouillement des résultats s'opère en double-cliquant sur chaque ligne de concordance pour visualiser le passage sélectionné dans le contexte de l'édition. Il est commode de cliquer sur l'onglet de l'Edition et de le tirer sur le côté de la fenêtre de sorte qu'elle se dédouble, afin de voir simultanément les lignes de concordance (servant en qq sorte de sommaire de navigation pour les occurrences recensées) et la présentation de l'occurrence sélectionné en contexte. Cependant le jour de la démonstration le retour au texte dans l'édition de ne fonctionnait que pour certains textes du corpus ; l'import du corpus pourra être rectifié pour corriger cela (problème dû à la présence d'attributs “id” sur des éléments “w” dans le fichier source, attributs à renommer au moment de l'import).
Liens documentation du langage de requête CQL (moteur CQP = Corpus Query Processor) :
-
-
-
-
voir aussi toute documentation générique de CQP ou CQL par exemple les documents produits par l'équipe qui le développe à Stuttgart
manuel,
tutoriel,…
Remarque : pour se servir de TXM, c'est évidemment utile de connaître le langage d'interrogation, mais il y a aussi plein de fonctionnalités et de calculs à découvrir (via le manuel, les ateliers de formation ou l'enregistrement disponible en ligne, la
FAQ du wiki txm-users, etc.)
Le corpus existe sous différentes représentations.
IMPORTANT : il faut prévoir un processus pour pouvoir recharger dans TXM des versions corrigées et/ou complétées des fichiers initialement importés, dans la mesure où le corpus est à des degrés différents d'encodage. La procédure d'import dans TXM devra donc être documentée très précisément.
Un ficher XML complet de la Vulgate est disponible : SF_2014-09-06_LAT_VULGATE_(BIBLIA SACRA VULGATA).xml
Ou sinon
L'encodage en XML-TEI des textes du corpus s'appuie sur un système d'identifiants. Le texte latin et sa traduction sont encodés exactement de la même manière ; leurs identifiants sont identiques, mais ils sont préfixés de la langue du document (lat ou fr). Chaque niveau de la structure du document est encodé. Ainsi, les <div> structurelles, mais aussi les titres, les paragraphes, les citations, les incises, les notes et les mots ont un identifiant spécifique. Cet identifiant se présente ainsi (par exemple pour un mot) : [langue du document].w.[titre abrégé du texte].[numéro du mot dans le texte]. Les identifiants des mots de la Vulgate sont : Vg.[titre abrégé du livre].[numéro de chapitre].[numéro de verset].[numéro du mot dans le verset]. Dans le texte latin, les citations scripturaires sont suivies d'une note qui renvoie précisément aux mots de la Vulgate cités.
Une XSL pré-import effectue de nombreux changements au niveau de l'encodage des textes. Il faudra l'améliorer afin qu'elle intègre les plages de versets et les versets non-consécutifs dans les identifiants des citations. Il faudra également voir pour préciser d'une manière ou d'une autre quels mots appartiennent à la Bible dans les citations, et leur numéro dans le verset correspondant.
Ajout de métadonnées dans les fichiers.
* Récupération du corpus Bible de Bernard en fichiers Word en vue d'un import rapide sur TXM en début de chaîne
Transformer les fichiers Word stylé (b) du corpus Bernard en
XML afin de les importer dans TXM
Ajouter des métadonnées aux textes (créer un fichier metadata.csv) :
pour encoder l'ordre des textes du corpus de Bernard
pour encoder l'ordre des livres de la Vulgate
pour pouvoir faire des sous-corpus et des partitions pertinents
Trouver un moyen d'intégrer les plages de versets et les versets non-consécutifs dans les identifiants des citations qui pointent vers la Bible – voir ce qu'il se passe pour le retour au texte lorsque l'identifiant d'une citation pointe vers deux versets.
Importer la Vulgate dans d'autres langues représentée dans d'autres tableaux Excel (en s'appuyant sur la macro STRUCTUREDCSV2XML), je pense au moins au français contemporain
–> Pour importer la Bible dans TXM :
Utiliser la macro STRUCTUREDCSV2XML pour transformer le fichier Excel en fichiers
XML
Utiliser la macro ExecXSL puis renseigner :
Mettre les fichiers ainsi créés dans le dossier à importer dans TXM
Lancer l’import en tokenisant et en lemmatisant (selon la langue de la Bible)
–> Pour importer d'autres textes de Bernard :
Créer un dossier avec les fichiers à importer
Les modifier avec la macro ExecXSL et la
XSL pre-import_TXM.xsl
Les fichiers étant déjà tokenisés et lemmatisés, importer simplement le corpus (ajouter les fichiers de la Bible, eux aussi tokénisés et lemmatisés) :
Utiliser ensuite les exemples de sommaire général et de sommaire de page si l’on souhaite en construire un pour la version poste (réfléchir à la mise en place d’une construction automatique de celui-ci ?)
→ Retour à la liste des projets.