Table des matières

Cette page sert au suivi des projets avec la MRSH et les Presses universitaires de Caen.

Dans la mesure où cette page est actuellement publique, il est recommandé de veiller à maintenir un niveau d'anonymat raisonnable. (merci de nous contacter si cette page doit évoluer vers plus de confidentialité)

Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.

Stage exploration des articulations entre TXM et la chaîne éditoriale Métopes

Descriptif du projet

Développer les synergies entre l'outil d'analyse textométrique TXM et la chaîne éditoriale Métopes.

Chantier A : Conception d’une chaîne éditoriale adaptée pour l'édition à double facette (normalisée et diplomatique)

  • Comparer les méthodologies respectives de la chaîne éditoriale Métopes et de la chaîne traditionnellement utilisée dans le cadre des projets d’éditions des corpus BFM et GRAAL.
  • Déterminer s’il existe des incompatibilités majeures.
  • Adapter la chaîne éditoriale Métopes pour l’édition à double facette.
  • Adapter le script d’import InDesign à ce type d’édition.

Préparation de manuscrit

Il est nécessaire de comparer les méthodes de préparation de manuscrit afin de déterminer si les outils actuellement prévus par la Métopes suffisent (barre de style). Après consultation du document “Édition de sources textuelles. Principes de transcription” l'usage des normes d'ores et déjà établies semble de rigueur.

Chantier B : Extraction de données de fichiers XML-TEI-TXM et transformation par réduction vers un flux éditorial balisé pour l’édition multisupports

  • Créer une feuille de transformation XSL permettant de passer d’un fichier XML-TEI-TXM à un fichier XML-TEI-Métopes.
  • Créer les feuilles de transformation XSL permettant d’exploiter ce fichier (import dans InDesign, export vers MaX notamment)
  • Créer une passerelle entre MaX et TXM afin de permettre l’hébergement d’éditions MaX dans TXM (définir l’intérêt d’une telle manœuvre)

Chantier C : Conception d’une chaîne permettant l’import de fichiers XML-TEI compatibles avec Métopes dans TXM.

  • Créer une feuille de transformation XSL permettant cet import via le module d’import XTZ.
  • Déterminer la méthode la plus adéquate pour effectuer cet import

Problématiques de recherche

Import de fichiers compatibles Métopes dans TXM

Permettre l'import de fichiers XML-TEI Métopes dans TXM est un axe important du projet. Cela permettra aux chercheurs habitués à l'utilisation de la chaîne caennaise de pouvoir importer leur corpus dans TXM sans avoir à transformer leurs fichiers. Par ailleurs, cela permet d'intégrer facilement les méthodes et outils relatifs à Métopes au sein de la chaîne de travail habituelle de TXM. Cela est particulièrement important vis-à-vis de la compatibilité des fichiers utilisés avec l'interface du logiciel XML Mind XML Editor relative au schéma XSD utilisé dans la chaîne Métopes. En outre, les fichiers utilisés dans le cadre de la chaîne Métopes correspondent aux bonnes pratiques de l'encodage de fichiers XML-TEI. Ainsi, ils sont pérennes et interopérables. Enfin, permettre l'import de fichiers XML-TEI Métopes dans TXM représente les fondements d'une collaboration potentielle entre le groupe Cactus (créateurs du projet TXM) et le Pôle Document numérique de la MRSH (créateurs de la chaîne éditoriale Métopes) de Caen ainsi que les Presses Universitaires de Caen.

Export de fichiers compatibles Métopes post TXM

Les fichiers importés dans TXM sont enrichis afin de permettre leur bonne interrogation dans le cadre des recherches effectuées dans TXM. Il convient d'en extraire les données nécessaires a posteriori tout en réduisant le flux afin de lui restitué la compatibilité avec la chaîne éditoriale Métopes. Cela dans le but de pouvoir poursuivre le processus éditorial post TXM en respectant les contraintes imposées par Métopes (schéma XSD, bonnes pratiques éditoriales, dossier de travail structuré pour le bon déroulement des exports).

Import des fichiers PDF créés dans InDesign sur TXM Portail

Les fichiers PDF créés dans le cadre du travail éditorial effectué sous InDesign peuvent, dans le cas où les droits de diffusion le permettent, être importé sur TXM Portail. Cela permet de valoriser ce travail sur la plateforme TXM.

Import des fichiers issus de TXM dans MaX

À venir.

Hébergement de MaX dans TXM

À venir.

Avancement du projet

Réalisations techniques

  • Création de plusieurs XSL transformant - par réduction - les fichiers “tokenized” en fichiers XML-TEI compatible Métopes.
  • Création de plusieurs XSL transformant - par réduction - les fichiers “TXM” en fichiers XML-TEI compatible Métopes.
  • Création de macros (script groovy) permettant l'application des XSL mentionnées ci-dessus dans TXM.
  • Création d'une commande XXE permettant l'application de ces mêmes XSL dans XML Mind XML Editor.
  • Création d'une css permettant l'affichage simultané des vues normalisée et diplomatique dans XXE.

Réalisations techniques prévues

  • Modification du script d'import XTZ permettant l'application de la XSL fichiers “tokenized” vers XML-TEI Métopes durant l'import (il serait intéressant de documenter la méthode afin de créer un tutoriel de modification des scripts d'import).
  • Adapter le script d'import InDesign aux fichiers ainsi créés.

Recettes

Documentations

Correspondances Styles Métopes / encodage / InDesign

Manuel d’encodage XML-TEI étendu des transcriptions de manuscrits dans le projet BFM-Manuscrits

Comparaison encodage BFM et encodage Métopes

Schémas de la chaîne intégrant TXM et Métopes

Schéma simplifié

txm-metopes.jpg

Schéma complet

graph_txm_metopes-slh3-cb-2.jpg Légende :

  • Ellipses vertes : logiciels.
  • Rectangles bleus : fichiers, données.
  • Rectangles oranges : supports éditoriaux.

Tutoriels

Questions de recherche et scénarios d'utilisation TXM

Importer des corpus encodés selon les critères de la chaîne Métopes dans TXM

Intérêts :

  • Permettre aux chercheurs travaillant avec la chaîne Métopes de pouvoir utiliser TXM dans les meilleures conditions possibles.
  • Permettre l'import de corpus d'ores et déjà existants – et encodés en XML-TEI “Métopes” – dans TXM dans les meilleures conditions possibles.

Il est possible d'importer des corpus encodés selon les critères de la chaine Métopes dans TXM avec le module d'import XTZ. En outre, une macro permet de convertir les fichiers tokenisés en fichier compatible Métopes. Cela permet de pouvoir - a posteriori du travail effectué dans TXM - exploiter les fichiers selon les règles établies par Métopes. Il est par exemple possible d'importer les fichiers ainsi créés dans InDesign avec le script d'import prévu par Métopes. Les fichiers créés par la macro dans TXM se caractérisent par un encodage permettant une séparation des flux qui offre la possibilité de n'utiliser qu'un fichier pour les facettes normalisée et diplomatique.

Héberger des éditions mises en ligne avec MaX dans TXM

Collaboration Groupe Cactus (IHRIM, ENS de Lyon) et Pôle Document Numérique (MRSH de Caen)

Introduction

Cette section est consacrée à la collaboration entre l'équipe de développement de la textométrie et son implémentation dans TXM et l'équipe de développements éditoriaux et leur implémentation dans MaX. La collaboration entre ces deux équipes vise un échange de savoir-faire, respectivement analytiques et éditoriaux, passant par un travail conjoint sur les méthodes (objets et process) et sur leur implémentation dans les deux plateformes. Son objectif est d'aller vers une délégation mutuelle de savoir-faire méthodologiques et technologiques.

Terminologie / Glossaire

La réunion du 12/05/2017 à Lyon a été l'occasion de commencer un calage terminologique.

Édition

Le terme 'édition' est utilisé de façons très différentes par chaque équipe :

  • pour le PDN les priorités de ce qui correspond à une édition sont :
    • une stabilité de ce qui est (re)-présenté (l'édition est “figée” à une date donnée)
    • une citabilité d'ensemble et interne (le contenu correspondant à une citation est invariable, notamment pour les URLs)
    • une accessibilité permanente garantie (notamment les URLs d'accès doivent répondre 24/7)
  • pour Cactus les priorités de ce qui correspond à une édition sont :
    • la représentation la plus fidèle possible du contexte éditorial source de l'apparition d'un observable linguistique au sein d'un texte
    • la mise en évidence du phénomène linguistique au sein de l'édition, par exemple highlight de mots (le 'retour au texte' de la textométrie)
    • l'association de l'édition à l'unité linguistique 'texte' contenant des 'mots' qui est le constituant maximal de base du corpus, qui est l'unité de traitement de TXM. TXM permet d'analyser des corpus qui contiennent des textes qui contiennent des mots.
      • les découpages éditoriaux source ne sont pas toujours raccord avec les découpages textuels analytiques. Exemple le roman de la rose dans la BFM. L'organisation générale socio-linguistique de la BFM a séparé le début de l'œuvre de sa suite en deux textes parce que chaque partie a été rédigée par un auteur différent (aux traits dialectaux et à l'époque différents).
    • l'édition représente différents aspects des plans textuels d'un corpus (notes, intertitres, langue étrangères, etc.)
    • idéalement l'édition rend également compte des différents sous-corpus construits pendant une analyse. Par exemple le sous-corpus des passages dans une langue, le sous-corpus des verbes à l'imparfait, etc. Pour faciliter la lecture du retour au texte.
    • en termes d'infrastructure :
      • les éditions mises en œuvre dans la version portail de TXM doivent être les plus compatibles possibles avec les éditions mises en œuvre dans la version TXM pour poste
      • certains contextes de mise en œuvre nécessitent un accès contrôlé total ou partiel à une édition

Chantier A

Expérimentation de l'interopérabilité entre Max et TXM. Elle consiste à faire passer différents objets à travers les différents workflows des plateformes. Chaque passage correspond à une étape.

Étapes 1

  • Importer De Piscibus dans TXM, tokeniser et annoter le corpus.
  • Charger le corpus sur un portail TXM

Cette étape est l'étape inverse de celle équivalente où le De Piscibus termine publié en ligne dans les serveurs de la MRSH.
→ on prend un objet du PDN et on le manipule dans un workflow de Cactus.

Étapes 2

  • Créer une édition MaX du texte Des cas des nobles hommes et femmes.

Ici il s'agit de prendre un texte de la BFM (qui est un corpus linguistique de textes) et de la collection Sources médiévales (qui doit publier des éditions en ligne et en papier), et de lui faire suivre un circuit jusqu'à une édition en ligne dans Max.
→ on prend un objet Cactus et on lui fait suivre un workflow du PDN.

Étapes 3

  • Installer une instance MaX à L'université de Caen dédiée à l'expérimentation de l'interopérabilité entre MaX et TXM (Laboratoire de textes).
  • (Éventuellement) installer une instance MaX à l'ENS Lyon (ou Huma-Num) dédiée à la diffusion d'éditions MaX.
  • Créer une édition MaX de De piscibus (deux versions : sources caennaises et sources issues de TXM).

Étapes 4

  • Réflexion sur les relations entre les outils de TXM et MaX :
    • Comparaison des “Plans textuels” et des “Flux de texte”.
    • Highlight des mots recherchés : allumer dans MaX une recherche TXM ? Comment interpréter dans MaX les ID des <w> de TXM ?
    • Création dans TXM de “Plans éditoriaux” (systèmes de note, structure générale du texte (titres)).
    • Permettre la génération d'un sommaire dans TXM selon le modèle caennais (interprétation de la structure XML-TEI de la source).

Étape 5

Créer un système d'hyperliens permettant d'accéder au portail TXM depuis MaX ou d'accéder à une édition MaX depuis TXM.

Chantier B

Développer dans TXM Portail la notion de “point fixe”. Autrement dit, stabiliser dans le temps les corpus de textes mis en ligne.

Conversion de l'édition du Graal à la chaine TXM + Métopes

public/usr_mrsh.txt · Dernière modification: 2017/05/23 11:00 par alexei.lavrentev@ens-lyon.fr