Partage de sources textuelles : Hobbes, Spinoza...

Diffuser des corpus binaires TXM dédiés aux éditions de référence pour travailler sur des auteurs, pour faciliter leur lecture et leur exploration avec TXM. L'utilisateur n'a que quatre opérations simples à faire pour travailler sur le corpus :

  • télécharger TXM
  • installer TXM
  • télécharger un corpus binaire d'auteur
  • charger le corpus dans TXM

En gros, des éditions Word qui circulent sous le manteau, ou librement, entre collègues sont de bons candidats pour faire partie d'un corpus qui circulera entre collègues ou étudiants pour les lire avec TXM. L'idée est que TXM peut être plus utile pour parcourir systématiquement un ou plusieurs textes pour une étude donnée. Sachant que les derniers développements d'annotation dans TXM offrent une perspective de saisie, d'exploitation et de transmission de commentaires potentiellement intéressante.

On commence par des textes philosophiques : Hobbes et Spinoza.

Projets

Les projets ont un répertoire dédié dans Sharedocs : https://sharedocs.huma-num.fr/#/634/5640/Partage%20de%20Sources%20Textuelles%20(PST) (accès restreint)

projet Digital Theological Hobbes

Corpus Spinoza

En cours.

Réunions

Réunion préliminaire le 7/3/2017

AL, BGP, FR, MI, SDC, SLH, PG

  • Constat :
    • nombreux chercheures, doctorant.es et masterant.es du labo (et du LABEX commun avec Triangle) travaillent sur les mêmes corpus (Spinoza, Hobbes, Leibniz, Descartes…)
    • les personnes récemment formées à TXM ont besoin d'appliquer au plus tôt ce qu'elles ont appris sur leurs propres corpus de textes philosophiques pour consolider leur apprentissage et confirmer la pertinence de la méthode et de l'outil pour leur travail
      • ces personnes ont besoin d'aide pour importer ces textes dans TXM
  • Objectif : partager au sein du labo/LABEX des représentations de ces corpus plus ou moins équipées (TEI pour TXM, corpus binaires TXM déjà préparés, etc.) mis à la disposition de tou.tes pour la recherche et l'enseignement (+ éventuelle publication à terme sous forme de portail)
  • Méthode :
    • Création d'un espace ShareDocs
    • Création d'un tableau de métadonnées pour chaque Auteur répertoriant tous les textes avec leurs métadonnées jugées utiles :
      Auteur    NomOeuvre    Langue    AnnéeÉdition
      
    • Création d'un tableau de métadonnées global qui aggrège les tableaux par auteur
    • On commence par les textes utilisés par deux personnes récemment formées à TXM faisant la demande d'aide d'import de textes philosophiques dans TXM (Hobbes et Spinoza)

Réunion de préparation des textes le 20/3/2017 à 16h

AL, BGP, MI, SLH

  • Objectif : passer en revue les représentations disponibles des textes (on commence par Spinoza) pour définir et programmer les interventions nécessaires pour une première utilisation dans TXM
  • Avant la réunion : créer l'espace ShareDocs (SLH, FAIT) et le peupler (BGP FAIT, manque un texte)

CR réunion

On commence par Spinoza et plus particulièrement les textes sur lesquels travaille BGP.

Fait en réunion :

1. Commencé à mettre en place le fichier de métadonnées (à la racine du dossier IHRIM > LABO > PROJETS > PST) qui permettra de piloter l'ensemble des textes avec choix des id, des sigles, des principales métadonnées pour chaque texte. Pour chaque auteur, ce fichier est la référence listant tous les textes dont on souhaite tenir compte (tous les textes numériques ne sont pas forcément déjà disponibles au moment où on décrit leurs métadonnées).

Le fichier de métadonnées de Spinoza est appelé 'spinoza-metadata.ods'. Ses colonnes sont les suivantes :

  • id : l'identifiant unique du texte numérique tel qu'il sera utilisé par TXM
  • Sigle : l'identifiant utilisé habituellement dans la littérature
  • Œuvre : le nom du répertoire où se trouve le texte numérique
  • Langue : la langue du texte
  • Titre : le titre, dans sa langue
  • Date : la date d'édition
  • Traducteur : le nom du traducteur, utilisé comme référence de l'édition

2. Examiné les textes et les difficultés

  • séparation des entête ou frontmatter, tables des matières, préfaces, etc. du corps du texte
  • préciser le statut du texte stylé sous forme d'intertitre
  • encodage en paragraphes
  • pagination par paragraphe
    • voir plus tard si on souhaite introduire des marqueurs de sauts de page de différentes éditions de référence - pour les utiliser dans les références de concordances ou pour pouvoir les lire dans l'édition
  • distinction entre le texte de base (ou de l’œuvre) et le texte des éditeurs, traducteurs…
    • par exemple, différents types de notes : notes de fin et notes au fil du texte de Spinoza vs notes au fil du texte du traducteur
  • séparation d'annexes ou backmatter du corps du texte

3. Choix organisation

  • sous-répertoires par états du texte : par exemple le dossier 'paragraphes' reçoit les textes où les paragraphes sont correctement encodés (pas de paragraphes vides superflus)

Prochaine étape :

  • BGP complète le tableau de métadonnées
  • BGP vérifie paragraphes du TTP
  • Estimer la part de manuel et d'automatique → Un peu de manuel pour enlever les scories et améliorer la structuration cf. commentaires dans Sharedoc (MI 10/04/17)
  • AL et SH sont d'accord pour s'appuyer sur un workflow Groovy (en discutant puis intégrant ce qui existe déjà dans le worflow OxGarage+import XTZ+CSV mis en place par AL dans le projet Russe et son cours d'édition, et dans l'import DOCX/ODT+CSV actuel de TXM)
public/umr_ihrim_hobbes_spinoza.txt · Dernière modification: 2019/02/15 09:34 par slh@ens-lyon.fr