Outils pour utilisateurs

Outils du site


public:umr_ihrim_hobbes_spinoza

Ceci est une ancienne révision du document !


Partage de sources textuelles : Hobbes et Spinoza

Diffuser des corpus binaires TXM dédiés aux éditions de référence pour travailler sur des auteurs, pour faciliter leur lecture et leur exploration avec TXM. L'utilisateur n'a que quatre opérations simples à faire pour travailler sur le corpus :

  • télécharger TXM
  • installer TXM
  • télécharger un corpus binaire d'auteur
  • charger le corpus dans TXM

En gros, des éditions Word qui circulent sous le manteau, ou librement, entre collègues sont de bons candidats pour faire partie d'un corpus qui circulera entre collègues ou étudiants pour les lire avec TXM. L'idée est que TXM peut être plus utile pour parcourir systématiquement un ou plusieurs textes pour une étude donnée. Sachant que les derniers développements d'annotation dans TXM offrent une perspective de saisie, d'exploitation et de transmission de commentaires potentiellement intéressante.

On commence par des textes philosophiques Hobbes et Spinoza.

Projets

Les projets ont un répertoire dédié dans Sharedocs : https://sharedocs.huma-num.fr/#/634/5640/Partage%20de%20Sources%20Textuelles%20(PST) (accès restreint)

Corpus Hobbes

Les versions successives des sources du corpus sont hébergées dans sharedocs : https://sharedocs.huma-num.fr/#/634/5640/Partage%20de%20Sources%20Textuelles%20(PST)/Hobbes/Corpus%20Complet/src (accès restreint)

Hobbes 4

Objectifs de la version 4 :

  • intégrer la deuxième partie des Elements (texte EEBO-TCP supplémentaire) dans la première

Remarques sur la v4 :

  • finalement les Elements sont composés du frontispice de la deuxième partie suivi de la première partie, suivi de la deuxième partie → erreur

Hobbes 5

Objectifs de la version 5 :

  • corriger l'ordre et le frontispice utilisé dans les Elements
  • utiliser les textes lemmatisés par NWU (MorphAdoner v3.0 - non publique)
  • afficher les diagrammes de spécificité et les partitions dans l'ordre chronologique des textes. Solution temporaire : renommer les identifiants de textes avec un préfixe alphanumérique

Remarques sur la v5.0 :

  • les Elements sont maintenant composés du frontispice (contenu de l'élément <front>) de la première partie suivi de la première partie, suivi de la deuxième partie
  • la ponctuation a disparu : corrigé (les ponctuations sont devenues des mots et j'ai créé une nouvelle catégorie 'p' qui n'existe pas dans NUPOS)
  • les identifiants de texte dans les références ne sont pas corrects
  • les identifiants de texte dans les éditions ne sont pas corrects
  • il faudrait passer les passages en latin du frontispice des Elements dans le plan 'hors texte à éditer'
  • il faudrait passer les notes de Hobbes dans un nouveau plan 'notes à indexer'
  • les liens vers les images de facsimilés du Léviathan sont absents (il faut les recoder)

Corpus Sanderson

Sanderson 1

Objectifs de la version 1 :

  • utiliser les textes EEBO-TCP

Sanderson 2

Objectifs de la version 2 :

  • utiliser les textes EEBO-TCP lemmatisés par :
    • NWU (MorphAdoner v3.0 - non publique)
    • ou bien lemmatisés par MorphAdoner v2.0 - publique

Sanderson 3

Objectifs de la version 3 :

  • ajouter le texte “ten lectures” (encore en page II de EEBO-TCP)

Corpus BibleENG

BibleENG

Objectifs de la version 1 :

  • utiliser les bibles early modern English EEBO-TCP : bible de Genêve, bible King James

Corpus BibleLAT

BibleLAT

Objectifs de la version 1 :

  • utiliser les bibles EEBO-TCP : bible Vulgate

Corpus Spinoza

En cours.

Réunions

Réunion préliminaire le 7/3/2017

AL, BGP, FR, MI, SDC, SLH, PG

  • Constat :
    • nombreux chercheures, doctorant.es et masterant.es du labo (et du LABEX commun avec Triangle) travaillent sur les mêmes corpus (Spinoza, Hobbes, Leibniz, Descartes…)
    • les personnes récemment formées à TXM ont besoin d'appliquer au plus tôt ce qu'elles ont appris sur leurs propres corpus de textes philosophiques pour consolider leur apprentissage et confirmer la pertinence de la méthode et de l'outil pour leur travail
      • ces personnes ont besoin d'aide pour importer ces textes dans TXM
  • Objectif : partager au sein du labo/LABEX des représentations de ces corpus plus ou moins équipées (TEI pour TXM, corpus binaires TXM déjà préparés, etc.) mis à la disposition de tou.tes pour la recherche et l'enseignement (+ éventuelle publication à terme sous forme de portail)
  • Méthode :
    • Création d'un espace ShareDocs
    • Création d'un tableau de métadonnées pour chaque Auteur répertoriant tous les textes avec leurs métadonnées jugées utiles :
      Auteur    NomOeuvre    Langue    AnnéeÉdition
    • Création d'un tableau de métadonnées global qui aggrège les tableaux par auteur
    • On commence par les textes utilisés par deux personnes récemment formées à TXM faisant la demande d'aide d'import de textes philosophiques dans TXM (Hobbes et Spinoza)

Réunion de préparation des textes le 20/3/2017 à 16h

AL, BGP, MI, SLH

  • Objectif : passer en revue les représentations disponibles des textes (on commence par Spinoza) pour définir et programmer les interventions nécessaires pour une première utilisation dans TXM
  • Avant la réunion : créer l'espace ShareDocs (SLH, FAIT) et le peupler (BGP FAIT, manque un texte)

CR réunion

On commence par Spinoza et plus particulièrement les textes sur lesquels travaille BGP.

Fait en réunion :

1. Commencé à mettre en place le fichier de métadonnées (à la racine du dossier IHRIM > LABO > PROJETS > PST) qui permettra de piloter l'ensemble des textes avec choix des id, des sigles, des principales métadonnées pour chaque texte. Pour chaque auteur, ce fichier est la référence listant tous les textes dont on souhaite tenir compte (tous les textes numériques ne sont pas forcément déjà disponibles au moment où on décrit leurs métadonnées).

Le fichier de métadonnées de Spinoza est appelé 'spinoza-metadata.ods'. Ses colonnes sont les suivantes :

  • id : l'identifiant unique du texte numérique tel qu'il sera utilisé par TXM
  • Sigle : l'identifiant utilisé habituellement dans la littérature
  • Œuvre : le nom du répertoire où se trouve le texte numérique
  • Langue : la langue du texte
  • Titre : le titre, dans sa langue
  • Date : la date d'édition
  • Traducteur : le nom du traducteur, utilisé comme référence de l'édition

2. Examiné les textes et les difficultés

  • séparation des entête ou frontmatter, tables des matières, préfaces, etc. du corps du texte
  • préciser le statut du texte stylé sous forme d'intertitre
  • encodage en paragraphes
  • pagination par paragraphe
    • voir plus tard si on souhaite introduire des marqueurs de sauts de page de différentes éditions de référence - pour les utiliser dans les références de concordances ou pour pouvoir les lire dans l'édition
  • distinction entre le texte de base (ou de l’œuvre) et le texte des éditeurs, traducteurs…
    • par exemple, différents types de notes : notes de fin et notes au fil du texte de Spinoza vs notes au fil du texte du traducteur
  • séparation d'annexes ou backmatter du corps du texte

3. Choix organisation

  • sous-répertoires par états du texte : par exemple le dossier 'paragraphes' reçoit les textes où les paragraphes sont correctement encodés (pas de paragraphes vides superflus)

Prochaine étape :

  • BGP complète le tableau de métadonnées
  • BGP vérifie paragraphes du TTP
  • Estimer la part de manuel et d'automatique → Un peu de manuel pour enlever les scories et améliorer la structuration cf. commentaires dans Sharedoc (MI 10/04/17)
  • AL et SH sont d'accord pour s'appuyer sur un workflow Groovy (en discutant puis intégrant ce qui existe déjà dans le worflow OxGarage+import XTZ+CSV mis en place par AL dans le projet Russe et son cours d'édition, et dans l'import DOCX/ODT+CSV actuel de TXM)
public/umr_ihrim_hobbes_spinoza.1527248795.txt.gz · Dernière modification: 2018/05/25 13:46 par slh@ens-lyon.fr