Production du corpus DEMOCRATLYON

De nouvelles macros d'annotation-exploitation URS sont développées pour travailler sur un corpus de textes plutôt que sur un seul texte, sur des partitions et sur des désignations de limites de structures internes. Nous avons créé un corpus original contenant des textes annotés en Analec et encodant des structures internes pour pouvoir les développer et les valider.

DEMOCRATLYON5

Un premier corpus de 5 textes a été créé :

TextesiecletypetextedomainetextegenretexteDIV
Roman de Jehan de ParisA15enarratiflittéraireRoman25
Mémoires de Commynes, livre 1B15enarratifhistoriqueMémoires5
Bossuet, DiscoursB17enon narratifhistoriqueTraité8
Montesquieu, Esprit des loisA18enon narratifargumentatifTraité20
Diderot, Essais sur la peintureB18enon narratifdidactiqueTraité5

Opérations de construction du corpus :

  • production des nouvelles sources :
    • récupération des corpus binaires des 5 textes depuis davs://sharedocs.huma-num.fr/dav.php/@Shares/(1091) Project/(5423) ANR_Democrat/corpus/Sauvegardes LYON/4-Mentions/4b-Catégorisation :
      • BOSSUETDISCOURS-CHAINE-MQ.txm
      • COMMYNES-CHAINE-MQ.txm
      • DIDEROTESSAIS-CHAINE-MQ.txm
      • JEHANDEPARIS-CHAINE-MQ.txm
      • MONTESQUIEULOIS-CHAINE-MQ.txm
    • fusion des répertoires txm
      • récupération des textes au format XML-TEI TXM
        • remontée au même niveau des <div> à utiliser pour construire les limites de structures
      • récupération des répertoires css et xsl
        • retrait de l'étape 3-posttok
        • retrait de l'opération 2-front/2-addlbnumbers.xsl
        • création et ajout de l'opération 5-conv-txm-w-to-xtz-w.xsl qui déplace les informations de constitution des mots XML-TEI TXM vers des éléments <w> avec attributs pour l'import XTZ+CSV
    • création des métadonnées metadata.csv à partir du framapad de DEMOCRAT
    • import avec XTZ+CSV dans le corpus DEMOCRATLYON5 : on récupère les mots et les éditions, et on ajoute frpos et frlemma de TreeTagger
  • récupération des annotations URS/Analec
    • chargement de chaque corpus binaire dans TXM
    • export des annotations Analec de chaque corpus avec la commande Analec > Corpus in XML-TEI URS format
    • fusion des répertoires “annotations”
    • appel de la commande “Analec > Import XML-TEI URS annotations” sur le corpus DEMOCRATLYON5 en prennant en paramètre le répertoire “annotations” contenant les fichiers d'annotations externalisées des 5 textes et le modèle d'annotation “COMMYNES.aam”

résultat :

Processing text: DiderotEssais
Processing text: FM_ARG_EXT_BossuetDiscours
Processing text: MontesquieuLois
Processing text: commyn1
Processing text: jehpar
Done: 17043 unites 0 relations 6368 schemas.

vérification du résultat : la macro UnitsSummary appliquée à DEMOCRATLYON5 donne :

Units	17042
Unit properties	5
Unit@CDN	1
Unit@LONGUEUR	1
Unit@CODE SEM	1
Unit@REF	2953
Unit@CATEGORIE	24

  • création de la partition « Textes » (parties dans l'ordre du corpus)
  • export du corpus binaire dans : davs://sharedocs.huma-num.fr/dav.php/@Shares/(1091)Project/(5423)ANR_Democrat/corpus/fichiers_binaires_txm
  • le corpus est téléchargeable depuis sharedocs et chargeable dans TXM pour être utilisé par les nouvelles macros

Attention

Le modèle d'annotation (le fichier .aam) contient les catégories mais aussi tous les référents de chaque bloc. Il faut donc aussi fusionner les fichiers .aam. Si on le fait brutalement, on s'expose à avoir de la co-référence entre des mentions de blocs différents (par exemple : “le Roi”, “Dieu” ou pire “l'auteur”). La bonne pratique consiste à retoucher les fichiers .aam et les fichiers -urs.xml pour ajouter un préfixe dans le champ “REF”. Cela peut se faire en dehors de TXM par l'application d'une feuille de style XSL. On peut aussi imaginer intégrer ce préfixage dans l'export URS.

DEMOCRATLYON3

Un deuxième (sous-)corpus de 3 textes plus homogène et dont la qualité de l'annotation est vérifiée a été construit.

TextesiecletypetextedomainetextegenretexteDIV
Bossuet, DiscoursB17enon narratifhistoriqueTraité8
Montesquieu, Esprit des loisA18enon narratifargumentatifTraité31)
Diderot, Essais sur la peintureB18enon narratifdidactiqueTraité5

Version 1

Le corpus a reçu les améliorations suivantes.

1. Gestion des mots dans les titres de MontesquieuLois

En cherchant des facsimilés d'éditions de MontesquieuLois on remarque que des mots de titres ont été annotés, contrairement aux principes d'annotation de Lyon (ils ont été annotés parce qu'ils n'étaient pas différenciés du corps du texte).

Une transcription wikisource de l'édition de 1777 montre bien les mots des titres : https://fr.wikisource.org/wiki/De_l%E2%80%99esprit_des_lois,_Garnier,_1777/Tome_1.

Recherche de facsimilés

Le texte numérique XML-TEI utilisé pour le corpus provient de Frantext, qui utilise l'édition “Les Belles Lettres, 1950”, dont la référence SUDOC est http://www.sudoc.fr/010355383.

À la page CXXVIII de l'exemplaire de la BIU Diderot2) on lit que l'édition s'appuie sur l'édition de 1757, dont la référence SUDOC est http://www.sudoc.fr/151353611.

On ne trouve pas de facsimilé de cette édition en ligne mais le plus proche est hébergé chez Google : January 1, 1764, Arkstée et Merkus, https://books.google.fr/books?id=BGY6mgEACAAJ&source=gbs_ViewAPI&redir_esc=y.

La page 89 de cette édition a la forme suivante :

Changements

Les sources pivot XML-TXM TEI (tokenizées) sont modifiées pour que les mots des titres apparaissent comme tel dans l'édition. Les titres ajoutés de la forme “PARTIE 1 LIVRE 1 CHAPITRE 1” sont laissés tels quels.

Pour l'instant :

  • a- les annotations de ces mots n'ont pas été supprimées ;
  • b- les mots de ces titres apparaissent toujours dans le lexique du corpus

Résultat dans les éditions :

  • Avant :
  • Après :

2. Partition en Livres plutôt qu'en Chapitres

On propose de ne s'intéresser qu'aux livres pour obtenir une partition de nombre équivalent aux autres textes.

Les sources sont modifiées pour avoir un premier niveau de 'div' qui corresponde aux livres, à utiliser pour les partitions, et un second imbriqué pour les chapitres.

Cela fait 3 livres complets et un quatrième très tronqué.

Voici les statistiques générales des unités de ce corpus3) :

CATEGORIE	DiderotEssais	FM_ARG_EXT_BossuetDiscours	MontesquieuLois
<empty>	0	0	12
DET.POS	199	274	130
GN.DEF	1094	1944	1088
GN.DEM	125	296	131
GN.IND	307	219	346
GN.INT	9	5	4
GN.NAM	66	853	76
GN.NU	126	83	79
GN.NUM	26	69	20
GN.POS	207	464	158
PRO.ADV	51	38	62
PRO.DEM	58	36	44
PRO.IND	14	19	10
PRO.INT	16	2	4
PRO.NUM	3	5	1
PRO.PER	481	433	498
PRO.POS	4	4	1
PRO.REL	182	256	178
SUJ.ZERO	73	44	8
TEST	0	0	3

Vue graphique :

Le corpus est disponible dans sharedocs : (5423)ANR_Democrat/corpus/fichiers_binaires_txm.

Version 2 (2017-11-23)

Le corpus a reçu les améliorations suivantes :

  • supprimé le 4ième livre du texte source MontesquieuLois.xml
  • renommé le texte source FM_ARG_EXT_BossuetDiscours.xml en BossuetDiscours.xml (et renommé son fichier d'annotations URS TEI et son identifiant dans metadata.csv)
  • récupéré le corpus MONTESQUIEULOIS-sans-categorie-vide.txm et extrait ses annotations URS
  • l'import des annotations des trois textes donne 9602 unités (36, se trouvant à l'origine dans le livre 4 de MontesquieuLois, ont été ignorées), 0 relations et 4803 schémas (dont SI).

Version 3

Dans Bossuet et Montesquieu il y a des mots des titres dans le corps du texte.

1) 3,1 dans la V1
2) Merci Céline
3) ne pas hésiter à copier ce tableau et le coller avec Control-Shift-V dans Calc pour une lecture plus confortable
public/corpusdemocratlyon.txt · Dernière modification: 2018/07/31 14:32 par matthieu.quignard@ens-lyon.fr