De nouvelles macros d'annotation-exploitation URS sont développées pour travailler sur un corpus de textes plutôt que sur un seul texte, sur des partitions et sur des désignations de limites de structures internes. Nous avons créé un corpus original contenant des textes annotés en Analec et encodant des structures internes pour pouvoir les développer et les valider.
Un premier corpus de 5 textes a été créé :
Texte | siecle | typetexte | domainetexte | genretexte | DIV | |
Roman de Jehan de Paris | A | 15e | narratif | littéraire | Roman | 25 |
Mémoires de Commynes, livre 1 | B | 15e | narratif | historique | Mémoires | 5 |
Bossuet, Discours | B | 17e | non narratif | historique | Traité | 8 |
Montesquieu, Esprit des lois | A | 18e | non narratif | argumentatif | Traité | 20 |
Diderot, Essais sur la peinture | B | 18e | non narratif | didactique | Traité | 5 |
Opérations de construction du corpus :
résultat :
Processing text: DiderotEssais Processing text: FM_ARG_EXT_BossuetDiscours Processing text: MontesquieuLois Processing text: commyn1 Processing text: jehpar Done: 17043 unites 0 relations 6368 schemas.
vérification du résultat : la macro UnitsSummary appliquée à DEMOCRATLYON5 donne :
Units 17042 Unit properties 5 Unit@CDN 1 Unit@LONGUEUR 1 Unit@CODE SEM 1 Unit@REF 2953 Unit@CATEGORIE 24
Attention
Le modèle d'annotation (le fichier .aam) contient les catégories mais aussi tous les référents de chaque bloc. Il faut donc aussi fusionner les fichiers .aam. Si on le fait brutalement, on s'expose à avoir de la co-référence entre des mentions de blocs différents (par exemple : “le Roi”, “Dieu” ou pire “l'auteur”). La bonne pratique consiste à retoucher les fichiers .aam et les fichiers -urs.xml pour ajouter un préfixe dans le champ “REF”. Cela peut se faire en dehors de TXM par l'application d'une feuille de style XSL. On peut aussi imaginer intégrer ce préfixage dans l'export URS.
Un deuxième (sous-)corpus de 3 textes plus homogène et dont la qualité de l'annotation est vérifiée a été construit.
Texte | siecle | typetexte | domainetexte | genretexte | DIV | |
Bossuet, Discours | B | 17e | non narratif | historique | Traité | 8 |
Montesquieu, Esprit des lois | A | 18e | non narratif | argumentatif | Traité | 31) |
Diderot, Essais sur la peinture | B | 18e | non narratif | didactique | Traité | 5 |
Le corpus a reçu les améliorations suivantes.
En cherchant des facsimilés d'éditions de MontesquieuLois on remarque que des mots de titres ont été annotés, contrairement aux principes d'annotation de Lyon (ils ont été annotés parce qu'ils n'étaient pas différenciés du corps du texte).
Une transcription wikisource de l'édition de 1777 montre bien les mots des titres : https://fr.wikisource.org/wiki/De_l%E2%80%99esprit_des_lois,_Garnier,_1777/Tome_1.
Le texte numérique XML-TEI utilisé pour le corpus provient de Frantext, qui utilise l'édition “Les Belles Lettres, 1950”, dont la référence SUDOC est http://www.sudoc.fr/010355383.
À la page CXXVIII de l'exemplaire de la BIU Diderot2) on lit que l'édition s'appuie sur l'édition de 1757, dont la référence SUDOC est http://www.sudoc.fr/151353611.
On ne trouve pas de facsimilé de cette édition en ligne mais le plus proche est hébergé chez Google : January 1, 1764, Arkstée et Merkus, https://books.google.fr/books?id=BGY6mgEACAAJ&source=gbs_ViewAPI&redir_esc=y.
La page 89 de cette édition a la forme suivante :
Les sources pivot XML-TXM TEI (tokenizées) sont modifiées pour que les mots des titres apparaissent comme tel dans l'édition. Les titres ajoutés de la forme “PARTIE 1 LIVRE 1 CHAPITRE 1” sont laissés tels quels.
Pour l'instant :
Résultat dans les éditions :
On propose de ne s'intéresser qu'aux livres pour obtenir une partition de nombre équivalent aux autres textes.
Les sources sont modifiées pour avoir un premier niveau de 'div' qui corresponde aux livres, à utiliser pour les partitions, et un second imbriqué pour les chapitres.
Cela fait 3 livres complets et un quatrième très tronqué.
Voici les statistiques générales des unités de ce corpus3) :
CATEGORIE DiderotEssais FM_ARG_EXT_BossuetDiscours MontesquieuLois <empty> 0 0 12 DET.POS 199 274 130 GN.DEF 1094 1944 1088 GN.DEM 125 296 131 GN.IND 307 219 346 GN.INT 9 5 4 GN.NAM 66 853 76 GN.NU 126 83 79 GN.NUM 26 69 20 GN.POS 207 464 158 PRO.ADV 51 38 62 PRO.DEM 58 36 44 PRO.IND 14 19 10 PRO.INT 16 2 4 PRO.NUM 3 5 1 PRO.PER 481 433 498 PRO.POS 4 4 1 PRO.REL 182 256 178 SUJ.ZERO 73 44 8 TEST 0 0 3
Vue graphique :
Le corpus est disponible dans sharedocs : (5423)ANR_Democrat/corpus/fichiers_binaires_txm.
Le corpus a reçu les améliorations suivantes :
Dans Bossuet et Montesquieu il y a des mots des titres dans le corps du texte.