Il s'agit des notices de l'AF de l'INA.
Le binaire TXM utilisé pour la présentation du 30 janvier a été produit le 29. (Il faisait suite à une toute première version qui n'a servi qu'à le mettre au point.)
Une seconde version du binaire a été produite le surlendemain de la réunion, 1er février, pour apporter tout de suite quelques améliorations :
Le fichier correspondant (AFNOTICES-2018-02-01.txm) a été déposé dans sharedocs.
Il s'agit ici de réaliser une version intégrant tous les retours sur la version 1 ainsi que l'expertise de l'INA sur les métadonnées disponibles et leur usage potentiel dans le projet.
Cette nouvelle version permet d'exploiter la richesse du catalogage INA et prépare la conception d'un corpus plus intégré, qui articule directement plusieurs modalités.
Le corpus source est au format Excel .xlsx, avec un sujet par ligne et un fichier par année.
Les fichiers se trouvent dans sharedocs :
https://sharedocs.huma-num.fr/#/2139/7000/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF davs://sharedocs.huma-num.fr/dav.php/@Shares/(2139)%20ANR/(7000)%20ANTRACT/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF
Noms des colonnes :
Un certain nombre de colonnes sont transformées en métadonnées et d'autres en parties textuelles. Voir “Composition et structure du corpus”.
Une macro Excel2XML a été créée pour transformer ces tableaux Excel en fichiers XML pour import XTZ+CSV. Une macro supplémentaire ExcelDir2XML a été créée pour faire itérer la première sur l'ensemble des fichiers d'un répertoire.
Les macros Excel2XML et ExcelDir2XML (évolution de CSV2XML) ont été publiées par Serge le 2 février 2018. La doc est à la place habituelle sur le wiki txm-users, page de documentation des macros.
Pour l'instant les deux macros restent très génériques, pour pouvoir être utilisées pour d'autres corpus sous forme de tableau.
Remarque : on remarquera que les noms des metadonnées et des structures du corpus sont calculés à partir des noms des colonnes des fichiers Excel en leur appliquant un algorithme automatique de :
Exemples :
Les paramètres utilisés pour la macro ExcelDir2XML sont :
Les paramètres spécifiques sont :
Les évolutions concernent :
Il serait intéressant aussi de pouvoir enrichir l'édition :
La liste des colonnes utilisées est :
La macro Excel2XML est adaptée pour tenir compte de toutes ces évolutions :
Les nouveaux paramètres utilisés pour la macro ExcelDir2XML sont :
On dépose dans le répertoire source les répertoires 'css' et 'xsl' qui règlent le style des éditions et la référence par défaut.
Les paramètres spécifiques sont :
Faire le lien entre une notice et la vidéo non segmentée correspondante
Le champ “Matériels (Détail)” est très (trop) complet, il indique tous les supports matériels où se trouve le sujet. Pour une prochaine fois, JC pourrait produire une information plus ciblée où l'on ne trouve que le matériel de rang 1, à savoir celui que l'on privilégie (voir le tableau link2mats.csv).
Exploitation de Sommaires
Les notices sommaires n'ont pas de contenu propre.
On observe que la notice sommaire n'a pas de champ dans lequel retrouver le sommaire de la livraison tel qu'on le voit dans le texte de commentaires ; quand un sommaire est donné dans InaMediaPro, il doit être calculé automatiquement à partir des liens aux notices sujet. (Mais nous n'avons pas parlé de l'ordre des sujets entre eux, il n'est pas évident s'il est déterminé avec les informations que nous avons).
Les textes de commentaires contiennent des sommaires qu'on pourrait essayer de rapprocher des notices sommaires, de la même façon que l'on pourrait rapprocher le texte des commentaires de sujet des notices sujets.
Autres champs dont l'exploitation peut être envisagée (à réfléchir suite à expérimentation de la v2)
Dans l'examen des champs des notices documentaires INA potentiellement exploitables, nous avons noté quelques champs “pour mémoire” : leur pertinence n'est pas évidente pour l'analyse, mais ils seraient éventuellement à reconsidérer lors d'un 3e import éventuel, à l'aune des retours d'expérience sur cette v2. Ces champs d'intérêt potentiel / à voir sont :
En revanche, on a vu avec JC que les champs suivants ne sont a priori pas pertinents :
Sémantique des descripteurs
Enfin, les descripteurs sont issus d'un thesaurus, à réfléchir si ces relations peuvent ouvrir des perspectives intéressantes.
Le corpus est structuré de la façon suivante :
Chaque sous-structure textuelle (le titre propre, le résumé, etc.) contient un paragraphe (structure 'p').
Mais surtout, chaque champ de descripteur est composé d'éléments 'descripteur' avec un type valant DEI, DEL (plutôt des lieux), DET (plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres).
Le corpus est structuré de la façon suivante :
Le corpus est structuré de la façon suivante :
Relation sommaire ↔ sujet :
Retours sur la première version, en vue de l'établissement d'une version ultérieure.
Traitements lors de l'import
ex.
INDEX sur <descripteur>[_.descripteur_type="DEI"]</descripteur>
ou sur
<descripteur>[_.descripteur_type="DEI"]{2,}</descripteur>
Mettre un point virgule pour séparer les différents descripteurs dans l'édition ?
Identifiant de la notice : AFE01000301, Date de diffusion : 21/06/1951
Quelques observations sur le corpus
Ce déséquilibre des genres fait que l'exploitation de la métadonnée sera sans doute très limitée pour les études contrastives.
INDEX de <titrepropre>[]+</titrepropre>
INDEX de [] within titrepropre
INDEX de [] within titrepropre, Fmin=50 TABLE LEXICALE marges = index suppression des lignes des mots grammaticaux, des mois, "est"%c (majoritairement verbe), M Monsieur MONSIEUR, fusion des lignes égales modulo la casse AFC : l'effet diachronique semble plutôt sur l'axe 2 macro CAFilter170323 -> plante et semble corrompre l'AFC, + impossible de recalculer l'AFC [essayer de reproduire ?]
À voir avec INA
sujet ↔ texte commentaire ↔ image(s) page(s)