Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_notices

Corpus TXM des Notices documentaires

Il s'agit des notices de l'AF de l'INA.

Historique des versions

Version 0

Le binaire TXM utilisé pour la présentation du 30 janvier a été produit le 29. (Il faisait suite à une toute première version qui n'a servi qu'à le mettre au point.)

Version 1

Une seconde version du binaire a été produite le surlendemain de la réunion, 1er février, pour apporter tout de suite quelques améliorations :

  • l'ajout de structures descripteur@type dans tous les champs ayant une forme de descripteur “DET : … ;”
  • l'ajout des propriétés *jour, *mois et *année sur les sujets (extraits de la date de diffusion), ainsi que le *jour de la semaine.

Le fichier correspondant (AFNOTICES-2018-02-01.txm) a été déposé dans sharedocs.

Version 2

Il s'agit ici de réaliser une version intégrant tous les retours sur la version 1 ainsi que l'expertise de l'INA sur les métadonnées disponibles et leur usage potentiel dans le projet.

Cette nouvelle version permet d'exploiter la richesse du catalogage INA et prépare la conception d'un corpus plus intégré, qui articule directement plusieurs modalités.

Spécification des sources et de l'Import

Le corpus source est au format Excel .xlsx, avec un sujet par ligne et un fichier par année.

Les fichiers se trouvent dans sharedocs :

https://sharedocs.huma-num.fr/#/2139/7000/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF
davs://sharedocs.huma-num.fr/dav.php/@Shares/(2139)%20ANR/(7000)%20ANTRACT/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF

Noms des colonnes :

  • Ancien lien (info.)
  • Anciens Supports
  • Canal de diffusion
  • Catalogage (info.)
  • Classe de niveau
  • Corpus (Aff.)
  • Corpus Anglais (Aff.)
  • Correspondant de chaine
  • Date de création
  • Date de diffusion
  • Date de modification
  • Date de niveau de catalogage
  • Date de niveau d'indexation
  • Dernier intervenant
  • Descripteurs (Aff. Col.)
  • Descripteurs (Aff. Lig.)
  • Diffusion (aff.)
  • Document dévolu INA
  • Document fonds TF1
  • Documentaliste
  • Domaine (Aff.)
  • Domaine (nom)
  • Domaine (statut)
  • Dossier de production
  • Durée
  • Extension géographique (info.)
  • Fichiers (Aff. abrégé)
  • Fichiers (Aff. étendu)
  • Générique (Aff. Col.)
  • Générique (Aff. Lig.)
  • Genre
  • Gestion de documents (info.)
  • Identifiant de la notice
  • Identifiant Matériels (info.)
  • Ind. notice verrouillée
  • Indexation (info.)
  • Inventaire
  • Langue de la notice
  • Langue sous-titrage / doublage
  • Langue VO / VE
  • Lien (Aff.)
  • Lien de rediffusion (info.)
  • Lien notice principale
  • Lieu de rediffusion
  • Mandat de l'émission
  • Matériel de rediffusion
  • Matériels (Détail)
  • Matériels dispo (Détail)
  • Mode de diffusion
  • Multidiffusion (Aff.)
  • N° Ordre dans collection (info.)
  • N° Ordre du vidéogramme (info.)
  • N° Série dans collection (info.)
  • N° Série dans sous-collection (info.)
  • Nature de production
  • Niveau de catalogage atteint
  • Niveau d'indexation atteint
  • Nom fichier segmenté (info)
  • Notes
  • Notes du titre
  • Notes juridiques
  • Numéro ISAN
  • Oeuvres
  • Origine du fonds (code)
  • Origine du fonds (lib.)
  • Présence public
  • Producteurs (Aff.)
  • Public destinataire
  • Rediffusion (Aff.)
  • Référence extérieure
  • Résumé
  • Séquences
  • Société de programmes
  • Sous-titrage / doublage
  • Statut de numérisation
  • Statut Théma
  • Témoin niv. de catalog. validé
  • Témoin niv. d'indexation validé
  • Thématique
  • Thèque
  • Titre collection
  • Titre collection (Aff.)
  • Titre de collection de rediffusion
  • Titre propre
  • Titre sous-collection
  • Titre tranche horaire
  • Titre vidéogramme
  • Type de date
  • Type de date (info.)
  • Type de fonds
  • Type de notice
  • Usage (Aff.)
  • Version courte / longue
  • Version originale / étrangère

Version 1

Spécifications

Un certain nombre de colonnes sont transformées en métadonnées et d'autres en parties textuelles. Voir “Composition et structure du corpus”.

Développements

Une macro Excel2XML a été créée pour transformer ces tableaux Excel en fichiers XML pour import XTZ+CSV. Une macro supplémentaire ExcelDir2XML a été créée pour faire itérer la première sur l'ensemble des fichiers d'un répertoire.

Les macros Excel2XML et ExcelDir2XML (évolution de CSV2XML) ont été publiées par Serge le 2 février 2018. La doc est à la place habituelle sur le wiki txm-users, page de documentation des macros.

Pour l'instant les deux macros restent très génériques, pour pouvoir être utilisées pour d'autres corpus sous forme de tableau.

Remarque : on remarquera que les noms des metadonnées et des structures du corpus sont calculés à partir des noms des colonnes des fichiers Excel en leur appliquant un algorithme automatique de :

  • minusculisation
  • suppression des diacritiques
  • suppression des caractères non-alphanumérique (comme l'espace, etc.)

Exemples :

  • 'Descripteurs (Aff. Col.)' → 'descripteursaffcol'
  • 'Séquences' → 'sequences'

Paramètres de macro

Les paramètres utilisés pour la macro ExcelDir2XML sont :

  • inputDirectory : /home/sheiden/Documents/projet-antract/ina-dataset/Excel/xlsx
  • sheetName : EMISSION
  • rootTag : annee
  • textTag : sujet
  • metadataColumnList : Identifiant de la notice,Date de diffusion,Durée,Genre,Identifiant Matériels (info.)
  • dateColumnList : Date de diffusion
  • textColumnList : Titre propre,Résumé,Descripteurs (Aff. Lig.),Descripteurs (Aff. Col.),Séquences

Paramètres d'import

Les paramètres spécifiques sont :

  • Éditions / Nombre de mots par page : 50000
  • Plans textuels / Hors texte à éditer : metadata,head

Version 2

Spécifications

Les évolutions concernent :

  • le renommage de la structure “sujet” en “notice” pour rendre compte de la mixité du tableau Excel (une ligne correspond majoritairement à des notices sujets, mais également à des notices sommaines ou à des notices isolées)
  • le remplacement de certaines métadonnées :
    • identifiantmaterielsinfo (“Identifiant Matériels (info.)”) remplacé par nomfichiersegmente (“Nom fichier segmenté (info)”)
  • la suppression de certaines métadonnées :
    • n [numéro d'ordre de la diffusion dans l'année] : était vide en pratique.
  • l'ajout de nouvelles métadonnées :
    • datedediffusiontri (AAAA-MM-JJ) (c'est une métadonnée calculée à partir des notices, comme datedediffusionannee etc.)
    • typedenotice
    • liennoticeprincipale
    • notesdutitre
    • langue : valeur du champ “Langue VO / VE”
    • naturedeproduction
    • producteurs : il serait tentant de structurer le contenu en : producteurnom, producteursigle, producteurlieu, producteurannee, mais à première vue ce n'est pas évident car il peut y avoir plusieurs producteurs, ou/et des organismes qui jouent d'autres rôles (diffuseur, éditeur, organisateur de sepctacle, etc.)
    • thematique
    • typededate (issu de “Type de date” ou “Type de date (info.)” qui sont a priori de contenu identique - les champs “(info.)” corespondent à une information à afficher)
  • l'évolution de certains contenus textuels :
    • on ne garde qu'un des deux champs descripteurs (entre descripteursafflig et descripteursaffcol : le contenu est le même, c'est simplement la présentation qui change, il suffit d'utiliser la plus commode à exploiter)
    • si possible, gérer les retours à la ligne dans les champs Résumé et Séquences pour construire des paragraphes ou items de liste (quand cela commence par un tiret)
      • [BP] et pour anticiper la tokenisation (SH: à confirmer)
  • l'ajout de nouveaux contenus textuels
    • generique : chaque participant est défini par une structure 'participant' avec une propriete 'role' reprenant les codes de rôles (PAR, DIR, OPV, SCE, etc.).

Il serait intéressant aussi de pouvoir enrichir l'édition :

  • rendre compte du découpage des éléments et de leur type dans les champs structurés (descripteurs, générique, producteurs) ;

Développements

La macro Excel2XML est adaptée pour tenir compte de toutes ces évolutions :

  • ajout d'une métadonnée de pattern “AAAA-MM-JJ” pour le tri alphabétique des métadonnées de type 'date' (voir le paramètre 'dateColumnList') ;
  • ajout du paramètre 'prefixColumnList' pour les colonnes de texte
    • le traitement adhoc des cellules de la forme /(?s)[A-Z]{3}:? *([^;\n]+?) +[;\n]/ est remplacé par un pilotage générique par le paramètre 'prefixColumnList'
    • la structure interne portant l'attribut @type est nommée <item>
    • un saut de ligne est inséré entre les structures internes
  • ajout du paramètre 'listColumnList' pour les colonnes de texte
    • les tirets ('-') en début de lignes dans ces champs sont utilisés pour les encoder en liste à puces non numérotées

Paramètres de macro

Les nouveaux paramètres utilisés pour la macro ExcelDir2XML sont :

  • inputDirectory : /home/sheiden/Documents/projet-antract/ina-dataset/Excel/xlsx
  • sheetName : EMISSION
  • rootTag : annee
  • textTag : notice
  • metadataColumnList : Identifiant de la notice,Nom fichier segmenté (info),Type de notice,Lien notice principale,Date de diffusion,Type de date,Notes du titre ,Genre,Durée,Langue VO / VE ,Nature de production ,Producteurs (Aff.),Thématique
  • dateColumnList : Date de diffusion
  • textColumnList : Titre propre,Résumé,Séquences,Descripteurs (Aff. Col.),Générique (Aff. Col.)
  • prefixColumnList : Descripteurs (Aff. Col.),Générique (Aff. Col.)
  • listColumnList : Résumé,Séquences

Paramètres d'import

On dépose dans le répertoire source les répertoires 'css' et 'xsl' qui règlent le style des éditions et la référence par défaut.

Les paramètres spécifiques sont :

  • Éditions / Nombre de mots par page : 50000
  • Plans textuels / Hors texte à éditer : metadata,head,span

Version 3

BP & SH octobre 2018, suite à réunion avec JC 28 septembre

Faire le lien entre une notice et la vidéo non segmentée correspondante

Le champ “Matériels (Détail)” est très (trop) complet, il indique tous les supports matériels où se trouve le sujet. Pour une prochaine fois, JC pourrait produire une information plus ciblée où l'on ne trouve que le matériel de rang 1, à savoir celui que l'on privilégie (voir le tableau link2mats.csv).

Exploitation de Sommaires

Les notices sommaires n'ont pas de contenu propre.

On observe que la notice sommaire n'a pas de champ dans lequel retrouver le sommaire de la livraison tel qu'on le voit dans le texte de commentaires ; quand un sommaire est donné dans InaMediaPro, il doit être calculé automatiquement à partir des liens aux notices sujet. (Mais nous n'avons pas parlé de l'ordre des sujets entre eux, il n'est pas évident s'il est déterminé avec les informations que nous avons).

Les textes de commentaires contiennent des sommaires qu'on pourrait essayer de rapprocher des notices sommaires, de la même façon que l'on pourrait rapprocher le texte des commentaires de sujet des notices sujets.

Autres champs dont l'exploitation peut être envisagée (à réfléchir suite à expérimentation de la v2)

Dans l'examen des champs des notices documentaires INA potentiellement exploitables, nous avons noté quelques champs “pour mémoire” : leur pertinence n'est pas évidente pour l'analyse, mais ils seraient éventuellement à reconsidérer lors d'un 3e import éventuel, à l'aune des retours d'expérience sur cette v2. Ces champs d'intérêt potentiel / à voir sont :

  • Corpus (Aff.) : donne des indications thématiques, mais l'usage est surtout commercial ; on a déjà des descripteurs, et on va expérimenter le champ Thématique. Si on devait exploiter ce champ, il faudrait voir si on garde ou si on transforme les chevrons (pour la facilité d'interrogation).
  • Mandat de l'émission
  • Notes : contenu très (trop ?) variable ; il faudrait voir quelle exploitation on pourrait en faire dans TXM (gros index peu utile ?).
  • Notes juridiques : intérêt possible pour les recherches Antract, mais intérêt à réfléchir dans le cadre d'un usage textométrique.

En revanche, on a vu avec JC que les champs suivants ne sont a priori pas pertinents :

  • Statut de numérisation
  • Témoin niv. de catalog. validé, Témoin niv. d'indexation validé (et d'une façon générale les autres traces de suivi du traitement documentaire, on n'a pas bien les connaissances pour en tirer profit et ce n'est pas dans les préoccupations du projet)

Sémantique des descripteurs

Enfin, les descripteurs sont issus d'un thesaurus, à réfléchir si ces relations peuvent ouvrir des perspectives intéressantes.

Composition et structure du corpus

Version 1

Le corpus est structuré de la façon suivante :

  • chaque année (1945 à 1969) correspond à un texte (text) du corpus TXM. L'année est encodée dans deux propriétés de la structure “text” : 'id' et 'annee'
    • chaque édition [de texte] est paginée par sujet (une notice sujet est éditée entièrement en une seule page, lors du retour au texte).
    • chaque structure « sujet », au sein de chaque année, correspond à une ligne du tableau Excel source. Cette structure « sujet » a pour propriétés certaines informations de colonnes « métadonnées » du tableau Excel (voir ci-dessous) et pour sous-structures d’autres informations « textuelles » de colonnes (voir plus bas)
    • chaque structure “sujet” a pour propriétés (métadonnées) les informations issues de la notice :
      • identifiantdelanotice
      • identifiantmaterielsinfo
      • genre
      • duree
      • datedediffusion
      • datedediffusionannee [les propriétés suivantes ont été extraites de la 'datedediffusion']
      • datedediffusionmois
      • datedediffusionjour
      • datedediffusionjoursemaine
      • n [numéro d'ordre de la diffusion dans l'année] [BP : ? semble vide.]
    • chaque structure “sujet” a pour sous-structures (contenus textuels) :
      • titrepropre
      • resume
      • descripteursafflig
      • descripteursaffcol
      • sequences

Chaque sous-structure textuelle (le titre propre, le résumé, etc.) contient un paragraphe (structure 'p').

Mais surtout, chaque champ de descripteur est composé d'éléments 'descripteur' avec un type valant DEI, DEL (plutôt des lieux), DET (plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres).

Version 2

Le corpus est structuré de la façon suivante :

  • chaque année (1945 à 1969) correspond à un texte (text) du corpus TXM. L'année est encodée dans deux propriétés de la structure “text” : 'id' et 'annee'
    • chaque édition [de texte] est paginée par sujet (une notice sujet est éditée entièrement en une seule page, lors du retour au texte).
    • chaque structure « notice », au sein de chaque année, correspond à une ligne du tableau Excel source. Cette structure « notice » a pour propriétés certaines informations de colonnes « métadonnées » du tableau Excel (voir ci-dessous) et pour sous-structures d’autres informations « textuelles » de colonnes (voir plus bas)
  • chaque structure “notice” a pour propriétés (métadonnées) les informations issues de la notice :
    • identifiantdelanotice
    • nomfichiersegmente
    • typedenotice
    • liennoticeprincipale : permet de consulter le sommaire de l'édition
    • datedediffusion : JJ/MM/AAAA [les propriétés suivantes ont été extraites de cette métadonnée :]
    • datedediffusionannee : AAAA
    • datedediffusionmois : MM
    • datedediffusionjour : JJ
    • datedediffusionjoursemaine : lundi, mardi, etc.
    • datedediffusiontri : AAAA-MM-JJ
    • typededate
    • notesdutitre
    • genre
    • duree
    • langue
    • naturedeproduction
    • producteurs
    • thematique
  • chaque structure “notice” a pour sous-structures (contenus textuels) :
    • titrepropre
    • resume
    • sequences
    • descripteurs : chaque descripteur est défini par une structure 'descripteur' avec un type valant DEI (“image”), DEL (“localisé”), DET (“thématique” - plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres)
    • generique : chaque participant est défini par une structure 'participant' avec une propriete 'role' reprenant les codes de rôles (PAR, DIR, OPV, SCE, etc.).

Retours

Version 1

Retours sur la première version, en vue de l'établissement d'une version ultérieure.

BP, 2 février 2018

Traitements lors de l'import

  • dates : années oui, mois peut-être, doutes sur utilité de jour et de jour de la semaine. Ajouter une date de diffusion pour disposer d'un tri chronologique via une seule métadonnée, type AAAAMMJJ ?
  • <descripteur> : génial !

ex.

 INDEX sur <descripteur>[_.descripteur_type="DEI"]</descripteur> 

ou sur

 <descripteur>[_.descripteur_type="DEI"]{2,}</descripteur> 

Mettre un point virgule pour séparer les différents descripteurs dans l'édition ?

  • possibilité d'aller à la ligne pour chaque tiret ou séquence de tirets dans <sequences> (et <resume>), voire de découper en <p> ou <item> selon les retours à la ligne des sources ? Les tirets ne sont pas toujours détachés, ex.

Identifiant de la notice : AFE01000301, Date de diffusion : 21/06/1951

  • La page de l'édition vise à correspondre au sujet, cf. documentation de la macro excel2xml. C'est commode.

Quelques observations sur le corpus

  • genres : tout est “presse filmée”, et une minorité de sujets sont quelque chose en plus (reportage, rétrospective, etc. → 5 catégories mineures, certaines quasi vides -déclaration et rétrospectives). → à observer en faisant une partition assistée sur sujet/genre et en ne créant que 5 classes en fonction du 2e genre.

Ce déséquilibre des genres fait que l'exploitation de la métadonnée sera sans doute très limitée pour les études contrastives.

  • titrepropre
    • Vue sur les titres répétés :
      INDEX de <titrepropre>[]+</titrepropre>
    • Vue sur les sujets dominants :
      INDEX de [] within titrepropre
    • Vue d'ensemble par AFC sur partition par année :
      INDEX de [] within titrepropre, Fmin=50
      TABLE LEXICALE marges = index
        suppression des lignes des mots grammaticaux, des mois, 
        "est"%c (majoritairement verbe), M Monsieur MONSIEUR,
        fusion des lignes égales modulo la casse
      AFC : l'effet diachronique semble plutôt sur l'axe 2
      macro CAFilter170323 -> plante et semble corrompre l'AFC, + impossible de recalculer l'AFC [essayer de reproduire ?]

À voir avec INA

  • amélioration du choix des éléments de texte et des métadonnées dans les rubriques des notices ?
    Notamment,
    • supprimer un des deux champs descripteurs ?
    • mettre aussi les descripteurs en métadonnées ? (ensembliste, un peu moins évident à l'usage)
    • meilleur identifiant pour faire le lien avec le fichier video ? (premier de “Identifiant Matériels (info.)” ?)
  • export plus précis sur Résumé/Séquences, qui distingue (sépare) mieux les deux ? En effet on retrouve des contenus de type Séquences dans des Résumés. (Sinon correction manuelle dans les xlsx avec repérage aidé par TXM ? → Non car 6000 occ./23114)
  • quelles indications donner pour pouvoir exploiter en édition synoptique les images des scans des tapuscrits du commentaire voix-off ? Genre :

sujet ↔ texte commentaire ↔ image(s) page(s)

JC, 6 juin 2018
  • utiliser le contenu du champ “Générique (Aff. Lig.)” comme métadonnée ou comme section textuelle ou les deux.
    • savoir quels opérateurs de prise de vue (OPV) était actif sur quelle période de temps
    • connaître les « participants » (PAR), c’est-à-dire souvent les personnes filmées
  • utiliser le champ « lien notice principale » permettrait d’associer les notices « sujet » (qui concernent un reportage) avec la notice « sommaire » qui décrit l’ensemble du programme.

Version 2

BP, 2 octobre 2018
  • Le générique n'est pas affiché en liste pour 475 notices (<generiqueaffcol>[!item]), c'est peut-être lié à un certain usage des parenthèses (on trouve des parenthèses qui passent bien dans les descripteurs), ex. :
    • AFE86002940 (11 janvier 1945) : OPV Barrois, Georges (séquence Colonel Fabien) OPV Batton, Jacques (séquence Romain Rolland)
  • Pour les recherches il faut bien avoir conscience que quand une structure est vide (par exemple 'sequences'), alors elle est absente du texte (notice) ; d'autant que ce doit être le comportement général de CQP (pas de structures vides).
  • Dans les résumés ou séquences, dans les sources, on a quelquefois un tiret qui n'est pas précédé par un retour chariot et est collé au mot précédent (et suivi d'un blanc) : dans ce cas, la tokenisation est mauvaise (le tiret est collé au mot qui précède). Une correction des sources qui repérerait ce motif et ajouterait un retour chariot pourrait être une solution. En l'état l'impact reste limité (17 occurrences sur tout le corpus de [sequences & word=“\p{L}+-”]).
public/antract/antract_corpus_notices.txt · Dernière modification: 2019/04/24 14:38 par slh@ens-lyon.fr