Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_notices

Corpus TXM des Notices documentaires

Il s'agit des notices de l'AF de l'INA.

Historique des versions

Version 0

Le binaire TXM utilisé pour la présentation du 30 janvier a été produit le 29. (Il faisait suite à une toute première version qui n'a servi qu'à le mettre au point.)

Version 1

Une seconde version du binaire a été produite le surlendemain de la réunion, 1er février, pour apporter tout de suite quelques améliorations :

  • l'ajout de structures descripteur@type dans tous les champs ayant une forme de descripteur “DET : … ;”
  • l'ajout des propriétés *jour, *mois et *année sur les sujets (extraits de la date de diffusion), ainsi que le *jour de la semaine.

Le fichier correspondant (AFNOTICES-2018-02-01.txm) a été déposé dans sharedocs.

Version 2

Il s'agit ici de réaliser une version intégrant tous les retours sur la version 1 ainsi que l'expertise de l'INA sur les métadonnées disponibles et leur usage potentiel dans le projet.

Cette nouvelle version permet d'exploiter la richesse du catalogage INA et prépare la conception d'un corpus plus intégré, qui articule directement plusieurs modalités.

Version 3

On a découvert des lacunes importantes (dernier trimestre de 1966, dernier semestre de 1968) dans les données sur lesquelles a été généré le corpus AF-NOTICES-V2. L'enjeu est donc d'abord d'avoir une version où le corpus soit complet.

On en profite pour faire évoluer la structure du corpus et son contenu pour le rapprocher d'AF-VOIX-OFF :

  • le corpus se présente maintenant comme une suite d'émissions (text) composées de sujets (div),
  • il ne contient donc plus que les notices sujets (rattachées à une émission), il n'y a plus les notices isolées.
  • les noms des structures et des propriétés du corpus se rapprochent aussi, autant que possible, des choix fait pour VOIX-OFF.
  • ajout d'une propriété id sur <div> (xsl), pour alléger les interrogations (portant fréquemment sur cette propriété) et pour unifier la modélisation avec celle d'AF-VOIX-OFF-V3 et versions suivantes ;
    • ajout de xsl/2-front/div-identifiant2div-id.xsl dans le répertoire src du sharedocs
Version 4

Le travail effectué par Matthieu Frey a permis de rajouter des indications de synchronisation manquantes. L'exploitation de ces informations doit permettre de générer une nouvelle version du corpus dans lequel les sujets sont tous ordonnés chronologiquement au sein des émissions.

Par ailleurs, quelques améliorations pourraient être encore apportées à cette occasion :

  • faciliter le retour à la vidéo : s'il est compliqué de le faire de façon très intégrée comme dans AF-VOIX-OFF, voir si la fourniture d'un lien à copier-coller dans le navigateur serait plus accessible.

Spécifications

Version 1

Le corpus source est au format Excel .xlsx, avec un sujet par ligne et un fichier par année.

Les fichiers se trouvent dans sharedocs :

https://sharedocs.huma-num.fr/#/2139/7000/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF
davs://sharedocs.huma-num.fr/dav.php/@Shares/(2139)%20ANR/(7000)%20ANTRACT/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF

Noms des colonnes :

  • Ancien lien (info.)
  • Anciens Supports
  • Canal de diffusion
  • Catalogage (info.)
  • Classe de niveau
  • Corpus (Aff.)
  • Corpus Anglais (Aff.)
  • Correspondant de chaine
  • Date de création
  • Date de diffusion
  • Date de modification
  • Date de niveau de catalogage
  • Date de niveau d'indexation
  • Dernier intervenant
  • Descripteurs (Aff. Col.)
  • Descripteurs (Aff. Lig.)
  • Diffusion (aff.)
  • Document dévolu INA
  • Document fonds TF1
  • Documentaliste
  • Domaine (Aff.)
  • Domaine (nom)
  • Domaine (statut)
  • Dossier de production
  • Durée
  • Extension géographique (info.)
  • Fichiers (Aff. abrégé)
  • Fichiers (Aff. étendu)
  • Générique (Aff. Col.)
  • Générique (Aff. Lig.)
  • Genre
  • Gestion de documents (info.)
  • Identifiant de la notice
  • Identifiant Matériels (info.)
  • Ind. notice verrouillée
  • Indexation (info.)
  • Inventaire
  • Langue de la notice
  • Langue sous-titrage / doublage
  • Langue VO / VE
  • Lien (Aff.)
  • Lien de rediffusion (info.)
  • Lien notice principale
  • Lieu de rediffusion
  • Mandat de l'émission
  • Matériel de rediffusion
  • Matériels (Détail)
  • Matériels dispo (Détail)
  • Mode de diffusion
  • Multidiffusion (Aff.)
  • N° Ordre dans collection (info.)
  • N° Ordre du vidéogramme (info.)
  • N° Série dans collection (info.)
  • N° Série dans sous-collection (info.)
  • Nature de production
  • Niveau de catalogage atteint
  • Niveau d'indexation atteint
  • Nom fichier segmenté (info)
  • Notes
  • Notes du titre
  • Notes juridiques
  • Numéro ISAN
  • Oeuvres
  • Origine du fonds (code)
  • Origine du fonds (lib.)
  • Présence public
  • Producteurs (Aff.)
  • Public destinataire
  • Rediffusion (Aff.)
  • Référence extérieure
  • Résumé
  • Séquences
  • Société de programmes
  • Sous-titrage / doublage
  • Statut de numérisation
  • Statut Théma
  • Témoin niv. de catalog. validé
  • Témoin niv. d'indexation validé
  • Thématique
  • Thèque
  • Titre collection
  • Titre collection (Aff.)
  • Titre de collection de rediffusion
  • Titre propre
  • Titre sous-collection
  • Titre tranche horaire
  • Titre vidéogramme
  • Type de date
  • Type de date (info.)
  • Type de fonds
  • Type de notice
  • Usage (Aff.)
  • Version courte / longue
  • Version originale / étrangère

On produit des sources .xml pour un import XTZ.

Composition et structure du corpus cible

Le corpus est structuré de la façon suivante :

  • chaque année (1945 à 1969) correspond à un texte (text) du corpus TXM. L'année est encodée dans deux propriétés de la structure “text” : 'id' et 'annee'
    • chaque édition [de texte] est paginée par sujet (une notice sujet est éditée entièrement en une seule page, lors du retour au texte).
    • chaque structure « sujet », au sein de chaque année, correspond à une ligne du tableau Excel source. Cette structure « sujet » a pour propriétés certaines informations de colonnes « métadonnées » du tableau Excel (voir ci-dessous) et pour sous-structures d’autres informations « textuelles » de colonnes (voir plus bas)
    • chaque structure “sujet” a pour propriétés (métadonnées) les informations issues de la notice :
      • identifiantdelanotice
      • identifiantmaterielsinfo
      • genre
      • duree
      • datedediffusion
      • datedediffusionannee [les propriétés suivantes ont été extraites de la 'datedediffusion']
      • datedediffusionmois
      • datedediffusionjour
      • datedediffusionjoursemaine
      • n [numéro d'ordre de la diffusion dans l'année] [BP : ? semble vide.]
    • chaque structure “sujet” a pour sous-structures (contenus textuels) :
      • titrepropre
      • resume
      • descripteursafflig
      • descripteursaffcol
      • sequences

Chaque sous-structure textuelle (le titre propre, le résumé, etc.) contient un paragraphe (structure 'p').

Mais surtout, chaque champ de descripteur est composé d'éléments 'descripteur' avec un type valant DEI, DEL (plutôt des lieux), DET (plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres).

Version 2

Les évolutions concernent :

  • le renommage de la structure “sujet” en “notice” pour rendre compte de la mixité du tableau Excel (une ligne correspond majoritairement à des notices sujets, mais également à des notices sommaines ou à des notices isolées)
  • le remplacement de certaines métadonnées :
    • identifiantmaterielsinfo (“Identifiant Matériels (info.)”) remplacé par nomfichiersegmente (“Nom fichier segmenté (info)”)
  • la suppression de certaines métadonnées :
    • n [numéro d'ordre de la diffusion dans l'année] : était vide en pratique.
  • l'ajout de nouvelles métadonnées :
    • datedediffusiontri (AAAA-MM-JJ) (c'est une métadonnée calculée à partir des notices, comme datedediffusionannee etc.)
    • typedenotice
    • liennoticeprincipale
    • notesdutitre
    • langue : valeur du champ “Langue VO / VE”
    • naturedeproduction
    • producteurs : il serait tentant de structurer le contenu en : producteurnom, producteursigle, producteurlieu, producteurannee, mais à première vue ce n'est pas évident car il peut y avoir plusieurs producteurs, ou/et des organismes qui jouent d'autres rôles (diffuseur, éditeur, organisateur de sepctacle, etc.)
    • thematique
    • typededate (issu de “Type de date” ou “Type de date (info.)” qui sont a priori de contenu identique - les champs “(info.)” corespondent à une information à afficher)
  • l'évolution de certains contenus textuels :
    • on ne garde qu'un des deux champs descripteurs (entre descripteursafflig et descripteursaffcol : le contenu est le même, c'est simplement la présentation qui change, il suffit d'utiliser la plus commode à exploiter)
    • si possible, gérer les retours à la ligne dans les champs Résumé et Séquences pour construire des paragraphes ou items de liste (quand cela commence par un tiret)
      • [BP] et pour anticiper la tokenisation (SH: à confirmer)
  • l'ajout de nouveaux contenus textuels
    • generique : chaque participant est défini par une structure 'participant' avec une propriete 'role' reprenant les codes de rôles (PAR, DIR, OPV, SCE, etc.).

Il serait intéressant aussi de pouvoir enrichir l'édition :

  • rendre compte du découpage des éléments et de leur type dans les champs structurés (descripteurs, générique, producteurs) ;

La liste des colonnes utilisées est :

  • Date de diffusion
  • Descripteurs (Aff. Col.)
  • Durée
  • Générique (Aff. Col.)
  • Genre
  • Identifiant de la notice
  • Langue VO / VE
  • Lien notice principale
  • Nature de production
  • Nom fichier segmenté (info)
  • Notes du titre
  • Producteurs (Aff.)
  • Résumé
  • Séquences
  • Thématique
  • Titre propre
  • Type de date
  • Type de notice

Composition et structure du corpus cible

Le corpus est structuré de la façon suivante :

  • chaque année (1945 à 1969) correspond à un texte (text) du corpus TXM. L'année est encodée dans deux propriétés de la structure “text” : 'id' et 'annee'
    • chaque édition [de texte] est paginée par sujet (une notice sujet est éditée entièrement en une seule page, lors du retour au texte).
    • chaque structure « notice », au sein de chaque année, correspond à une ligne du tableau Excel source. Cette structure « notice » a pour propriétés certaines informations de colonnes « métadonnées » du tableau Excel (voir ci-dessous) et pour sous-structures d’autres informations « textuelles » de colonnes (voir plus bas)
  • chaque structure “notice” a pour propriétés (métadonnées) les informations issues de la notice :
    • identifiantdelanotice
    • nomfichiersegmente
    • typedenotice
    • liennoticeprincipale : permet de consulter le sommaire de l'édition
    • datedediffusion : JJ/MM/AAAA [les propriétés suivantes ont été extraites de cette métadonnée :]
    • datedediffusionannee : AAAA
    • datedediffusionmois : MM
    • datedediffusionjour : JJ
    • datedediffusionjoursemaine : lundi, mardi, etc.
    • datedediffusiontri : AAAA-MM-JJ
    • typededate
    • notesdutitre
    • genre
    • duree
    • langue
    • naturedeproduction
    • producteurs
    • thematique
  • chaque structure “notice” a pour sous-structures (contenus textuels) :
    • titrepropre
    • resume
    • sequences
    • descripteurs : chaque descripteur est défini par une structure 'descripteur' avec un type valant DEI (“image”), DEL (“localisé”), DET (“thématique” - plutôt des moments) ou DSO (peu fréquent, semble concerner plutôt des oeuvres)
    • generique : chaque participant est défini par une structure 'participant' avec une propriete 'role' reprenant les codes de rôles (PAR, DIR, OPV, SCE, etc.).

Perspectives évoquées après la version 2

BP & SH octobre 2018, suite à réunion avec JC 28 septembre

Faire le lien entre une notice et la vidéo non segmentée correspondante

Le champ “Matériels (Détail)” est très (trop) complet, il indique tous les supports matériels où se trouve le sujet. Pour une prochaine fois, JC pourrait produire une information plus ciblée où l'on ne trouve que le matériel de rang 1, à savoir celui que l'on privilégie (voir le tableau link2mats.csv).

Exploitation de Sommaires

Les notices sommaires n'ont pas de contenu propre.

On observe que la notice sommaire n'a pas de champ dans lequel retrouver le sommaire de la livraison tel qu'on le voit dans le texte de commentaires ; quand un sommaire est donné dans InaMediaPro, il doit être calculé automatiquement à partir des liens aux notices sujet. (Mais nous n'avons pas parlé de l'ordre des sujets entre eux, il n'est pas évident s'il est déterminé avec les informations que nous avons).

Les textes de commentaires contiennent des sommaires qu'on pourrait essayer de rapprocher des notices sommaires, de la même façon que l'on pourrait rapprocher le texte des commentaires de sujet des notices sujets.

Autres champs dont l'exploitation peut être envisagée (à réfléchir suite à expérimentation de la v2)

Dans l'examen des champs des notices documentaires INA potentiellement exploitables, nous avons noté quelques champs “pour mémoire” : leur pertinence n'est pas évidente pour l'analyse, mais ils seraient éventuellement à reconsidérer lors d'un 3e import éventuel, à l'aune des retours d'expérience sur cette v2. Ces champs d'intérêt potentiel / à voir sont :

  • Corpus (Aff.) : donne des indications thématiques, mais l'usage est surtout commercial ; on a déjà des descripteurs, et on va expérimenter le champ Thématique. Si on devait exploiter ce champ, il faudrait voir si on garde ou si on transforme les chevrons (pour la facilité d'interrogation).
  • Mandat de l'émission
  • Notes : contenu très (trop ?) variable ; il faudrait voir quelle exploitation on pourrait en faire dans TXM (gros index peu utile ?).
  • Notes juridiques : intérêt possible pour les recherches Antract, mais intérêt à réfléchir dans le cadre d'un usage textométrique.

En revanche, on a vu avec JC que les champs suivants ne sont a priori pas pertinents :

  • Statut de numérisation
  • Témoin niv. de catalog. validé, Témoin niv. d'indexation validé (et d'une façon générale les autres traces de suivi du traitement documentaire, on n'a pas bien les connaissances pour en tirer profit et ce n'est pas dans les préoccupations du projet)

Sémantique des descripteurs

Enfin, les descripteurs sont issus d'un thesaurus, à réfléchir si ces relations peuvent ouvrir des perspectives intéressantes.

Composition et structure du corpus cible

Le corpus est structuré de la façon suivante :

  • l'unité textuelle est une notice sommaire
  • elle est composée de structures internes
    • leurs propriétés sont les métadonnées sujets (colonnes de métadonnées)
    • leur contenu est le contenu des notices sujets (colonnes de contenu texte)
    • le lien entre une notice sujet et une notice sommaire est fait par la colonne “identifiant de notice [principale]”
  • le retour à la vidéo se fait à la vidéo de journal complet en streaming Okapi

Relation sommaire ↔ sujet :

  • les structures sujet sont identifiées par la relation 'notice sujet'→'notice principale' et leur position interne par leurs timecodes
  • les notices sujets n'ayant pas de timecode :
    • sont mises en vrac à la fin du contenu de la notice sommaire dans une structure sujet ayant en plus une propriété nonsynchronisé=true

Version 3

Pour l'instant tout est défini dans la recette de la version 3.

Solutions

Versions 0 et 1

Une macro Excel2XML a été créée pour transformer ces tableaux Excel en fichiers XML pour import XTZ+CSV. Une macro supplémentaire ExcelDir2XML a été créée pour faire itérer la première sur l'ensemble des fichiers d'un répertoire.

Les macros Excel2XML et ExcelDir2XML (évolution de CSV2XML) ont été publiées par Serge le 2 février 2018. La doc est à la place habituelle sur le wiki txm-users, page de documentation des macros.

Pour l'instant les deux macros restent très génériques, pour pouvoir être utilisées pour d'autres corpus sous forme de tableau.

Remarque : on remarquera que les noms des metadonnées et des structures du corpus sont calculés à partir des noms des colonnes des fichiers Excel en leur appliquant un algorithme automatique de :

  • minusculisation
  • suppression des diacritiques
  • suppression des caractères non-alphanumérique (comme l'espace, etc.)

Exemples :

  • 'Descripteurs (Aff. Col.)' → 'descripteursaffcol'
  • 'Séquences' → 'sequences'

Paramètres de la macro

Les paramètres utilisés pour la macro ExcelDir2XML sont :

  • inputDirectory : /home/sheiden/Documents/projet-antract/ina-dataset/Excel/xlsx
  • sheetName : EMISSION
  • rootTag : annee
  • textTag : sujet
  • metadataColumnList : Identifiant de la notice,Date de diffusion,Durée,Genre,Identifiant Matériels (info.)
  • dateColumnList : Date de diffusion
  • textColumnList : Titre propre,Résumé,Descripteurs (Aff. Lig.),Descripteurs (Aff. Col.),Séquences

Paramètres d'import XTZ

Les paramètres spécifiques sont :

  • Éditions / Nombre de mots par page : 50000
  • Plans textuels / Hors texte à éditer : metadata,head

Version 2

La macro Excel2XML est adaptée pour tenir compte de toutes ces évolutions :

  • ajout d'une métadonnée de pattern “AAAA-MM-JJ” pour le tri alphabétique des métadonnées de type 'date' (voir le paramètre 'dateColumnList') ;
  • ajout du paramètre 'prefixColumnList' pour les colonnes de texte
    • le traitement adhoc des cellules de la forme /(?s)[A-Z]{3}:? *([^;\n]+?) +[;\n]/ est remplacé par un pilotage générique par le paramètre 'prefixColumnList'
    • la structure interne portant l'attribut @type est nommée <item>
    • un saut de ligne est inséré entre les structures internes
  • ajout du paramètre 'listColumnList' pour les colonnes de texte
    • les tirets ('-') en début de lignes dans ces champs sont utilisés pour les encoder en liste à puces non numérotées

Paramètres de la macro

Les nouveaux paramètres utilisés pour la macro ExcelDir2XML sont :

  • inputDirectory : /home/sheiden/Documents/projet-antract/ina-dataset/Excel/xlsx
  • sheetName : EMISSION
  • rootTag : annee
  • textTag : notice
  • metadataColumnList : Identifiant de la notice,Nom fichier segmenté (info),Type de notice,Lien notice principale,Date de diffusion,Type de date,Notes du titre ,Genre,Durée,Langue VO / VE ,Nature de production ,Producteurs (Aff.),Thématique
  • dateColumnList : Date de diffusion
  • textColumnList : Titre propre,Résumé,Séquences,Descripteurs (Aff. Col.),Générique (Aff. Col.)
  • prefixColumnList : Descripteurs (Aff. Col.),Générique (Aff. Col.)
  • listColumnList : Résumé,Séquences

Paramètres d'import

On dépose dans le répertoire source les répertoires 'css' et 'xsl' qui règlent le style des éditions et la référence par défaut.

Les paramètres spécifiques sont :

  • Éditions / Nombre de mots par page : 50000
  • Plans textuels / Hors texte à éditer : metadata,head,span

Version 3

Faire évoluer La macro Excel2XML → Table2XML pour tenir compte de toutes ces évolutions :

  • ajout d'une capacité de déclaration de ligne de niveau <text> et de ses métadonnées
  • ajout d'une capacité de sélection de lignes à traiter
  • ajout du paramètre 'prefixesColumnList' pour les colonnes de texte
    • le traitement adhoc des cellules de la forme /(?s)[A-Z]{3}:? *([^;\n]+?) +[;\n]/ est remplacé par un pilotage générique par le paramètre 'prefixColumnList'
    • la structure interne portant l'attribut @type est nommée <item>
    • un saut de ligne est inséré entre les structures internes
  • ajout du paramètre 'listColumnList' pour les colonnes de texte
    • les tirets ('-') en début de lignes dans ces champs sont utilisés pour les encoder en liste à puces non numérotées

Recettes

Version 3

Création du corpus AF-NOTICES-V3 :

Attention de bien copier les espaces dans certaines valeurs de paramètres de la macro. Par exemple le nom de la colonne 'Nature de production' contient bien un espace à la fin.
  • A) préparer les sources pour l'import XTZ
    • récupérer la version la plus récente et corrigée du fichiers Excel des notices 'ANTRACT_AF_Notices_3oct21_2.xlsx' dans le répertoire Sharedocs 'ANR > ANTRACT > SP2 Corpus & Recherche technologique > TXM > corpus > notices documentaires > version3 > src'
    • récupérer la dernière version de la macro table/Table2XML depuis les sources de TXM https://forge.cbp.ens-lyon.fr/svn/txm/tmp/org.txm.groovy.core/src/groovy/org/txm/macro/table/Table2XMLMacro.groovy ou installer TXM 0.8.2 [plus tard]
    • depuis TXM 0.8.1, lancer la macro Table2XML avec les paramètres suivants :
      • inputFile : chemin vers ANTRACT_AF_Notices_3oct21_2.xlsx
      • outputDirectory : répertoire où seront créés les fichiers XML résultats (futur répertoire à importer par XTZ)
      • textIDColumn : Identifiant de la notice
      • textSelector : Type de notice=Notice sommaire
      • textOrderColumn : <vide> (ne rien mettre dans le champ, si dateColumnTypeList est renseigné il sera utilisé)
      • textMetadataColumnList : Identifiant de la notice,Date de diffusion,Titre propre,Notes du titre ,Durée,Nom fichier segmenté (info),antract_duree,antract_tc_date,antract_tc_type
      • textContentColumnList : <vide> (ne rien mettre dans le champ)
      • teiStructures : <décoché>
      • structureTag : div
      • structureSelector : Type de notice=Notice sujet
      • textJoinColumn : Lien notice principale
      • structureMetadataColumnList : Identifiant de la notice,Notes du titre ,Date de diffusion,Type de date,Durée,Genre,Langue VO / VE ,Nature de production ,Producteurs (Aff.),Thématique,Nom fichier segmenté (info),antract_debut,antract_fin,antract_duree,antract_tc_date,antract_tc_type
      • structureContentColumnList : Titre propre,Résumé,Séquences,Descripteurs (Aff. Lig.),Générique (Aff. Lig.)
      • structureTitleColumnList : <vide>
      • structureSortColumnList : antract_debut,Identifiant de la notice
      • dateColumnTypeList : Date de diffusion
      • prefixesColumnTypeList : Descripteurs (Aff. Lig.),Générique (Aff. Lig.)
      • listColumnTypeList : <vide>
      • mediaColumnTypeList : antract_video,antract_debut,antract_fin, mediaURLPattern : https://XXX [ces paramètres seront développés plus tard]
      • debug : <décoché>
        → les sources .xml sont produites dans le répertoire de sortie ; 1 émission ne contenant aucun sujet, donc aucun mot, a été ignorée.
  • B) importer les sources par XTZ pour construire le corpus AF-NOTICES-V3
    • copier la dernière version des répertoires sources css et xsl depuis le répertoire Sharedocs 'ANR > ANTRACT > SP2 Corpus & Recherche technologique > TXM > corpus > notices documentaires > version3 > src' dans le répertoire de sortie (BP, 2021-10-11 : il y a eu des derniers réglages dans ces fichiers pour : (i) avec dans les références les dates des émissions plutôt que celles des sujets, et (ii) avoir à la fois les propriétés id et identifiant-de-la-notice sur les div).
    • lancer l'import XTZ sur le répertoire de sortie
      • les paramètres spécifiques sont :
        • Éditions
          • Paginer : true
          • Nombre de mots par page : 50000
        • Commandes
          • structures délimitant les contextes de concordances : div
        • Plans textuels
          • Hors texte : teiHeader
          • Hors texte à éditer : metadata,head,span
            → le corpus AF-NOTICES-V3 est créé
    • Une fois l'import terminé, déposer le fichier de documentation au format HTML ici :

$TXMHOME/corpora/AF-NOTICES-V3-AAAA-MM-JJ/doc/index.html

Retours

Version 1

Retours sur la première version, en vue de l'établissement d'une version ultérieure.

BP, 2 février 2018

Traitements lors de l'import

  • dates : années oui, mois peut-être, doutes sur utilité de jour et de jour de la semaine. Ajouter une date de diffusion pour disposer d'un tri chronologique via une seule métadonnée, type AAAAMMJJ ?
  • <descripteur> : génial !

ex.

 INDEX sur <descripteur>[_.descripteur_type="DEI"]</descripteur> 

ou sur

 <descripteur>[_.descripteur_type="DEI"]{2,}</descripteur> 

Mettre un point virgule pour séparer les différents descripteurs dans l'édition ?

  • possibilité d'aller à la ligne pour chaque tiret ou séquence de tirets dans <sequences> (et <resume>), voire de découper en <p> ou <item> selon les retours à la ligne des sources ? Les tirets ne sont pas toujours détachés, ex.

Identifiant de la notice : AFE01000301, Date de diffusion : 21/06/1951

  • La page de l'édition vise à correspondre au sujet, cf. documentation de la macro excel2xml. C'est commode.

Quelques observations sur le corpus

  • genres : tout est “presse filmée”, et une minorité de sujets sont quelque chose en plus (reportage, rétrospective, etc. → 5 catégories mineures, certaines quasi vides -déclaration et rétrospectives). → à observer en faisant une partition assistée sur sujet/genre et en ne créant que 5 classes en fonction du 2e genre.

Ce déséquilibre des genres fait que l'exploitation de la métadonnée sera sans doute très limitée pour les études contrastives.

  • titrepropre
    • Vue sur les titres répétés :
      INDEX de <titrepropre>[]+</titrepropre>
    • Vue sur les sujets dominants :
      INDEX de [] within titrepropre
    • Vue d'ensemble par AFC sur partition par année :
      INDEX de [] within titrepropre, Fmin=50
      TABLE LEXICALE marges = index
        suppression des lignes des mots grammaticaux, des mois, 
        "est"%c (majoritairement verbe), M Monsieur MONSIEUR,
        fusion des lignes égales modulo la casse
      AFC : l'effet diachronique semble plutôt sur l'axe 2
      macro CAFilter170323 -> plante et semble corrompre l'AFC, + impossible de recalculer l'AFC [essayer de reproduire ?]

À voir avec INA

  • amélioration du choix des éléments de texte et des métadonnées dans les rubriques des notices ?
    Notamment,
    • supprimer un des deux champs descripteurs ?
    • mettre aussi les descripteurs en métadonnées ? (ensembliste, un peu moins évident à l'usage)
    • meilleur identifiant pour faire le lien avec le fichier video ? (premier de “Identifiant Matériels (info.)” ?)
  • export plus précis sur Résumé/Séquences, qui distingue (sépare) mieux les deux ? En effet on retrouve des contenus de type Séquences dans des Résumés. (Sinon correction manuelle dans les xlsx avec repérage aidé par TXM ? → Non car 6000 occ./23114)
  • quelles indications donner pour pouvoir exploiter en édition synoptique les images des scans des tapuscrits du commentaire voix-off ? Genre :

sujet ↔ texte commentaire ↔ image(s) page(s)

JC, 6 juin 2018
  • utiliser le contenu du champ “Générique (Aff. Lig.)” comme métadonnée ou comme section textuelle ou les deux.
    • savoir quels opérateurs de prise de vue (OPV) était actif sur quelle période de temps
    • connaître les « participants » (PAR), c’est-à-dire souvent les personnes filmées
  • utiliser le champ « lien notice principale » permettrait d’associer les notices « sujet » (qui concernent un reportage) avec la notice « sommaire » qui décrit l’ensemble du programme.

Version 2

BP, 2 octobre 2018
  • Le générique n'est pas affiché en liste pour 475 notices (<generiqueaffcol>[!item]), c'est peut-être lié à un certain usage des parenthèses (on trouve des parenthèses qui passent bien dans les descripteurs), ex. :
    • AFE86002940 (11 janvier 1945) : OPV Barrois, Georges (séquence Colonel Fabien) OPV Batton, Jacques (séquence Romain Rolland)
  • Pour les recherches il faut bien avoir conscience que quand une structure est vide (par exemple 'sequences'), alors elle est absente du texte (notice) ; d'autant que ce doit être le comportement général de CQP (pas de structures vides).
  • Dans les résumés ou séquences, dans les sources, on a quelquefois un tiret qui n'est pas précédé par un retour chariot et est collé au mot précédent (et suivi d'un blanc) : dans ce cas, la tokenisation est mauvaise (le tiret est collé au mot qui précède). Une correction des sources qui repérerait ce motif et ajouterait un retour chariot pourrait être une solution. En l'état l'impact reste limité (17 occurrences sur tout le corpus de [sequences & word=“\p{L}+-”]).
BP, 6 avril 2020
  • Le champs Séquences comporte des tabulations. Cela interfère si on fait un export de concordance avec les paramètres par défaut. Étudier peut-être leur remplacement par des espaces avant import ?

Version 3

BP, 24 septembre 2021 : retours sur l'état du corpus généré (non sur l'import lui-même)

Métadonnées : remarques générales

  • les métadonnées sélectionnées pour les émissions et les sujets correspondent bien à ce qu'on a fait pour AF-VOIX-OFF, c'est ce qu'on voulait, mais en y regardant de plus près certaines ne sont pas vraiment utiles et gagneraient à être retirées, cf. ci-après.
  • on peut retirer antract_video des métadonnées (c'est redondant avec l'identifiant de la notice) (simple ajustement des valeurs passées à la macro).
  • ne pas afficher les métadonnées dérivées de la date de diffusion qui n'apportent pas d'information mais sont plus là pour simplifier les interrogations : date-de-diffusion-jour, date-de-diffusion-mois, date-de-diffusion-annee, date-de-diffusion-tri.

Métadonnées des émissions

  • il ne semble pas utile d'afficher text-order (qui a surtout un emploi interne et duplique la date pour tri).
  • il n'est pas utile pour les émissions d'avoir antract-debut (qui vaut toujours 00:00:00:00 par construction des nouveaux fichiers vidéo) et antract-fin (on peut ne garder qu'antract-duree pour le comparer au champ duree des catalogueurs).
  • pour le “titre” de la page, la date de diffusion (pas du tout affichée !) devrait être l'élément principal, éventuellement avec le titre propre ; pas sûr que l'identifiant soit vraiment utile (les retours à la vidéos devraient se faire principalement au niveau des sujets) ;

Métadonnées des sujets

  • les champs textuels n'ont pas à apparaître dans les métadonnées : titre propre, résumé, séquences, descripteurs, générique.
  • je me demande s'il ne faudrait pas revenir à une présentation analogue à celle du corpus v2, à savoir pas de “titre” en haut de la page, juste quelques métadonnées, puis on arrive tout de suite sur le “titre propre” (qui visuellement apparaît sans avoir besoin de solliciter l'ascenseur). Ou bien si on met un “titre”, peut-être l'identifiant de la notice, pour qu'il soit très accessible pour faciliter un retour au texte sur Okapi, mais il ne faudrait pas que ce soit au détriment de l'apparition du titre propre dans l'affichage du haut de la page.

Contenus textuels

  • Le texte est pauvre en structures. Il faut pouvoir situer chaque mot dans son champ (titre propre, ou résumé, ou séquence, etc.) ; dans AF-VOIX-OFF-V2 le fait de recourir à des structures me convenait très bien. Matthieu propose d'ajouter une propriété type sur les paragraphes, pour faciliter la construction de sous-corpus simples. Pourquoi pas, mais cela ne remplacerait pas des structures : par exemple pour faire des requêtes qui cherchent les premiers mots de séquences (Franck s'en sert).
  • Garder l'ordre de AFNOTICES-V2, avec les séquences juste après le résumé (ce sont deux champs très proches aussi dans leur emploi) : je vais vérifier qu'il suffit juste de changer la valeur du paramètre structureContentColumnList (en : Titre propre,Résumé,Séquences,Descripteurs (Aff. Lig.),Générique (Aff. Lig.)).
  • [BP, 2021-09-27, test avec Table2XML du jour] Quelques petits défauts de présentation dans l'édition (à moins que je m'y sois mal prise dans l'import ?) : les paragraphes des Résumés et des Séquences sont numérotés (sans raison à mon avis) ; et les listes à puces des Descripteurs et du Générique sont plutôt trop aérées (pas besoin d'avoir une ligne blanche entre chaque item).
    • MD “resume” devait être dans la liste de listColumnTypeList
  • Traitement des tirets :
    • je pense qu'il faut les laisser (ne pas les “impliciter” avec une structure <p>)
    • certains tirets de liste ne sont pas précédés d'un retour chariot dans le excel source : voir la suggestion de pré-traitement du wiki, et en fait tous les retours notés sur la v2
  • Je ne vois pas trop l'intérêt de la plupart des propriétés pour les structures intra-textuelles, à l'exception de @type pour <item>, (en tout cas telles qu'elles sont mises en oeuvre ici) :
    • @rend et @type pour <list> (mais @type a peut-être une utilité technique, pour la construction de l'édition ?)
    • @rend pour <p>
    • @id, @n et @type pour <titre-propre>
BP, 27 septembre 2021 : retours sur l'import (macro Table2XML puis import XTZ, cf. recette 3)
  • Il y a un bug qui fait que la macro peut refuser de se lancer, mais qui se résout en quittant et relançant TXM.
  • Connu mais à ne pas oublier (au moins pour prévenir les utilisateurs) : la boîte de dialogue s'affiche très mal, on ne voit pas toujours le nom des paramètres et l'affichage de leur valeur se fait dans des champs parfois trop étroits, en fait on remplit ce formulaire un peu à l'aveuglette en suivant l'ordre des paramètres donné ailleurs.
  • J'ajuste les paramètres comme suit (en gras les paramètres qui ont changé - moins de valeurs dans les métadonnées, et ordre plus clair ou ayant un effet) (noter qu'il y a un nouveau paramètre, structureTitleColumnList) :
    • inputFile : chemin vers ANTRACT_AF_Notices_3oct19.xlsx
    • outputDirectory : répertoire où seront créés les fichiers XML résultats (futur répertoire à importer par XTZ)
    • textIDColumn : Identifiant de la notice
    • textSelector : Type de notice=Notice sommaire
    • textOrderColumn : <vide> (ne rien mettre dans le champ, si dateColumnTypeList est renseigné il sera utilisé)
    • textMetadataColumnList : Identifiant de la notice,Date de diffusion,Titre propre,Notes du titre ,Durée,Nom fichier segmenté (info),antract_duree,antract_tc_date,antract_tc_type
    • textContentColumnList : <vide> (ne rien mettre dans le champ)
    • structureTag : div
    • structureSelector : Type de notice=Notice sujet
    • textJoinColumn : Lien notice principale
    • structureMetadataColumnList : Identifiant de la notice,Notes du titre ,Date de diffusion,Type de date,Durée,Genre,Langue VO / VE ,Nature de production ,Producteurs (Aff.),Thématique,Nom fichier segmenté (info),antract_debut,antract_fin,antract_duree,antract_tc_date,antract_tc_type
    • structureContentColumnList : Titre propre,Résumé,Séquences,Descripteurs (Aff. Lig.),Générique (Aff. Lig.)
    • structureTitleColumnList : <vide>
    • dateColumnTypeList : Date de diffusion
    • prefixesColumnTypeList : Descripteurs (Aff. Lig.),Générique (Aff. Lig.)
    • listColumnTypeList : Résumé,Séquences
    • mediaColumnTypeList : antract_video,antract_debut,antract_fin, mediaURLPattern : https://XXX [ces paramètres seront développés plus tard]
    • debug : <décoché>
      → les sources .xml sont produites dans le répertoire de sortie
  • Par rapport à l'avertissement “Attention de bien copier les espaces dans certaines valeurs de paramètres de la macro. Par exemple le nom de la colonne 'Nature de production' contient bien un espace à la fin.” : finalement, la macro ne trime pas toutes les valeurs initiales (lues dans les paramètres et lues dans le tableau de Jean), cela n'arrive quand dans un second temps (pour la construction des noms de propriété) ?
  • La macro tourne bien ; c'est très intéressant d'avoir l'indication des deux émissions qui sont sans sujets et donc ont été retirées du corpus. En allant voir les données du tableau INA j'observe que les deux émissions sans sujets sont :
    • celle du 12 novembre 1953, pour laquelle il semble y avoir une erreur dans le tableau INA : lignes 10503 à 10513, colonne AQ (Lien notice principale), la valeur devrait être AFE86004874 au lieu de AFE86004873 (vérification avec colonne J Date de diffusion, et CM Type de notice). Je propose donc de corriger manuellement le tableau INA avant import en attendant le nouveau tableau (qui intégrera le travail de synchronisation de Matthieu Frey), et de faire la remontée à Jean pour correction dans les sources INA.
    • la dernière, datée 5 puis 12 mars 1969 mais ne semblant pas avoir été diffusée.
  • Pour l'import XTZ, je propose de régler en plus le paramètre suivant, dans le volet Commandes : structures délimitant les contextes de concordances : div
BP, 28 septembre 2021 : suite retours
  • Dans les listes, utilisées dans les Descripteurs et le Générique, il y a un bug sur la valeur du type du premier item. Pour l'observer, faire une CONCORDANCE de
    <item>[]+</item>

    et régler la propriété d'affichage sur item_type. Puis faire des retours au texte sur chaque ligne pour laquelle la valeur de type est un nombre.

BP, 30 septembre 2021 : suite retours
  • Il serait intéressant que la référence des concordances soit comme AF-VOIX-OFF (au time-code près) : text_date-de-diffusion-tri, div_identifiant-de-la-notice. Actuellement les ref utilisent div_date-de-diffusion-tri, or la date qui intéresse l'utilisateur c'est plutôt celle de l'émission que celle du sujet lui-même (dont on ne sait pas bien à quoi elle correspond exactement). Je vais voir si je peux rectifier cela simplement via la xsl.
public/antract/antract_corpus_notices.txt · Dernière modification: 2021/10/11 17:38 par benedicte.pincemin@ens-lyon.fr