Les métadonnées se trouvent dans les fichiers Excel des notices documentaires. Les fichiers se trouvent dans sharedocs :
https://sharedocs.huma-num.fr/#/2139/7000/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF davs://sharedocs.huma-num.fr/dav.php/@Shares/(2139)%20ANR/(7000)%20ANTRACT/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF
La question se pose de pouvoir disposer, dès la première version de l'import des transcriptions de voix off, des métadonnées des notices documentaires sujets.
Pour cela, la solution la plus simple serait que l'unité documentaire “transcription” corresponde au sujet INA, alors cela serait compatible avec l'architecture d'import de TXM actuelle.
JC a produit un découpage des vidéos au niveau du sujet, avec des fichiers nommés par leur identifiant de notice.
Cela permet au speech2text de générer des transcriptions de même, au niveau des sujets, avec l'identifiant de la notice.
L'idée générale est de s'appuyer sur le travail de sélection et organisation fait pour le corpus des notices documentaires : https://groupes.renater.fr/wiki/txm-users/public/antract/antract_corpus_notices#version_22
Dans un premier temps, si besoin, on peut fonctionner sans les métadonnées reconstruites (les diverses variations de représentation de la date de diffusion).
On peut écarter un certain nombre de fichiers :
Import des fichiers .trs avec métadonnées.
On utilise les fichiers .trs de la version 0.
Les transcriptions ne contenant aucun mot plantent la production d'éditions dans l'import Transcriber + CSV de TXM 0.7.91). Ces 2895 trancriptions sont donc retirées du corpus.
Pour obtenir leur liste :
egrep -c '^[^<].+$' *.trs|grep :0|tr '\n' ',' | sed -e 's/.trs:0//g' -e 's/,/, /g'>/tmp/out
Une nouvelle macro appellée MergeExcelDir a été développée pour fusionner les tableaux de métadonnées par années de l'INA.
Elle normalise les noms des colonnes (option normalizeIdentifiers).
Elle traite les valeurs multiples (option multipleValues), séparées par des “ ; ”, en les recodant en '|val1|val2|…|“ (voir par exemple le retour sur la prise en compte des opérateurs, colonne Générique (Aff. Lig.))
La macro est appelée sur les données de l'INA avec les paramètres suivants :
Identifiant de la notice,Nom fichier segmenté (info),Type de notice,Lien notice principale,Date de diffusion,Type de date,Notes du titre ,Genre,Durée,Langue VO / VE ,Nature de production ,Producteurs (Aff.),Thématique,Titre propre,Résumé,Séquences,Descripteurs (Aff. Lig.),Générique (Aff. Lig.)
Descripteurs (Aff. Lig.),Générique (Aff. Lig.)
Attention : bien noter l'espace à la fin du nom de certaines colonnes.
Le tableau de métadonnées résultant est composé de 23 115 lignes.
Les fichiers vidéos ne font pas partie des sources (trop lourds).
Après import ou chargement, il faut créer un lien dynamique du corpus vers le répertoire de fichiers vidéos pour que le retour au média fonctionne :
ln -s /media/sheiden/TXM-ANTRACT/181011/vis_sujet ~/TXM/corpora/AFVOIXOFFV01/media
L'association des métadonnées au corpus change vraiment le rapport au corpus et permet de mieux comprendre son contenu, notamment ce qui concerne les recouvrements/doublons de vidéos, cf. observations notées un peu plus bas.
La V0.1 du 26 avril 20129 présente deux difficultés ou bugs à corriger :
1) le tableau de métadonnées comporte des guillemets doubles, qui sont mal gérés lors de l'import (cf. retours d'Alice Brenon fin 2018, et ticket Bug #2471 - RCP: 0.7.9, quote error in metadata projection in XML files. Une solution dans l'immédiat serait de supprimer ou remplacer (par ex. par un guillemet simple/apostrophe ?) les guillemets des métadonnées.
2) Un caractère invisible (?) s'intercale entre le type et la valeur de chaque descripteur dans la propriété descripteursafflig, on l'observe par exemple en faisant les requêtes suivantes :
<text>[_.text_descripteursafflig=".*DEL.*"] -> des résultats <text>[_.text_descripteursafflig=".*DEL:.*"] -> des résultats <text>[_.text_descripteursafflig=".*DEL: .*"] -> des résultats <text>[_.text_descripteursafflig=".*DEL: P.*"] -> plus rien <text>[_.text_descripteursafflig=".*DEL: Pologne.*"] -> (rien non plus a fortiori) <text>[_.text_descripteursafflig=".*DEL: .P.*"%c] -> des résultats
Supprimer ce caractère ou/et voir si le traitement du champ “descripteurs (aff. col.)” (dont le contenu est normalement identique) serait plus simple ?
D'autres évolutions sont envisageables (à moyen terme) pour faciliter l'exploitation chronologique :
Autres observations :
Première étude des recouvrements/doublons/reprises dans le corpus (grâce aux métadonnées)
Or ces sujets n'apparaissent pas dans le corpus (sauf AFE85005282), ni dans la recherche inamediapro à cette date (8 octobre 1953), dans inamediapro on n'y accède que via le sommaire.
On a donc :