Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_voixoff

Corpus TXM des transcriptions speech2text de la voix off (commentaires) des Actualités Françaises

Historique des versions

Version 0

Une première version d'un corpus TXM sans métadonnées appelé AFVOIXOFFSUJ composé avec les premières transcriptions automatiques disponibles de la voix off des Actualités Françaises segmentées par sujets a été réalisée en octobre 2018.

Il a été déposé sur sharedocs dans :

https://sharedocs.huma-num.fr/#/2139/7000/SP2%20Corpus%20&%20Recherche%20technologique/TXM/Corpus/Corpus%20voixoff

Le répertoire contient :

  • AFVOIXOFFSUJ.txm : le corpus binaire
  • afvoixoffsuj-src.zip : l'archive du répertoire source

Spécification des sources et de l'Import

  • les métadonnées se trouvent dans les fichiers Excel des notices documentaires. Les fichiers se trouvent dans sharedocs :
    https://sharedocs.huma-num.fr/#/2139/7000/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF
    davs://sharedocs.huma-num.fr/dav.php/@Shares/(2139)%20ANR/(7000)%20ANTRACT/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF

Version 1

Métadonnées

La question se pose de pouvoir disposer, dès la première version de l'import des transcriptions de voix off, des métadonnées des notices documentaires sujets.

Pour cela, la solution la plus simple serait que l'unité documentaire “transcription” corresponde au sujet INA, alors cela serait compatible avec l'architecture d'import de TXM actuelle.

JC a produit un découpage des vidéos au niveau du sujet, avec des fichiers nommés par leur identifiant de notice.

Cela permet au speech2text de générer des transcriptions de même, au niveau des sujets, avec l'identifiant de la notice.

Spécifications

Composition des métadonnées

L'idée générale est de s'appuyer sur le travail de sélection et organisation fait pour le corpus des notices documentaires : https://groupes.renater.fr/wiki/txm-users/public/antract/antract_corpus_notices#version_22

Dans un premier temps, si besoin, on peut fonctionner sans les métadonnées reconstruites (les diverses variations de représentation de la date de diffusion).

Gestion du volume et des bugs des données

On peut écarter un certain nombre de fichiers :

  • Problèmes de segmentation de certains fichiers (en gros au dessus de 8000 octets du .trs)
  • Vidéos muettes (en gros en dessous de 660 octets du .trs).
  • Langue étrangère transcrite en français : s'appuyer sur la colonne Langue VO / VE du fichier excel des notices ?

Version 2

Choix des sources

Le corpus source est au format XML Vocapia ou XML Transcriber.

Remarques :

  • TXM ne peut pas importer le format XML Vocapia directement
  • le Transcriber ne contient pas d'informations au niveau du mot (comme le Vocapia)

Solution 1 : intégrer les informations au niveau du mot dans le Transcriber

→ une demande est en cours pour intégrer les informations au niveau du mot dans la sortie Transcriber

Solution 2 : importer le XML Vocapia

→ suppose le développement d'un nouveau module d'import. Un prototype d'import Vocapia a été réalisé dans le cadre de Matrice. Il faut préciser son niveau de développement et son statut.

Métadonnées

Pour la version 1, on a fait en sorte que l'unité documentaire “transcription” corresponde au sujet INA, pour être directement compatible avec l'architecture d'import de TXM existante.

Une solution plus puissante serait de développer la capacité à travailler directement à partir des sources INA. Une table de fichiers + synchronisation des sujets serait utilisée pour :

  • délimiter les sujets : séparer ou fusionner des fichiers
  • associer les métadonnées sujet aux transcriptions : au niveau des fichiers

Cela supposerait un développement en amont de l'import.

Synchronisation

Pour l'étape corpus v2 ou v3 la question pourra se poser d'aligner Séquences et voix off par les timecodes.

Développement des corpus

V0

Import direct des fichiers .trs produits par le LIUM, sans métadonnées.

Certains fichiers .trs ont été écartés :

  • le fichier 'liste.ods' indique la taille en octets de tous les fichiers de transcription
  • 'longueurs-trs.pdf' est la visualisation graphique de toutes ces tailles
  • 'no-words-file-sizes.ods' liste les transcriptions ne contenant pas de mots
    • l'heuristique utilisée est egrep -c '^[^<].+$' *, ce qui donne 692 fichiers sans mots
    • ces transcriptions ont été retirées parce qu'elles plantaient l'import

Les sources et les paramètres d'import sont inclus dans l'archive déposée dans sharedocs.

V0.1

Import des fichiers .trs avec métadonnées.

On utilise les fichiers .trs de la version 0.

Choix des transcriptions

Les transcriptions ne contenant aucun mot plantent la production d'éditions dans l'import Transcriber + CSV de TXM 0.7.91). Ces 2895 trancriptions sont donc retirées du corpus.

Pour obtenir leur liste :

egrep -c '^[^<].+$' *.trs|grep :0|tr '\n' ',' | sed -e 's/.trs:0//g' -e 's/,/, /g'>/tmp/out

Préparation des métadonnées

Une nouvelle macro appellée MergeExcelDir a été développée pour fusionner les tableaux de métadonnées par années de l'INA.

Elle normalise les noms des colonnes (option normalizeIdentifiers).

Elle traite les valeurs multiples (option multipleValues), séparées par des “ ; ”, en les recodant en '|val1|val2|…|“ (voir par exemple le retour sur la prise en compte des opérateurs, colonne Générique (Aff. Lig.))

La macro est appelée sur les données de l'INA avec les paramètres suivants :

  • columnList =
    Identifiant de la notice,Nom fichier segmenté (info),Type de notice,Lien notice principale,Date de diffusion,Type de date,Notes du titre ,Genre,Durée,Langue VO / VE ,Nature de production ,Producteurs (Aff.),Thématique,Titre propre,Résumé,Séquences,Descripteurs (Aff. Lig.),Générique (Aff. Lig.) 
  • multipleValues =
    Descripteurs (Aff. Lig.),Générique (Aff. Lig.) 

Attention : bien noter l'espace à la fin du nom de certaines colonnes.

Le tableau de métadonnées résultant est composé de 23 115 lignes.

Gestion des fichiers vidéo

Les fichiers vidéos ne font pas partie des sources (trop lourds).

Après import ou chargement, il faut créer un lien dynamique du corpus vers le répertoire de fichiers vidéos pour que le retour au média fonctionne :

ln -s /media/sheiden/TXM-ANTRACT/181011/vis_sujet ~/TXM/corpora/AFVOIXOFFV01/media

Fichiers du corpus

  • afvoixoff-0.1-src.zip : sources sans les vidéos
  • AFVOIXOFFV01.txm : binaire sans les vidéos

V0.2

Import des fichiers .trs transcriptions de vidéo émission (notices sommaires) d'octobre 2019 (plus de transcriptions sujets).

Les sujets deviennent des structures internes (Sections Transcriber) des transcriptions d'émissions.

Métadonnées issues du tableau unique avec timing de sujets Totem + analye de correspondances audio/vidéo

ANTRACT_AF_Notices_3oct19.xlsx

Il y a une sélection de métadonnées faite par l'INA + 6 nouvelles métadonnées de l'INA :

antract_debut
antract_fin
antract_duree
antract_video
antract_tc_type
antract_tc_date

Format des timecodes antract_debut et antract_fin : hh:mm:ss:ff, ff étant le nombre de frames après la seconde à 25 frames par secondes.

Unités textuelles

Le tableau pilote la création des unités textuelles, de leurs sections internes et les métadonnées des unités textuelles et sections internes :

  • trier le fichier Excel par date de diffusion (à faire)
  • l'unité textuelle = émission
    • les émissions sont décrites par les lignes dont le 'Type de notice' est 'Notice sommaire'
    • chaque émission est identifiée par un identifiant de notice sommaire (colonne “Identifiant de la notice”)
    • elle a des propriétés tirées de certaines colonnes renseignées (sous-ensemble des colonnes utilisées pour les sujets) :
      • Identifiant de la notice
      • Titre propre
      • Nom fichier segmenté (info)
      • Date de diffusion
      • Notes du titre
      • Durée
      • à faire :
        • retirer Genre et Type de date
        • ajouter colonnes des propositions de BP (colonnes sources 'nom source' + colonnes calculées 'nom interne')
    • ses propriétés sont des métadonnées de sujets ? BP : a priori non, si on met ces informations concernant les sujets au niveau des sections internes sujet (cf. ci-après).

Remarques :

  • [BP, 2019-10-17] : Dans la liste des propriétés des émissions ci-dessus, je viens de retirer deux items (“Genre” et “Type de date”) suite à l'étude présentée ci-après.

Sections internes "sujet"

  • l'unité textuelle est composée de structures 'div @type=sujet'
    • les sujets sont décrits par les lignes dont le 'Type de notice' est 'Notice sujet'
    • les (structures) sujets sont identifié(e)s par un identifiant de notice sujet (colonne 'Identifiant de la notice'), et dans la colonne 'Lien notice principale' on trouve l'identifiant de la notice principale (notice sommaire, émission) correspondante
    • nécessite la présence d'informations antract_debut et antract_fin (sinon le sujet est écarté dans la V0.2)
    • les structures sujets reçoivent comme propriétés les métadonnées de sujets
    • l'ordre des structures sujets est indiqué par l'ordre des métadonnées antract_debut (timing de début) quand elles sont présentes

Métadonnées de sujets

Attention aux noms de métadonnées terminés par un espace
Identifiant de la notice
Nom fichier segmenté (info)
Type de notice
Lien notice principale
Date de diffusion
Type de date
Notes du titre 
Genre
Durée
Langue VO / VE 
Nature de production 
Producteurs (Aff.)
Thématique
Titre propre
Résumé
Séquences
Descripteurs (Aff. Col.)
Générique (Aff. Col.)

Nouvelle proposition pour le choix, l'ordre et la présentation des métadonnées

C'est une proposition de Bénédicte le 18 octobre 2019, dans le contexte de la préparation du corpus VOIXOFF avec la nouvelle architecture où les sujets sont inclus dans les journaux (sommaires) et où il n'y a plus de sujets isolés.

En effet, dans ce nouveau contexte, le choix et l'ordre des métadonnées adoptés pour les notices paraît moins pertinent car certaines métadonnées qui ne sont plus utilisées sont mises en valeur en tête de list

Elle est notée ici, dans une section à part, pour étude et discussion, mais sera sans doute pour plus tard, car Serge propose de rester proche de l'état précédent, notamment en termes de métadonnées à garder/supprimer, en phase d'expérimentation et de débuggage.

Propriétés à présenter pour la structure 'text' (= journal = notice sommaire)

  • identifiantdelanotice
  • titrepropre
  • notesdutitre

[si possible dans une colonne à gauche :]

  • datedediffusion
  • datedediffusionjoursemaine
  • duree
  • nomfichiersegmente [à confirmer]
  • antractvideo

[si possible dans une colonne à droite, si besoin moins large :]

  • antractdebut
  • antractfin
  • antractduree
  • antracttctype
  • antracttcdate

Propriétés à présenter pour la structure 'sujet' (= notices sujets)

  • identifiantdelanotice
  • titrepropre
  • notesdutitre

[si possible dans une colonne à gauche :]

  • datedediffusion
  • datedediffusionjoursemaine
  • typededate
  • duree
  • genre
  • languevove
  • naturedeproduction
  • producteurs
  • thematique

[si possible dans une colonne à droite, si besoin moins large :]

  • nomfichiersegmente [à confirmer]
  • antractvideo
  • antractdebut
  • antractfin
  • antractduree
  • antracttctype
  • antracttcdate

[données textuelles des notices sauf titre propre :]

  • resume
  • sequences
  • descripteurs
  • generique

Autres métadonnées

Les propriétés réécrivant la date sous différents formats (datedediffusionannee, datedediffusionmois, datedediffusionjour, datedediffusiontri) ne sont si possible pas affichées dans l'édition (pour alléger) mais sont disponibles pour l'interrogation. L'utilisateur peut voir leur existence et leur format dans les propriétés du corpus.

Les colonnes Type de notice et Lien notice principale sont utilisées pour construire et structurer le corpus, mais ne sont pas reprises dans les propriétés.

À part ces deux cas, toutes les métadonnées utilisées et disponibles ont été listées ci-dessus.

Retour à la vidéo

On va faire un retour à la vidéo en streaming dans le serveur Okapi.

Relation notice -> vidéo

correspondance entre la transcription emission d'identifiant A et la vidéo en streaming dans okapi.

  • colonne “Identifiant de la notice”
  • colonne “antract_video” : nom du fichier mp4 de l'emission
  • colonne “Nom fichier segmenté (info)” * exemple de la 1e emission du 4 janvier 1945 : * MGCAE0011375--AP.01_000000_001124.mps /MGAFE0066017--AA.01_000000_001130.mps / * extraire la partie avant le 1er “_”

Préparation du corpus et nouvelles fonctionnalités TXM

Le corpus est construit à l'aide de la macro AddSections développée dans la phase 2.2 du chantier TXM ANTRACT.

Cette phase fait également évoluer la liseuse vidéo pour la lecture en streaming avec authentification.

Retours

V0

Le retour à la vidéo est validé.

V0.1

BP, 2019-05-06

L'association des métadonnées au corpus change vraiment le rapport au corpus et permet de mieux comprendre son contenu, notamment ce qui concerne les recouvrements/doublons de vidéos, cf. observations notées un peu plus bas.

La V0.1 du 26 avril 20129 présente deux difficultés ou bugs à corriger :

1) le tableau de métadonnées comporte des guillemets doubles, qui sont mal gérés lors de l'import (cf. retours d'Alice Brenon fin 2018, et ticket Bug #2471 - RCP: 0.7.9, quote error in metadata projection in XML files. Une solution dans l'immédiat serait de supprimer ou remplacer (par ex. par un guillemet simple/apostrophe ?) les guillemets des métadonnées.

2) Un caractère invisible (?) s'intercale entre le type et la valeur de chaque descripteur dans la propriété descripteursafflig, on l'observe par exemple en faisant les requêtes suivantes :

<text>[_.text_descripteursafflig=".*DEL.*"] -> des résultats
<text>[_.text_descripteursafflig=".*DEL:.*"] -> des résultats
<text>[_.text_descripteursafflig=".*DEL: .*"] -> des résultats
<text>[_.text_descripteursafflig=".*DEL: P.*"] -> plus rien
<text>[_.text_descripteursafflig=".*DEL: Pologne.*"] -> (rien non plus a fortiori)
<text>[_.text_descripteursafflig=".*DEL: .P.*"%c] -> des résultats

Supprimer ce caractère ou/et voir si le traitement du champ “descripteurs (aff. col.)” (dont le contenu est normalement identique) serait plus simple ?

D'autres évolutions sont envisageables (à moyen terme) pour faciliter l'exploitation chronologique :

  • possibilité de coder la date en AAAA-MM-JJ ?
  • possibilité d'ordonner le corpus par date ? (Progressions)

Autres observations :

  • intérêt a priori de la structuration en liste des descripteurs et génériques (interrogeables avec l'opérateur contains qui simplifie la syntaxe des requêtes)
  • modèle de langue TreeTagger = français parlé
    • dans les notices documentaires on a un autre modèle (l'habituel), il faudra que les utilisateurs d'Antract comprennent et arrivent à gérer les différences d'étiquettes ;
    • [frppos = “NAM”] manifestement inutilisable (en grande partie faute de majuscules dans les sources sans doute ?)

Première étude des recouvrements/doublons/reprises dans le corpus (grâce aux métadonnées)

  • Notices sommaires = concaténation dans le bon ordre des vidéos du numéro.
  • Certains sujets renvoient à une vidéo plus longue, dans le cas que j'ai observé AFE85008611, AFE85008612, AFE85008613 sont trois moments successifs d'une même unité vidéo mais le fichier vidéo associé est présenté dans son entier.
  • En cherchant un autre cas, je m'aperçois que des sujets composites analogues ne sont pas présents dans le corpus. Par exemple dans le sommaire AFE86004869 il y a plusieurs sujets qui sont composés, par exemple :
    • La rentrée des classes à Paris AFE85005278 + L'école clandestine de Beaunotte AFE85005279, ou encore
    • Un jeune aveugle sténo dactylo AFE85005281 + UN APPAREIL DE VISION ARTIFICIELLE AFE85005282

Or ces sujets n'apparaissent pas dans le corpus (sauf AFE85005282), ni dans la recherche inamediapro à cette date (8 octobre 1953), dans inamediapro on n'y accède que via le sommaire.

On a donc :

  • des redondances entre sommaires et sujets contenus
  • des redondances entre (sous-)sujets (~chapitres) à l'intérieur d'une même unité (sujet) vidéo
  • On a aussi des lacunes dans les sujets, avec des sujets qu'on ne retrouve que dans les sommaires globaux.
  • Les notices isolées rendent compte de sujets d'éditions régionales, qu'on ne retrouve pas dans les notices sommaires.

Observations sur le corpus

1)
théoriquement ce ne sera plus le cas dans TXM 0.8.0
public/antract/antract_corpus_voixoff.txt · Dernière modification: 2019/11/14 09:53 par matthieu.decorde@ens-lyon.fr