Outils pour utilisateurs

Outils du site


public:antract:antract_corpus_voixoff_v02

Corpus TXM des transcriptions speech2text de la voix off (commentaires) des Actualités Françaises

Version 2

Spécifications

Choix des sources

Le corpus source est au format XML Vocapia ou XML Transcriber.

Remarques :

  • TXM ne peut pas importer le format XML Vocapia directement
  • le Transcriber ne contient pas d'informations au niveau du mot (comme le Vocapia)

Solution 1 : intégrer les informations au niveau du mot dans le Transcriber

→ une demande est en cours pour intégrer les informations au niveau du mot dans la sortie Transcriber

Solution 2 : importer le XML Vocapia

→ suppose le développement d'un nouveau module d'import. Un prototype d'import Vocapia a été réalisé dans le cadre de Matrice. Il faut préciser son niveau de développement et son statut.

Métadonnées

Pour la version 1, on a fait en sorte que l'unité documentaire “transcription” corresponde au sujet INA, pour être directement compatible avec l'architecture d'import de TXM existante.

Une solution plus puissante serait de développer la capacité à travailler directement à partir des sources INA. Une table de fichiers + synchronisation des sujets serait utilisée pour :

  • délimiter les sujets : séparer ou fusionner des fichiers
  • associer les métadonnées sujet aux transcriptions : au niveau des fichiers

Cela supposerait un développement en amont de l'import.

Synchronisation

Pour l'étape corpus v2 ou v3 la question pourra se poser d'aligner Séquences et voix off par les timecodes.

Développement des corpus

Import des fichiers .trs transcriptions de vidéo émission (notices sommaires) d'octobre 2019 (plus de transcriptions sujets).

Les sujets deviennent des structures internes (Sections Transcriber) des transcriptions d'émissions.

Métadonnées issues du tableau unique avec timing de sujets Totem + analye de correspondances audio/vidéo

ANTRACT_AF_Notices_3oct19.xlsx

Il y a une sélection de métadonnées faite par l'INA + 6 nouvelles métadonnées de l'INA :

antract_debut
antract_fin
antract_duree
antract_video
antract_tc_type
antract_tc_date

Format des timecodes antract_debut et antract_fin : hh:mm:ss:ff, ff étant le nombre de frames après la seconde à 25 frames par secondes.

Unités textuelles

Le tableau pilote la création des unités textuelles, de leurs sections internes et les métadonnées des unités textuelles et sections internes :

  • trier le fichier Excel par date de diffusion (à faire)
  • l'unité textuelle = émission
    • les émissions sont décrites par les lignes dont le 'Type de notice' est 'Notice sommaire'
    • chaque émission est identifiée par un identifiant de notice sommaire (colonne “Identifiant de la notice”)
    • elle a des propriétés tirées de certaines colonnes renseignées (sous-ensemble des colonnes utilisées pour les sujets) :
      • Identifiant de la notice
      • Titre propre
      • Nom fichier segmenté (info)
      • Date de diffusion
      • Notes du titre
      • Durée
      • à faire :
        • retirer Genre et Type de date
        • ajouter colonnes des propositions de BP (colonnes sources 'nom source' + colonnes calculées 'nom interne')
    • ses propriétés sont des métadonnées de sujets ? BP : a priori non, si on met ces informations concernant les sujets au niveau des sections internes sujet (cf. ci-après).

Remarques :

  • [BP, 2019-10-17] : Dans la liste des propriétés des émissions ci-dessus, je viens de retirer deux items (“Genre” et “Type de date”) suite à l'étude présentée ci-après.

Sections internes "sujet"

  • l'unité textuelle est composée de structures 'div @type=sujet'
    • les sujets sont décrits par les lignes dont le 'Type de notice' est 'Notice sujet'
    • les (structures) sujets sont identifié(e)s par un identifiant de notice sujet (colonne 'Identifiant de la notice'), et dans la colonne 'Lien notice principale' on trouve l'identifiant de la notice principale (notice sommaire, émission) correspondante
    • nécessite la présence d'informations antract_debut et antract_fin (sinon le sujet est écarté dans la V0.2)
    • les structures sujets reçoivent comme propriétés les métadonnées de sujets
    • l'ordre des structures sujets est indiqué par l'ordre des métadonnées antract_debut (timing de début) quand elles sont présentes

Métadonnées de sujets

Attention aux noms de métadonnées terminés par un espace
Date de diffusion
Descripteurs (Aff. Col.)
Durée
Générique (Aff. Col.)
Genre
Identifiant de la notice
Langue VO / VE 
Lien notice principale
Nature de production 
Nom fichier segmenté (info)
Notes du titre 
Producteurs (Aff.)
Résumé
Séquences
Thématique
Titre propre
Type de date
Type de notice

Nouvelle proposition pour le choix, l'ordre et la présentation des métadonnées

C'est une proposition de Bénédicte le 18 octobre 2019, dans le contexte de la préparation du corpus VOIXOFF avec la nouvelle architecture où les sujets sont inclus dans les journaux (sommaires) et où il n'y a plus de sujets isolés.

En effet, dans ce nouveau contexte, le choix et l'ordre des métadonnées adoptés pour les notices paraît moins pertinent car certaines métadonnées qui ne sont plus utilisées sont mises en valeur en tête de list

Elle est notée ici, dans une section à part, pour étude et discussion, mais sera sans doute pour plus tard, car Serge propose de rester proche de l'état précédent, notamment en termes de métadonnées à garder/supprimer, en phase d'expérimentation et de débuggage.

Propriétés à présenter pour la structure 'text' (= journal = notice sommaire)

  • identifiantdelanotice
  • titrepropre
  • notesdutitre

[si possible dans une colonne à gauche :]

  • datedediffusion
  • datedediffusionjoursemaine
  • duree
  • nomfichiersegmente [à confirmer]
  • antractvideo

[si possible dans une colonne à droite, si besoin moins large :]

  • antractdebut
  • antractfin
  • antractduree
  • antracttctype
  • antracttcdate

Propriétés à présenter pour la structure 'sujet' (= notices sujets)

  • identifiantdelanotice
  • titrepropre
  • notesdutitre

[si possible dans une colonne à gauche :]

  • datedediffusion
  • datedediffusionjoursemaine
  • typededate
  • duree
  • genre
  • languevove
  • naturedeproduction
  • producteurs
  • thematique

[si possible dans une colonne à droite, si besoin moins large :]

  • nomfichiersegmente [à confirmer]
  • antractvideo
  • antractdebut
  • antractfin
  • antractduree
  • antracttctype
  • antracttcdate

[données textuelles des notices sauf titre propre :]

  • resume
  • sequences
  • descripteurs
  • generique

Autres métadonnées

Les propriétés réécrivant la date sous différents formats (datedediffusionannee, datedediffusionmois, datedediffusionjour, datedediffusiontri) ne sont si possible pas affichées dans l'édition (pour alléger) mais sont disponibles pour l'interrogation. L'utilisateur peut voir leur existence et leur format dans les propriétés du corpus.

Les colonnes Type de notice et Lien notice principale sont utilisées pour construire et structurer le corpus, mais ne sont pas reprises dans les propriétés.

À part ces deux cas, toutes les métadonnées utilisées et disponibles ont été listées ci-dessus.

Retour à la vidéo

On va faire un retour à la vidéo en streaming dans le serveur Okapi.

Relation notice -> vidéo

correspondance entre la transcription emission d'identifiant A et la vidéo en streaming dans okapi.

  • colonne “Identifiant de la notice”
  • colonne “antract_video” : nom du fichier mp4 de l'emission
  • colonne “Nom fichier segmenté (info)” * exemple de la 1e emission du 4 janvier 1945 : * MGCAE0011375--AP.01_000000_001124.mps /MGAFE0066017--AA.01_000000_001130.mps / * extraire la partie avant le 1er “_”

Recettes

Préparation du corpus et nouvelles fonctionnalités TXM

Le corpus est construit à l'aide de la macro AddSections développée dans la phase 2.2 du chantier TXM ANTRACT.

Cette phase fait également évoluer la liseuse vidéo pour la lecture en streaming avec authentification.

Procédure de préparation du corpus AFVOIXOFF V0.2

  • Installer TXM 0.8.1 et mettre à jour au niveau BETA
  • Récupérer la dernière version des utilitaires prototypes pour Antract depuis les sources TXM et les copier dans les “transcription” macros de TXM 0.8.1
  • Récupérer le dernier état des métadonnées de notices : “ANTRACT_AF_Notices_3oct19.xlsx” (https://sharedocs.huma-num.fr/#/2139/7000/SP2%20Corpus%20&%20Recherche%20technologique/Notices%20documentaires/AF)
  • Créer le tableau émissions et sujets avec la macro BuildAFMetadata
    • tableFile : all.xlsx
    • buildSujetsMetadata : true
    • buildEmissionsMetadata : true
      → les fichiers “sujets.xlsx” et “emissions.xlsx” sont créés à coté du fichier “all.xlsx”
  • Corriger les sources avec la macro FIXINATRS
    • trsDirectory : le répertoire des fichiers sources
      → le résultat est enregistré dans le sous-dossier “out”
  • Injecter les sections avec la macro AddSectionsFromTable
    • metadataFile : le fichier sujets.xlsx
    • trsDirectory : le répertoire des sources
    • joinTRSColumn : Lien notice principale
    • startTimeColumn : antract_debut
    • endTimeColumn : antract_fin
    • typeColumns : Titre propre
    • topicColumns : Date de diffusion
    • metadataColumns : Titre propre;Date de diffusion;Identifiant de la notice;Notes du titre;Type de date;Durée;Genre;Langue VO / VE;Nature de production;Producteurs (Aff.);Thématique;Nom fichier segmenté (info);antract_video;antract_debut;antract_fin;antract_duree;antract_tc_type;antract_tc_date;Résumé;Séquences;Descripteurs (Aff. Lig.);Générique (Aff. Lig.)
    • metadataColumnsGroups : metadata;metadata;metadata;metadata;metadata;metadata;metadata;metadata;metadata;metadata;metadata;secondary;secondary;secondary;secondary;secondary;secondary;secondary;text;text;text;text
      → le résultat est enregistré dans le sous-dossier “out”
  • Préparer un répertoire AFVOIXOFFV2 contenant :
    • les fichiers TRS corrigés et sectionnés (sous-sous-répertoire “out”)
    • le fichier emissions.xlsx renommé en metadata.xlsx
  • Importer le répertoire avec le module d'import XML-TRS
  • Une fois importé, régler les paramètres MediaPlayer du corpus en copiant dans le répertoire “.settings” du corpus binaire le nouveau fichier CorpusCommandPreferences.prefs contenant les lignes suivantes :
    backtomedia/backtomedia_endproperty=endtime
    backtomedia/backtomedia_startproperty=starttime
    backtomedia/backtomedia_structure=sp
    backtomedia/backtomedia_time_property=time
    backtomedia/media_auth=true
    backtomedia/media_auth_login=
    backtomedia/media_extension=mp4
    backtomedia/media_path_prefix=https\://{0}\:{1}@okapi.ina.fr/antract/Media/AF/
    backtomedia/name=backtomedia
    backtomedia/secured_media_login=okapi_reader
    backtomedia/secured_media_path_prefix=https\://{0}\:{1}@okapi.ina.fr/antract/Media/AF/
    backtomedia/sync_mode=Structure
    concordance/context_limits=text
    concordance/context_limits_type=list
    concordance/name=concordance
    eclipse.preferences.version=1

Retours

public/antract/antract_corpus_voixoff_v02.txt · Dernière modification: 2021/09/23 15:27 par slh@ens-lyon.fr