Outils pour utilisateurs

Outils du site


public:utilitaires:prototypes

Utilitaires prototypes

Chantier Antract

BuildAFMetadata

Produit les tableaux de métadonnées d'émissions et de sujets à partir du tableau de métadonnées de l'INA.

Paramètres

  • tableFile : tableau de métadonnées d'entrée
  • buildSujetsMetadata : calculer le tableau sujets.xlsx des sujets (à côté du tableau tableFile)
  • buildEmissionsMetadata : calculer le tableau emissions.xlsx des émissions (à côté du tableau tableFile)

Algorithme

  • émissions
    • sélection des lignes d'émissions
    • sélection des colonnes pour les métadonnées de texte
    • création de nouvelles colonnes (textorder, annee)
  • sujets
    • sélection des lignes de sujet
    • sélection des colonnes pour l'injection des sections

FixINATRS

Corrige la syntaxe XML des fichiers TRS fournis.

Le résultat est enregistré dans le sous-dossier “out”.

Paramètres

  • trsDirectory : le répertoire des fichiers sources au format TRS

Algorithme

  • content = content.replaceAll(“punct=\”([^\“]+)\”\“>”, “punct=\”\$1\“>”)
  • content = content.replaceAll(“<unk>”, “???”)
  • content = content.replaceAll(“ Time=\”“, ” time=\“”)

AddSectionsFromTable

Outil d'intégration de structures internes dans une transcription TRS synchronisée aux mots près à partir de timecodes situés dans un tableau de métadonnées combinant métadonnées de transcriptions complètes et métadonnées de transcriptions partielles (internes).

Le résultat est enregistré dans le sous-dossier “out”.

Paramètres

  • metadataFile : tableau de métadonnées (sujets.xlsx)
  • trsDirectory : le répertoire des sources TRS
  • joinTRSColumn : lien vers la notice principale ??
  • startTimeColumn : colonne encodant le temps de début de la section (antract_debut)
  • endTimeColumn : colonne encodant le temps de fin de la section (antract_fin)
  • typeColumns : ?? (Titre propre)
  • topicColumns : ?? (Date de diffusion)
  • metadataColumns : ?? (Titre propre;Date de diffusion;Identifiant de la notice;Notes du titre;Type de date;Durée;Genre;Langue VO / VE;Nature de production;Producteurs (Aff.);Thématique;Nom fichier segmenté (info);antract_video;antract_debut;antract_fin;antract_duree;antract_tc_type;antract_tc_date;Résumé;Séquences;Descripteurs (Aff. Lig.);Générique (Aff. Lig.) )
  • metadataColumnsGroups : ?? (metadata;metadata;metadata;metadata;metadata;metadata;metadata;metadata;metadata;metadata;metadata;secondary;secondary;secondary;secondary;secondary;secondary;secondary;text;text;text;text )

??

  • structure (paramètre interne) : Section
  • répertoire des fichiers Transcriptions
  • fichier de metadonnées
  • correspondance notice sujet → notice sommaire : identifiant notice principale
    • colonnes d'identification des sections :
      • identifiant de transcription
      • temps de début (timecode de type INA)
      • temps de fin
    • colonne de métadonnées
      • attributs à ajouter aux sections

Algorithme

  • insère les <Turn>s dans les <Section>s (sujets timés avec antract_debut et antract_fin)
    • si un <Turn> chevauche en partie la <Section>, il est quand même inséré dans la section

Remarque : il reste à corriger les attributs Section@startTime et Section@endTime pour pouvoir ré-ouvrir le fichier dans le logiciel Transcriber.

Table2Corpus

Construit un corpus de notices à partir d'un tableau de métadonnées, et éventuellement de fichiers texte externes (géométrie de très nombreux petits fichiers).

Le tableau de métadonnées contient :

  • des métadonnées de textes
  • des contenus de textes
  • des métadonnées de structures internes
  • des contenus de structures internes
  • ?? ou bien les contenus proviennent de fichiers externes (id.txt ou id.xml) [géométrie très nombreux petits fichiers]

Remarque : réécriture de Excel2XML, pour gérer les structures internes ?

Paramètres

??

  • structure (paramètre interne) : Section
public/utilitaires/prototypes.txt · Dernière modification: 2020/10/05 13:59 par matthieu.decorde@ens-lyon.fr