Outils pour utilisateurs

Outils du site


public:chantier_antract

Chantier Antract

Ce chantier suit les développements spécifiés pour le projet ANTRACT.

Étape 1 (terminée)

Corpus

  • différents corpus ont été produits

TXM

Préparation des corpus

Noyau TXM

  • TXM 0.8.0
    • nouvelle architecture de corpus (propriétés de corpus…)
    • réglage de l'extension Media Player
      • paramétrage du chemin d'accès au répertoire de médias
      • standardisation des attributs de synchronisation
  • réglage de l'import Transcriber
    • standardisation des attributs de synchronisation

Étape 2.1

TXM

  • résonance
    • gestion de l'alignement entre modalités (voix off, notices (globalement) et éventuellement séquences dans les notices, tapuscrit)
      • commandes
        • sélection de sous-corpus : union, intersection, soustraction, complémentaire (plusieurs versions possibles : match, mots + opérateurs de recoller les morceaux
  • édition
    • édition de sous-corpus
      • navigation compatible avec le sous-corpus
    • navigation dans l'édition
      • ajouter un champ de sélection d'id de text au milieu des flèches de navigation entre textes
    • options de retour au texte édition + média
      • backtotext_layout
      • backtomedia_layout
      • backcombined_layout
    • navigateur dans l'édition
      • vérifier la compatibilité avec les sous-corpus
      • vérifier l’existence du répertoire et des fichiers médias avant de tenter l'ouverture
  • spécificités
    • spécificités de sous-corpus
      • n'afficher les résultats que pour le sous-corpus
  • installation
    • récupération de corpus au premier lancement
      • créer des liens symboliques identiques au lieu de copier leur contenu

Étape 2.2

Corpus

TXM

Préparation des corpus

  • Macro AddSections (corpus AFVOIXOFF V0.2)
    • objectif : outils d'intégration de structures internes dans une transcription synchronisée aux mots près à partir de timecodes situés dans un tableau de métadonnées combinant métadonnées de transcriptions complètes et métadonnées de transcriptions partielles (internes)
    • algo
      • insère les Turn dans les Sections (sujets timés avec antract_debut et antract_fin)
        • si un Turn chevauche en partie la section, il est quand même inséré dans la section
          • rq, il faudrait corriger le Section@startTime et Section@endTime pour pouvoir ré-ouvrir le fichier dans transcriber
    • paramètres
      • structure (paramètre interne) : Section
      • répertoire des fichiers Transcriptions
      • fichier de metadonnées
      • correspondance notice sujet → notice sommaire : identifiant notice principale
      • colonnes d'identification des sections :
        • identifiant de transcription
        • temps de début (timecode de type INA)
        • temps de fin
      • colonne de métadonnées
        • attributs à ajouter aux sections
  • Macro Table2Corpus (corpus AFNOTICES V3)
    • objectif : construire un corpus de notices à partir d'un tableau de métadonnées, et éventuellement de fichiers texte externes (géométrie très nombreux petits fichiers)
      • le tableau de métadonnées contient :
        • des métadonnées de textes
        • des contenus de textes
        • des métadonnées de structures internes
        • des contenus de structures internes
          • ou bien les contenus proviennent de fichiers externes (id.txt ou id.xml) [géométrie très nombreux petits fichiers]
    • réécriture de Excel2XML ??? pour gérer les structures internes

Retour à la vidéo (extension Media Player)

  • authentification HTTP
  • lecture en streaming
Interface

Paramètres de corpus :

  • media_url : http://okapi.ina.fr/antract/Media/AF/
  • media_auth_url : http://%s:%s@okapi.ina.fr/antract/Media/AF/
  • media_extension : .mp4
  • media_auth : true/false
    • si true, au premier retour à la vidéo, TXM demande de renseigner login et password dans une boite de dialogue
      • media_auth_login → not stored
      • media_auth_password → not displayed & stored
      • ces informations sont perdues à la fermeture de TXM

“media_auth” est un nouveau champ de la commande de préférences média du corpus.

Nouvelles entrées de menu pour l'ouverture directe de média
  • “Ouvrir un fichier média…”
  • “Ouvrir un flux réseau média…”

Import TRS / Édition

CSS
  • récupérer les éléments de base de la css générale txm 0.8.0 :
    • cadre d'arrière plan
    • couleurs de titres et intertitres
    • polices
    • etc.
Stylage de la première page de transcription ANTRACT (unité textuelle, journal complet du jour)
  • tout en “hors texte à éditer” (pour l'import) → peut-être enrober avec un élément déclaré en “hors texte à éditer” à l'import1)
  • titre H1 centré = contenu du 'Titre propre', ex. “Les Actualités Françaises : édition du 6 avril 1945”
  • sous-titre H2 centré = "12 janvier 1956"((s'appuyer éventuellement sur le code de scan de date, des macros de préparation de corpus précédentes, pour re-générer la date sous cette forme))
  • si 'Notes du titre' n'est pas vide
    • titre H2 centré = contenu des 'Notes du titre'
  • tableau de métadonnées habituel (couleur de fond des lignes alternée) → s'il y a d'autres métadonnées

Pour l'indication du type de corpus, deux styles possibles :

  • a) [SLH] sous-titre H2 centré = “(transcription de la voix off)”
    • sous le titre principal
  • b) ou bien [BP] entête de page H2 centré = “commentaires parlés” ou bien “transcription voix off”
    • détaché du titre principal
Stylage des intertitres de sections (structures internes, sujets synchronisés)

Piloter les stylages de titres de section à l'aide de la propriété Section@type ?

  • tout en “hors texte à éditer” (pour l'import)
  • titre H1 centré = @titrepropre
  • tableau de métadonnées habituel pour toutes les autres propriétés
  • peut-être mettre ces intertitres en début de page, voire créer une page par sujet - car ils semblent assez petits en général
Stylage des intertitres de sections ou tours non synchronisés
  • tout en “hors texte à éditer” (pour l'import)
  • titre H2 centré = “Section non synchronisée” ou bien “Tour non synchronisé”
    • [BP 2019-10-09] : si possible plutôt section, pour n'avoir qu'une seule indication pour tout le passage concerné ?
Ergonomie / accès rapides
  • lien hypertexte avec icone de vidéo, genre , pour :
    • ♪♪♪♪♪♪♪♪♪♪
      U+1F39E 	FILM FRAMES 	🎞
      U+1F3A5 	MOVIE CAMERA 	🎥
      U+1F3A6 	CINEMA 	🎦
      U+1F3A7 	HEADPHONE 	🎧
      U+1F3AC 	CLAPPER BOARD 	🎬
      U+1F3B5 	MUSICAL NOTE 	🎵
      U+1F3B6 	MULTIPLE MUSICAL NOTES 	🎶
      U+1F4FA 	TELEVISION 	📺
    • sous le titre de la transcription → jouer la vidéo complète (ouvrir l'éditeur de média selon la stratégie courante au préalable si nécessaire)
    • sous le titre de section synchronisée → jouer le sujet (ouvrir l'éditeur de média selon la stratégie courante au préalable si nécessaire)
  • control-clic sur un tour → jouer le tour (comme le code de Bertrand Gaiffe)
Formatage
  • pour les noms de locuteurs en début de tour, pour les formes “S66”
    • au lieu d'afficher “S 66:”, afficher “S<sub>66</sub> :” (“S66 :”)
Fichier metadata.xlsx de AFVOIXOFFV3
  • Renommer les colonnes :
    • “Identifiant de la notice” → “id”
    • “Titre propre” → “title”
    • “Notes du titre” → “subtitle”
    • “Date de diffusion” → date
    • “Durée” → duree
    • “Nom fichier segmenté (info)” → fichier_segmente
  • Supprimer les colonnes restantes

Étape 3

  • alignement entre corpus existants
    • afnotices // afvoixoff
      • structures qui n'ont pas les mêmes noms et propriétés
    • requêtes alignées
    • éditions synoptiques alignées
    • navigateur aligné
      • vue synoptique
        • affichage tabulé pas par défaut : correspondance sémiotique problématique

Étape 4

  • import/export de définitions de sous-corpus (sélection de textes)
  • fonctionnalités TXM 0.8.1
    • gestion de l'alignement entre modalités (voix off, notices (globalement) et éventuellement séquences dans les notices, tapuscrit)
      • import
        • format
        • paramétrage
        • workflow

Recettes

Étape 2

Opérations ensemblistes sur les listes de matchs de sous-corpus

  • soient les 5 premiers textes du corpus AFVOIXOFF :
    text@id = AFE00001267, AFE00001287, AFE00001787, AFE00001788, AFE00001863
  • créer un sous corpus AB des 2 premiers textes de AFVOIXOFF (AFE00001267|AFE00001287)
  • créer un sous corpus ABC des 3 premiers textes de AFVOIXOFF (AFE00001267|AFE00001287|AFE00001787)
  • créer un sous corpus C du premier texte de AFVOIXOFF (AFE00001787)
  • SOUSTRACTION : sélectionner le sous-corpus ABC et lancer la commande “Corpus > MINUS” du menu principal (soustraction)
    • dans la boite de dialogue :
      • nommer le résultat ABC ∖ AB
      • sélectionner le sous corpus AB
      • lancer le calcul
    • vérifier que la taille du sous corpus “ABC ∖ AB” est bien identique à celle du sous corpus C (clic dans la vue corpus)
  • créer un sous corpus BC des 2 textes de AFVOIXOFF suivant le premier (AFE00001287|AFE00001787)
  • créer un sous corpus BCD des 3 textes de AFVOIXOFF suivant le premier (AFE00001287|AFE00001787|AFE00001788)
  • INTERSECTION : sélectionner ABC et lancer la commande “Corpus > INTER” du menu principal
    • dans la boite de dialogue :
      • nommer le résultat ABC ∩ BCD
      • sélectionner le sous corpus BCD
      • lancer le calcul
    • vérifier que la taille du sous corpus “ABC ∩ BCD” est bien identique à celle du sous corpus BC
  • créer un sous-corpus DE des 4e et 5e textes de AFVOIXOFF (AFE00001788|AFE00001863)
  • créer un sous-corpus ABCDE des 1er au 5e textes de AFVOIXOFF (AFE00001267|AFE00001287|AFE00001787|AFE00001788|AFE00001863)
  • UNION : sélectionner “ABC” et lancer la commande “Corpus > UNION” du menu principal
    • dans la boite de dialogue :
      • nommer le résultat ABC ∪ DE
      • sélectionner le sous corpus DE
      • lancer le calcul
    • vérifier que la taille du sous corpus “ABC ∪ DE” est bien identique à celle du sous corpus ABCDE

Résonance : analyse combinante 2

  • créer le sous corpus “{t ∈ T}” de tous les sujets, en mode expert
    • SLH: obligatoire ?
    • [_.text_typedenotice="Notice sujet"] expand to text
  • créer le sous corpus “{t.meta ∋ BB}” de “{t ∈ T}” en mode expert avec la requête :
    • [_.text_resume=".*Brigitte Bardot.*"%c | _.text_sequences=".*Brigitte Bardot.*"%c] expand to text

      → sujets dont la métadonnée résumé contient “Brigitte Bardot” ou bien la métadonnée séquence contient “Brigitte Bardot”

  • créer le sous corpus “{t.words ∋ BB}” de “{t ∈ T}” en mode expert avec la requête :
    • [word="brigitte"] [word="bardot"] expand to text

      → sujets contenant la séquence de mots “brigitte” “bardot”

  • créer le sous corpus “{t.words ∌ BB}” résultat de la commande MINUS appliquée sur “{t ∈ T}” avec “{t.words ∋ BB}“
    → sujets ne contenant pas la séquence de mots “brigitte” “bardot”
    • [BP 2019-09-12] Difficile de continuer ici avec le corpus VOIXOFFV01, car à l'étape suivante on aura l'ensemble vide : du fait du bug sur les métadonnées avec guillemets, il n'y a qu'un seul sujet ayant BB dans les métadonnées, et il a aussi BB dans la voix off. Du coup je propose un exemple plus fourni, avec “foule”, cf. ci-après.
  • créer le sous corpus ”{t.meta ∋ BB, t.words ∌ BB}” résultat de la commande INTER appliquée sur “{t.meta ∋ BB}” avec “{t.words ∌ BB}”
  • calculer les spécificités de “{t.meta ∋ BB, t.words ∌ BB}” par rapport à “{t ∈ T}”

Résonance : analyse combinante 2 - cas foule

  • créer le sous corpus “sujets” de tous les sujets, en mode expert
    • [_.text_typedenotice="Notice sujet"] expand to text
  • créer le sous corpus “notice_avec_foule” en mode expert avec la requête :
    • [_.text_resume=".*foule.*"%c | _.text_sequences=".*foule.*"%c] expand to text
  • créer le sous corpus “voix_avec_foule” en mode expert avec la requête :
    • [frplemma="foule"] expand to text
  • créer le sous corpus “voix_sans_foule” résultat de la commande MINUS appliquée sur “sujets” avec “voix_avec_foule”
    → sujets ne contenant pas le lemme “foule” dans la voix off
  • créer le sous corpus “notice_avec_foule ∩ voix_sans_foule” résultat de la commande INTER appliquée sur “notice_avec_foule” avec “voix_sans_foule”
  • calculer les spécificités de “notice_avec_foule ∩ voix_sans_foule” (par rapport à “sujets”)

Navigation dans les éditions de sous-corpus

  • créer un sous corpus SOMMAIRES des sujets sommaire de AFVOIXOFF :
    • [_.text_typedenotice="Notice sommaire"] expand to text
  • sélectionner SOMMAIRES et ouvrir son édition
  • l'édition de la transcription de la première notice sommaire est affichée
  • aller au texte suivant → l'édition de la transcription de la notice sommaire suivante est affichée
  • aller au dernier texte → l'édition de la transcription de la dernière notice sommaire est affichée
  • aller au texte précédent → l'édition de la transcription de l'avant-dernière notice sommaire est affichée
  • aller au premier texte → l'édition de la transcription de la première notice sommaire est affichée
  • commencer la saisie du nom de texte “AF…” dans le champ d'accès direct
  • ouvrir la complétion avec CTRL + ESPACE
  • sélectionner “AF…” et valider avec la touche ENTRÉE

Étape 2.2

Retour à la vidéo : lecture en streaming réseau avec authentification

  • si nécessaire
    • installer TXM 0.8.0
    • installer l'extension Media Player
  • placer TXM en niveau de mise à jour BETA
  • lancer la mise à jour de TXM
    • menu Fichier > Vérifier les mises à jour
      • tout sélectionner
    • relancer TXM
    • on doit obtenir les versions
      • Media Player 1.0.0.201910171537
      • TXM 0.8.0.201910171533
  • charger le corpus binaire AFVOIXOFFV03-alpha2.txm depuis Sharedocs “ANR/ANTRACT/SP2…/TXM/Corpus/Corpus voixoff” pour obtenir le corpus AFVOIXOFFV03MINI
  • ouvrir l'édition
  • aller à la 4e page
    • soit la 3e section qui correspond à la 3e notice sujet de la 1ere émission (dans l'ordre des identifiants de notice))
    • de titre “Identifiant de la notice: AFE86002934: Titre propre: Les voeux du corps diplomatique Notes du titre: JOURNAL NATIONAL ; 45-01LE JOUR DE L'AN OFFICIEL”
  • cliquer sur les “♪♪” sous le titre pour provoquer la lecture de la vidéo du sujet
  • s'il s'agit du premier retour à la vidéo, le mot de passe pour accéder au site hébergeant les vidéos est demandé, valider
    • dans cette version du logiciel, on n'affiche pas le site concerné ni le login
  • le lecteur vidéo s'ouvre par dessus la fenêtre de transcription
  • vérifier que l'empan joué correspond bien au début de la transcription de la 3e notice
1)
stratégie que j'ai utilisée pour ces corpus jusqu'à maintenant
public/chantier_antract.txt · Dernière modification: 2019/10/18 09:13 par matthieu.decorde@ens-lyon.fr