Outils pour utilisateurs

Outils du site


Panneau latéral

public:chantier_antract

Chantier Antract

Ce chantier suit les développements spécifiés pour le projet ANTRACT.

Étape 1 (terminée)

Corpus

  • différents corpus ont été produits

TXM

Préparation des corpus

Noyau TXM

  • TXM 0.8.0
    • nouvelle architecture de corpus (propriétés de corpus…)
    • réglage de l'extension Media Player
      • paramétrage du chemin d'accès au répertoire de médias
      • standardisation des attributs de synchronisation
  • réglage de l'import Transcriber
    • standardisation des attributs de synchronisation

Étape 2.1

TXM

  • résonance
    • gestion de l'alignement entre modalités (voix off, notices (globalement) et éventuellement séquences dans les notices, tapuscrit)
      • commandes
        • sélection de sous-corpus : union, intersection, soustraction, complémentaire (plusieurs versions possibles : match, mots + opérateurs de recoller les morceaux
  • édition
    • édition de sous-corpus
      • navigation compatible avec le sous-corpus
    • navigation dans l'édition
      • ajouter un champ de sélection d'id de text au milieu des flèches de navigation entre textes
    • options de retour au texte édition + média
      • backtotext_layout
      • backtomedia_layout
      • backcombined_layout
    • navigateur dans l'édition
      • vérifier la compatibilité avec les sous-corpus
      • vérifier l’existence du répertoire et des fichiers médias avant de tenter l'ouverture
  • spécificités
    • spécificités de sous-corpus
      • n'afficher les résultats que pour le sous-corpus
  • installation
    • récupération de corpus au premier lancement
      • créer des liens symboliques identiques au lieu de copier leur contenu

Étape 2.2

Corpus

TXM

Préparation des corpus

  • Macro AddSections (corpus AFVOIXOFF V0.2)
    • objectif : outils d'intégration de structures internes dans une transcription synchronisée aux mots près à partir de timecodes situés dans un tableau de métadonnées combinant métadonnées de transcriptions complètes et métadonnées de transcriptions partielles (internes)
    • algo
      • insère les Turn dans les Sections (sujets timés avec antract_debut et antract_fin)
        • si un Turn chevauche en partie la section, il est quand même inséré dans la section
          • rq, il faudrait corriger le Section@startTime et Section@endTime pour pouvoir ré-ouvrir le fichier dans transcriber
    • paramètres
      • structure (paramètre interne) : Section
      • répertoire des fichiers Transcriptions
      • fichier de metadonnées
      • correspondance notice sujet → notice sommaire : identifiant notice principale
      • colonnes d'identification des sections :
        • identifiant de transcription
        • temps de début (timecode de type INA)
        • temps de fin
      • colonne de métadonnées
        • attributs à ajouter aux sections
  • Macro Table2Corpus (corpus AFNOTICES V3)
    • objectif : construire un corpus de notices à partir d'un tableau de métadonnées, et éventuellement de fichiers texte externes (géométrie très nombreux petits fichiers)
      • le tableau de métadonnées contient :
        • des métadonnées de textes
        • des contenus de textes
        • des métadonnées de structures internes
        • des contenus de structures internes
          • ou bien les contenus proviennent de fichiers externes (id.txt ou id.xml) [géométrie très nombreux petits fichiers]
    • réécriture de Excel2XML ??? pour gérer les structures internes

Retour à la vidéo (extension Media Player)

  • authentification HTTP
  • lecture en streaming
Accès avec authentification

Paramètres de corpus :

  • media_url : http://okapi.ina.fr/antract/Media/AF/
  • media_auth_url : http://%s:%s@okapi.ina.fr/antract/Media/AF/
  • media_extension : .mp4
  • media_auth : true/false
    • si true, au premier retour à la vidéo, TXM demande de renseigner login et password dans une boite de dialogue
      • media_auth_login → not stored
      • media_auth_password → not displayed & stored
      • ces informations sont perdues à la fermeture de TXM

“media_auth” est un nouveau champ de la commande de préférences média du corpus.

Nouvelles entrées de menu pour l'ouverture directe de média
  • “Ouvrir un fichier média…”
  • “Ouvrir un flux réseau média…”

Import TRS / Édition

CSS
  • récupérer les éléments de base de la css générale txm 0.8.0 :
    • cadre d'arrière plan
    • couleurs de titres et intertitres
    • polices
    • etc.
Stylage de la première page de transcription ANTRACT (unité textuelle, journal complet du jour)
  • tout en “hors texte à éditer” (pour l'import) → peut-être enrober avec un élément déclaré en “hors texte à éditer” à l'import1)
  • titre H1 centré = contenu du 'Titre propre', ex. “Les Actualités Françaises : édition du 6 avril 1945”
  • sous-titre H2 centré = "12 janvier 1956"((s'appuyer éventuellement sur le code de scan de date, des macros de préparation de corpus précédentes, pour re-générer la date sous cette forme))
  • si 'Notes du titre' n'est pas vide
    • titre H2 centré = contenu des 'Notes du titre'
  • tableau de métadonnées habituel (couleur de fond des lignes alternée) → s'il y a d'autres métadonnées

Pour l'indication du type de corpus, deux styles possibles :

  • a) [SLH] sous-titre H2 centré = “(transcription de la voix off)”
    • sous le titre principal
  • b) ou bien [BP] entête de page H2 centré = “commentaires parlés” ou bien “transcription voix off”
    • détaché du titre principal
Stylage des intertitres de sections (structures internes, sujets synchronisés)

Piloter les stylages de titres de section à l'aide de la propriété Section@type ?

  • tout en “hors texte à éditer” (pour l'import)
  • titre H1 centré = @titrepropre
  • tableau de métadonnées habituel pour toutes les autres propriétés
  • peut-être mettre ces intertitres en début de page, voire créer une page par sujet - car ils semblent assez petits en général
Stylage des intertitres de sections ou tours non synchronisés
  • tout en “hors texte à éditer” (pour l'import)
  • titre H2 centré = “Section non synchronisée” ou bien “Tour non synchronisé”
    • [BP 2019-10-09] : si possible plutôt section, pour n'avoir qu'une seule indication pour tout le passage concerné ?
Ergonomie / accès rapides
  • lien hypertexte avec icone de vidéo, genre , pour :
    • ♪♪♪♪♪♪♪♪♪♪
      U+1F39E 	FILM FRAMES 	🎞
      U+1F3A5 	MOVIE CAMERA 	🎥
      U+1F3A6 	CINEMA 	🎦
      U+1F3A7 	HEADPHONE 	🎧
      U+1F3AC 	CLAPPER BOARD 	🎬
      U+1F3B5 	MUSICAL NOTE 	🎵
      U+1F3B6 	MULTIPLE MUSICAL NOTES 	🎶
      U+1F4FA 	TELEVISION 	📺
    • sous le titre de la transcription → jouer la vidéo complète (ouvrir l'éditeur de média selon la stratégie courante au préalable si nécessaire)
    • sous le titre de section synchronisée → jouer le sujet (ouvrir l'éditeur de média selon la stratégie courante au préalable si nécessaire)
  • control-clic sur un tour → jouer le tour (comme le code de Bertrand Gaiffe)
Formatage
  • pour les noms de locuteurs en début de tour, pour les formes “S66”
    • au lieu d'afficher “S 66:”, afficher “S<sub>66</sub> :” (“S66 :”)

Étape 3

  • alignement entre corpus existants
    • afnotices // afvoixoff
      • structures qui n'ont pas les mêmes noms et propriétés
    • requêtes alignées
    • éditions synoptiques alignées
    • navigateur aligné
      • vue synoptique
        • affichage tabulé pas par défaut : correspondance sémiotique problématique

Étape 4

  • import/export de définitions de sous-corpus (sélection de textes)
  • fonctionnalités TXM 0.8.1
    • gestion de l'alignement entre modalités (voix off, notices (globalement) et éventuellement séquences dans les notices, tapuscrit)
      • import
        • format
        • paramétrage
        • workflow

Recettes

Recette étape 2.1

Opérations ensemblistes sur les listes de matchs de sous-corpus

  • soient les 5 premiers textes du corpus AFVOIXOFF :
    text@id = AFE00001267, AFE00001287, AFE00001787, AFE00001788, AFE00001863
  • créer un sous corpus AB des 2 premiers textes de AFVOIXOFF (AFE00001267|AFE00001287)
  • créer un sous corpus ABC des 3 premiers textes de AFVOIXOFF (AFE00001267|AFE00001287|AFE00001787)
  • créer un sous corpus C du premier texte de AFVOIXOFF (AFE00001787)
  • SOUSTRACTION : sélectionner le sous-corpus ABC et lancer la commande “Corpus > MINUS” du menu principal (soustraction)
    • dans la boite de dialogue :
      • nommer le résultat ABC ∖ AB
      • sélectionner le sous corpus AB
      • lancer le calcul
    • vérifier que la taille du sous corpus “ABC ∖ AB” est bien identique à celle du sous corpus C (clic dans la vue corpus)
  • créer un sous corpus BC des 2 textes de AFVOIXOFF suivant le premier (AFE00001287|AFE00001787)
  • créer un sous corpus BCD des 3 textes de AFVOIXOFF suivant le premier (AFE00001287|AFE00001787|AFE00001788)
  • INTERSECTION : sélectionner ABC et lancer la commande “Corpus > INTER” du menu principal
    • dans la boite de dialogue :
      • nommer le résultat ABC ∩ BCD
      • sélectionner le sous corpus BCD
      • lancer le calcul
    • vérifier que la taille du sous corpus “ABC ∩ BCD” est bien identique à celle du sous corpus BC
  • créer un sous-corpus DE des 4e et 5e textes de AFVOIXOFF (AFE00001788|AFE00001863)
  • créer un sous-corpus ABCDE des 1er au 5e textes de AFVOIXOFF (AFE00001267|AFE00001287|AFE00001787|AFE00001788|AFE00001863)
  • UNION : sélectionner “ABC” et lancer la commande “Corpus > UNION” du menu principal
    • dans la boite de dialogue :
      • nommer le résultat ABC ∪ DE
      • sélectionner le sous corpus DE
      • lancer le calcul
    • vérifier que la taille du sous corpus “ABC ∪ DE” est bien identique à celle du sous corpus ABCDE

Résonance : analyse combinante 2

  • créer le sous corpus “{t ∈ T}” de tous les sujets, en mode expert
    • SLH: obligatoire ?
    • [_.text_typedenotice="Notice sujet"] expand to text
  • créer le sous corpus “{t.meta ∋ BB}” de “{t ∈ T}” en mode expert avec la requête :
    • [_.text_resume=".*Brigitte Bardot.*"%c | _.text_sequences=".*Brigitte Bardot.*"%c] expand to text

      → sujets dont la métadonnée résumé contient “Brigitte Bardot” ou bien la métadonnée séquence contient “Brigitte Bardot”

  • créer le sous corpus “{t.words ∋ BB}” de “{t ∈ T}” en mode expert avec la requête :
    • [word="brigitte"] [word="bardot"] expand to text

      → sujets contenant la séquence de mots “brigitte” “bardot”

  • créer le sous corpus “{t.words ∌ BB}” résultat de la commande MINUS appliquée sur “{t ∈ T}” avec “{t.words ∋ BB}“
    → sujets ne contenant pas la séquence de mots “brigitte” “bardot”
    • [BP 2019-09-12] Difficile de continuer ici avec le corpus VOIXOFFV01, car à l'étape suivante on aura l'ensemble vide : du fait du bug sur les métadonnées avec guillemets, il n'y a qu'un seul sujet ayant BB dans les métadonnées, et il a aussi BB dans la voix off. Du coup je propose un exemple plus fourni, avec “foule”, cf. ci-après.
  • créer le sous corpus ”{t.meta ∋ BB, t.words ∌ BB}” résultat de la commande INTER appliquée sur “{t.meta ∋ BB}” avec “{t.words ∌ BB}”
  • calculer les spécificités de “{t.meta ∋ BB, t.words ∌ BB}” par rapport à “{t ∈ T}”

Résonance : analyse combinante 2 - cas foule

  • créer le sous corpus “sujets” de tous les sujets, en mode expert
    • [_.text_typedenotice="Notice sujet"] expand to text
  • créer le sous corpus “notice_avec_foule” en mode expert avec la requête :
    • [_.text_resume=".*foule.*"%c | _.text_sequences=".*foule.*"%c] expand to text
  • créer le sous corpus “voix_avec_foule” en mode expert avec la requête :
    • [frplemma="foule"] expand to text
  • créer le sous corpus “voix_sans_foule” résultat de la commande MINUS appliquée sur “sujets” avec “voix_avec_foule”
    → sujets ne contenant pas le lemme “foule” dans la voix off
  • créer le sous corpus “notice_avec_foule ∩ voix_sans_foule” résultat de la commande INTER appliquée sur “notice_avec_foule” avec “voix_sans_foule”
  • calculer les spécificités de “notice_avec_foule ∩ voix_sans_foule” (par rapport à “sujets”)

Navigation dans les éditions de sous-corpus

  • créer un sous corpus SOMMAIRES des sujets sommaire de AFVOIXOFF :
    • [_.text_typedenotice="Notice sommaire"] expand to text
  • sélectionner SOMMAIRES et ouvrir son édition
  • l'édition de la transcription de la première notice sommaire est affichée
  • aller au texte suivant → l'édition de la transcription de la notice sommaire suivante est affichée
  • aller au dernier texte → l'édition de la transcription de la dernière notice sommaire est affichée
  • aller au texte précédent → l'édition de la transcription de l'avant-dernière notice sommaire est affichée
  • aller au premier texte → l'édition de la transcription de la première notice sommaire est affichée
  • commencer la saisie du nom de texte “AF…” dans le champ d'accès direct
  • ouvrir la complétion avec CTRL + ESPACE
  • sélectionner “AF…” et valider avec la touche ENTRÉE

Recette étape 2.2

Étapes initiales

  • si nécessaire, avec une bonne connexion Internet :
  • placer TXM en niveau de mise à jour BETA :
    • menu Edition > Préférences
    • dans les items à gauche de la fenêtre, déplier “TXM” en double-cliquant dessus
    • sélectionner (clic simple) “Avancé”
    • dans le panneau qui s'affiche à droite, régler le paramètre “Niveau de mise à jour” sur “BETA”
    • fermer la boîte de dialogue en validant (bouton “Apply and close”).
  • installer l'extension Media Player depuis TXM :
    • menu Fichier > Ajouter une extension, sélectionner l'extension Media Player, puis accepter les différentes étapes
  • lancer la mise à jour de TXM :
    • menu Fichier > Vérifier les mises à jour
      • tout sélectionner
      • accepter les différentes étapes (licence, installer quand même malgré contenu son signé, etc.)
    • relancer TXM
    • on doit obtenir les versions suivantes :
      • Media Player 1.0.0.201911151239
      • TXM 0.8.0.201911151226
  • télécharger le corpus binaire des transcriptions AFVOIXOFFV02.txm depuis Sharedocs :
  • charger le corpus binaire AFVOIXOFFV02.txm pour obtenir le corpus AFVOIXOFFV02 :
    • menu Fichier > Charger > Un corpus binaire (.txm)…
    • indiquer l'emplacement sur votre ordinateur du fichier AFVOIXOFFV02.txm que vous avez téléchargé, en naviguant jusqu'à lui,
    • puis Valider (bouton en bas de la boîte de dialogue) ;
    • TXM intègre le corpus qui apparaît dans la liste des corpus, avec un petit cube marqué “C”, dans la partie gauche de la fenêtre TXM (vue Corpus).
  • sélectionner le corpus AFVOIXOFFV02
    • vérifier la version avec la commande Propriétés (menu Corpus > Propriétés)
      • 15 novembre 2019, 12h49 (date de dernière modification)

Retour à la vidéo depuis une section d'édition

  • ouvrir l'édition du corpus :
    • sélectionner le corpus en cliquant sur le nom du corpus dans la vue Corpus (marge gauche de la fenêtre)
    • lancer la commande Edition (menu Corpus > Édition)
    • soit la 3e section, qui correspond à la 3e notice sujet, de la 1ere émission (dans l'ordre chronologique des émissions))
    • de titre propre “Les voeux du corps diplomatique”
    • datant du 04/01/1945
  • cliquer sur le symbole “♫” situé à droite du titre pour provoquer la lecture de la vidéo du sujet
  • il s'agit de la première vidéo lue à partir du site Okapi de l'INA, dans cette session TXM, la boite de dialogue de connexion au site de l'INA s'ouvre :
    • renseigner les informations de connexion fournies par l'INA :
      • identifiant
      • mot de passe
    • cliquer sur 'Se connecter'
  • la fenêtre du lecteur vidéo s'ouvre à droite de la fenêtre de la transcription :
    • Note : il y a une petite latence avant le démarrage de la lecture de la vidéo
  • vérifier que l'empan joué correspond bien au début de la transcription de la 3e notice
    • soit, en temps, à 00:03:46:00 qui est la valeur de la propriété 'antract_debut' (00 heure 03 minutes 46 secondes)
    • soit, en texte, quand la voix off dit mille Neuf cent quarante cinq. C'est le premier dirigeant du de la libération…
      [le texte de la transcription se trouve après la barre de délimitation de la liste des propriétés du sujet]
  • cliquer sur le bouton [Pause] dans le lecteur pour arrêter la lecture

Retour à la vidéo depuis une sélection de mots de l'édition

  • ouvrir l'édition du corpus :
    • sélectionner le corpus en cliquant sur le nom du corpus dans la vue Corpus (marge gauche de la fenêtre)
    • lancer la commande Edition (menu Corpus > Édition)
    • soit la 5e section, qui correspond à la 5e notice sujet, de la 1ere émission (dans l'ordre chronologique des émissions))
    • de titre propre “Inauguration du barrage d'Imfout au Maroc par le général Catroux”
    • datant du 04/01/1945
  • sélectionner les mots de la phrase “C'est une tare politique et sociale que la France veut poursuivre mais est ce que nous dit le général quatre” de l'énoncé au timing “0:07:07” (8e tour de parole)
  • ouvrir le menu contextuel de l'édition, par un clic droit dans l'édition, et lancer “Jouer le média”
  • la fenêtre du lecteur vidéo s'ouvre à droite de la fenêtre de la transcription
  • vérifier que l'empan joué correspond bien aux mots sélectionnés
  • cliquer sur le bouton [Pause] dans le lecteur pour arrêter la lecture

Retour à la vidéo depuis une ligne de concordance

  • si nécessaire, fermer les fenêtres de résultats existantes
  • sélectionner le corpus AFVOIXOFFV02 et lancer la commande Concordances (Menu Outils > Concordances)
  • calculer la concordance de “Bardot” (7 lignes)
  • régler l'emplacement d'ouverture de l'édition depuis une concordance à “à droite” :
    • menu Edition > Préférences
    • aller dans la page de préférences “TXM > Utilisateur > Édition” en double-cliquant successivement sur “TXM3, puis “Utilisateur”, etc., dans la marge gauche, pour déplier l'arborescence
    • régler la préférence “new editor position” à la valeur “RIGHT_OF”
  • faire un retour au texte en double-cliquant sur la première ligne de la concordance (les premiers Gala voici d'autres visage Brigitte Bardot , Johnson là Des grandes vedettes, elle du tout Paris en)
    • l'édition s'ouvre à droite de la concordance
  • régler la position d'ouverture de la fenêtre de lecture vidéo à “à droite de la concordance”
    • aller dans les préférences “TXM > Utilisateur > MediaPlayer”
    • modifier la valeur de la préférence “BackToMedia position” à la valeur “RIGHT_OF”
  • faire un retour à la vidéo depuis la première ligne de la concordance
    • menu contextuel de la première ligne (clic droit sur la première ligne) > Jouer le média
  • la fenêtre de lecture vidéo s'ouvre à droite de la concordance
  • vérifier que l'empan joué correspond bien au tour de parole :
    • 0:02:16 ♫ Avec les premiers Gala voici d'autres visage Brigitte Bardot,

Réglage de l'empan de lecture vidéo en mots

  • sélectionner le corpus “AFVOIXOFFV02” dans la vue corpus (marge gauche de la fenêtre TXM)
  • modifier les préférences média du corpus :
    • lancer la commande du menu principal “Edition > Open media preferences” (ou : “Edition > Préférence MediaPlayer”)
    • dans la boite de dialogue régler les champs de la façon suivante (attention aux majuscules) :
      • backtomedia_wordtime_property : starttime
      • backtomedia_word_context_left_distance : 12
      • backtomedia_word_context_right_distance : 17
      • sync_mode : Word
    • Valider avec le bouton “OK”
  • rejouer le média depuis la concordance (comme précédemment)
  • vérifier que l'empan joué
    • commence bien au mot “Marcel [Pagnol]” (de starttime 132.85)
    • et se termine bien au mot “avec [Nadia gray]” (de starttime 147.70)
    • c'est à dire la partie située entre les crochets dans la transcription ci-dessous :
      0:02:11 ♫ Le président du jury [Marcel Pagnol.
      
      0:02:16 ♫ Avec les premiers Gala voici d'autres visage Brigitte Bardot,
      
      0:02:21 ♫ Johnson
      
      
      S 14: 0:02:23 ♫ là Des grandes vedettes, elle du tout Paris en smoking écossais André duguay avec] Nadia gray et oui, Jean pierre ou non une distribution

Édition de sujet non synchronisé

  • vérifier qu'il s'agit bien d'un sujet non synchronisé (sans timing)
    • de titre “Sujet non synchronisé”
    • de propriété synchronized à la valeur false
    • de contenu :
      S 48: 0:04:46 ♫ La
      
      
      S 26: 0:04:50 ♫ Quelles que soient les difficultés d'honneur la France ne détourne pas de sa grandeur impérial dans le sud algérien le port le plus bel verte qui porte le nom d'un héros de la guerre de Tunisie est inauguré par messieurs châtaignes au gouverneur général.
      
      
      S 48: 0:05:06 ♫ De fait,
1)
stratégie que j'ai utilisée pour ces corpus jusqu'à maintenant
public/chantier_antract.txt · Dernière modification: 2019/12/02 15:14 par slh@ens-lyon.fr