Outils pour utilisateurs

Outils du site


public:chantier_antract

Chantier Antract

Ce chantier suit les développements spécifiés pour le projet ANTRACT.

Étape 1 (terminée)

Corpus

  • différents corpus ont été produits

TXM

Préparation des corpus

Noyau TXM

  • TXM 0.8.0
    • nouvelle architecture de corpus (propriétés de corpus…)
    • réglage de l'extension Media Player
      • paramétrage du chemin d'accès au répertoire de médias
      • standardisation des attributs de synchronisation
  • réglage de l'import Transcriber
    • standardisation des attributs de synchronisation

Étape 2.1

TXM

  • résonance
    • gestion de l'alignement entre modalités (voix off, notices (globalement) et éventuellement séquences dans les notices, tapuscrit)
      • commandes
        • sélection de sous-corpus : union, intersection, soustraction, complémentaire (plusieurs versions possibles : match, mots + opérateurs de recoller les morceaux
  • édition
    • édition de sous-corpus
      • navigation compatible avec le sous-corpus
    • navigation dans l'édition
      • ajouter un champ de sélection d'id de text au milieu des flèches de navigation entre textes
    • options de retour au texte édition + média
      • backtotext_layout
      • backtomedia_layout
      • backcombined_layout
    • navigateur dans l'édition
      • vérifier la compatibilité avec les sous-corpus
      • vérifier l’existence du répertoire et des fichiers médias avant de tenter l'ouverture
  • spécificités
    • spécificités de sous-corpus
      • n'afficher les résultats que pour le sous-corpus
  • installation
    • récupération de corpus au premier lancement
      • créer des liens symboliques identiques au lieu de copier leur contenu

Étape 2.2

Corpus

Outils de préparation des corpus

De nouveaux utilitaires d'assistance à la préparation de sources de corpus ont été développés pour produire le corpus VOIXOFF V0.2.

Ils sont mis en oeuvre par la procédure de construction ci-dessous.

TXM

Retour à la vidéo (extension Media Player)

  • authentification HTTP
  • lecture en streaming
Accès avec authentification

Paramètres de corpus :

  • media_url : http://okapi.ina.fr/antract/Media/AF/
  • media_auth_url : http://%s:%s@okapi.ina.fr/antract/Media/AF/
  • media_extension : .mp4
  • media_auth : true/false
    • si true, au premier retour à la vidéo, TXM demande de renseigner login et password dans une boite de dialogue
      • media_auth_login → not stored
      • media_auth_password → not displayed & stored
      • ces informations sont perdues à la fermeture de TXM

“media_auth” est un nouveau champ de la commande de préférences média du corpus.

Nouvelles entrées de menu pour l'ouverture directe de média
  • “Ouvrir un fichier média…”
  • “Ouvrir un flux réseau média…”

Import TRS / Édition

CSS
  • récupérer les éléments de base de la css générale txm 0.8.0 :
    • cadre d'arrière plan
    • couleurs de titres et intertitres
    • polices
    • etc.
Stylage de la première page de transcription ANTRACT (unité textuelle, journal complet du jour)
  • tout en “hors texte à éditer” (pour l'import) → peut-être enrober avec un élément déclaré en “hors texte à éditer” à l'import1)
  • titre H1 centré = contenu du 'Titre propre', ex. “Les Actualités Françaises : édition du 6 avril 1945”
  • sous-titre H2 centré = "12 janvier 1956"((s'appuyer éventuellement sur le code de scan de date, des macros de préparation de corpus précédentes, pour re-générer la date sous cette forme))
  • si 'Notes du titre' n'est pas vide
    • titre H2 centré = contenu des 'Notes du titre'
  • tableau de métadonnées habituel (couleur de fond des lignes alternée) → s'il y a d'autres métadonnées

Pour l'indication du type de corpus, deux styles possibles :

  • a) [SLH] sous-titre H2 centré = “(transcription de la voix off)”
    • sous le titre principal
  • b) ou bien [BP] entête de page H2 centré = “commentaires parlés” ou bien “transcription voix off”
    • détaché du titre principal
Stylage des intertitres de sections (structures internes, sujets synchronisés)

Piloter les stylages de titres de section à l'aide de la propriété Section@type ?

  • tout en “hors texte à éditer” (pour l'import)
  • titre H1 centré = @titrepropre
  • tableau de métadonnées habituel pour toutes les autres propriétés
  • peut-être mettre ces intertitres en début de page, voire créer une page par sujet - car ils semblent assez petits en général
Stylage des intertitres de sections ou tours non synchronisés
  • tout en “hors texte à éditer” (pour l'import)
  • titre H2 centré = “Section non synchronisée” ou bien “Tour non synchronisé”
    • [BP 2019-10-09] : si possible plutôt section, pour n'avoir qu'une seule indication pour tout le passage concerné ?
Ergonomie / accès rapides
  • lien hypertexte avec icone de vidéo, genre , pour :
    • sous le titre de la transcription → jouer la vidéo complète (ouvrir l'éditeur de média selon la stratégie courante au préalable si nécessaire)
    • sous le titre de section synchronisée → jouer le sujet (ouvrir l'éditeur de média selon la stratégie courante au préalable si nécessaire)
    • exemples d'icones :
      U+25B6 	▶/▶️ (d'après https://en.wikipedia.org/wiki/Media_control_symbols)
      ???     ♪
      U+1F39E 	FILM FRAMES 	🎞
      U+1F3A5 	MOVIE CAMERA 	🎥
      U+1F3A6 	CINEMA 	🎦
      U+1F3A7 	HEADPHONE 	🎧
      U+1F3AC 	CLAPPER BOARD 	🎬
      U+1F3B5 	MUSICAL NOTE 	🎵
      U+1F3B6 	MULTIPLE MUSICAL NOTES 	🎶
      U+1F4FA 	TELEVISION 	📺
  • control-clic sur un tour → jouer le tour (comme le code de Bertrand Gaiffe)
Formatage
  • pour les noms de locuteurs en début de tour, pour les formes “S66”
    • au lieu d'afficher “S 66:”, afficher “S<sub>66</sub> :” (“S66 :”)

Étape 3

  • alignement entre corpus existants
    • afnotices // afvoixoff
      • structures qui n'ont pas les mêmes noms et propriétés
    • requêtes alignées
    • éditions synoptiques alignées
    • navigateur aligné
      • vue synoptique
        • affichage tabulé pas par défaut : correspondance sémiotique problématique

Étape 4

Import/export de définitions de sous-corpus (sélection de textes)

Utilitaire ListerIdentifiantsSujets pour l'export de corpus

Okapi exporte une liste d'identifiants de sujets vers TXM pour transmettre des corpus construits dans Okapi.

Cet utilitaire doit construire une liste d'identifiants de sujets ayant le même format vers Okapi (identifiants séparés par '|' sans espaces entre eux).

La liste est construite à partir d'un sous-corpus en projetant ses mots sur les structures de sujets les dominants.

Attention : il faut tenir compte de l'architecture du corpus (AFNOTICES et AFVOIXOFF sont différents).

La liste est triée alphabétiquement pour faciliter sa lecture.

La chaîne représentant la liste est copiée dans le presse-papier et affichée dans la console.

Paramètres :

  • le sous-corpus sélectionné dans la vue Corpus
Autres développements
  • fonctionnalités TXM 0.8.1
    • gestion de l'alignement entre modalités (voix off, notices (globalement) et éventuellement séquences dans les notices, tapuscrit)
      • import
        • format
        • paramétrage
        • workflow

Utilitaire ExporterSousCorpusSujetsDansOkapi d'export de corpus vers Okapi

L'API Okapi expose une commande “create_corpus” qui permet de créer un corpus Okapi (et d'ajouter des sujets à un corpus).

Avant toute commande, il faut s'identifier sur le serveur okapi avec la commande “login” en renseignant les paramètres GET :

  • user : identifiant du compte Okapi
  • password : mot de passe du compte Okapi

La requête HTTP retourne alors un identifiant de session que l'on trouve dans les cookies (“Set-Cookie”) à la valeur “okapi”.

Pour les commandes suivantes, il faut alors renseigner cet identifiant de session dans le paramètre d'entête HTTP “session”.

Les paramètres de la commande “create_corpus” dépendent de l'usage souhaité :

  • création de corpus :
    • title : titre du corpus à créer
    • content : liste des identifiants séparé par des “|” du corpus
  • modification de corpus pour ajout de sujets:
    • uri : identifiant du corpus Okapi à modifier
    • content : liste des identifiants séparé par des “|” à ajouter

Lors du premier lancement de l'utilitaire ExporterSousCorpusSujetsDansOkapi, TXM demande à l'utilisateur de renseigner son identifiant+mot de passe de la même façon que pour le retour au média (Il faudra re-renseigner cela si TXM est coupé).

L'utilitaire va construire pour l'utilisateur la liste des identifiants de sujet à partir du corpus sélectionné.

Paramètres :

  • le sous-corpus sélectionné dans la vue corpus
  • titre_corpus_okapi : le titre pour créer un corpus Okapi

Utilitaire AjouterSujetsDansCorpusOkapi d'ajouts de sujets à un corpus Okapi

L'utilitaire utilise la commande Okapi “create_corpus” avec le paramètre “uri” renseignant l'identifiant du corpus à mettre à jour et le paramètre “content” renseignant la liste des identifiants (ou contenu du POST)

Paramètres :

  • liste_identifiants_sujets : liste identifiants
  • identifiant_corpus_okapi : identifiant de corpus Okapi

Utilitaire ImporterCorpusDepuisOkapi d'import de corpus Okapi : Import corpus from Okapi

V1 à partir d'une liste copiée-collée

Okapi expose une commande “export_corpus” dans son interface web. La commande donne une chaîne contenant la liste des identifiants de sujets sous la forme “id1|id2|id3|…|idN”.

L'utilitaire ImporterCorpusDepuisOkapi prend en entrée :

  • le corpus sélectionné dans la vue Corpus : le corpus “AF-VOIX-OFF-V*” ou “AFNOTICE”
  • liste_identifiants_sujets : identifiants de sujets du corpus Okapi à importer
  • nom_sous_corpus : nom du sous-corpus à créer

En fonction du corpus principal sélectionné, un sous-corpus est créé avec la requête (avec IDS la liste des identifiants) :

  • [_.div_id="IDS] expand to div" pour le corpus AF-NOTICE
  • [_.text_id="IDS] expand to text" pour le corpus AF-VOIX-OFF

Limite CQL : la requête CQL ne doit pas dépasser ~2000 caractères

V2 à partir d'un identifiant de corpus Okapi

Okapi pourrait exposer une commande “export_sujet” dans son interface web. La commande donnant une chaîne contenant la liste des identifiants de sujets sous la forme “id1|id2|id3|…|idN”.

L'utilitaire ImporterCorpusDepuisOkapi prend alors en entrée :

  • le corpus sélectionné dans la vue Corpus : le corpus “AF-VOIX-OFF-V*” ou “AFNOTICE”
  • identifiant_corpus_okapi : identifiant du corpus Okapi à importer
  • nom_sous_corpus : nom du sous-corpus à créer

En fonction du corpus principal sélectionné, un sous-corpus est créé avec la requête (avec IDS la liste des identifiants) :

  • [_.div_id="IDS] expand to div" pour le corpus AF-NOTICE
  • [_.text_id="IDS] expand to text" pour le corpus AF-VOIX-OFF

Limite CQL : la requête CQL ne doit pas dépasser ~2000 caractères

V3 - pas de limite CQL

Utiliser les commandes dump/undump de CQP pour construire manuellement des sous-corpus.

Utilitaire AjouterSujetsDepuisCorpusOkapi d'import de sujets Okapi dans un corpus TXM

Paramètre :

  • Sous corpus sélectionné
  • identifiant_corpus_okapi : identifiant du corpus okapi

Recettes

Recette étape 2.1

Opérations ensemblistes sur les listes de matchs de sous-corpus

  • soient les 5 premiers textes du corpus AFVOIXOFF :
    text@id = AFE00001267, AFE00001287, AFE00001787, AFE00001788, AFE00001863
  • créer un sous corpus AB des 2 premiers textes de AFVOIXOFF (AFE00001267|AFE00001287)
  • créer un sous corpus ABC des 3 premiers textes de AFVOIXOFF (AFE00001267|AFE00001287|AFE00001787)
  • créer un sous corpus C du premier texte de AFVOIXOFF (AFE00001787)
  • SOUSTRACTION : sélectionner le sous-corpus ABC et lancer la commande “Corpus > MINUS” du menu principal (soustraction)
    • dans la boite de dialogue :
      • nommer le résultat ABC ∖ AB
      • sélectionner le sous corpus AB
      • lancer le calcul
    • vérifier que la taille du sous corpus “ABC ∖ AB” est bien identique à celle du sous corpus C (clic dans la vue corpus)
  • créer un sous corpus BC des 2 textes de AFVOIXOFF suivant le premier (AFE00001287|AFE00001787)
  • créer un sous corpus BCD des 3 textes de AFVOIXOFF suivant le premier (AFE00001287|AFE00001787|AFE00001788)
  • INTERSECTION : sélectionner ABC et lancer la commande “Corpus > INTER” du menu principal
    • dans la boite de dialogue :
      • nommer le résultat ABC ∩ BCD
      • sélectionner le sous corpus BCD
      • lancer le calcul
    • vérifier que la taille du sous corpus “ABC ∩ BCD” est bien identique à celle du sous corpus BC
  • créer un sous-corpus DE des 4e et 5e textes de AFVOIXOFF (AFE00001788|AFE00001863)
  • créer un sous-corpus ABCDE des 1er au 5e textes de AFVOIXOFF (AFE00001267|AFE00001287|AFE00001787|AFE00001788|AFE00001863)
  • UNION : sélectionner “ABC” et lancer la commande “Corpus > UNION” du menu principal
    • dans la boite de dialogue :
      • nommer le résultat ABC ∪ DE
      • sélectionner le sous corpus DE
      • lancer le calcul
    • vérifier que la taille du sous corpus “ABC ∪ DE” est bien identique à celle du sous corpus ABCDE

Résonance : analyse combinante 2

  • créer le sous corpus “{t ∈ T}” de tous les sujets, en mode expert
    • SLH: obligatoire ?
    • [_.text_typedenotice="Notice sujet"] expand to text
  • créer le sous corpus “{t.meta ∋ BB}” de “{t ∈ T}” en mode expert avec la requête :
    • [_.text_resume=".*Brigitte Bardot.*"%c | _.text_sequences=".*Brigitte Bardot.*"%c] expand to text

      → sujets dont la métadonnée résumé contient “Brigitte Bardot” ou bien la métadonnée séquence contient “Brigitte Bardot”

  • créer le sous corpus “{t.words ∋ BB}” de “{t ∈ T}” en mode expert avec la requête :
    • [word="brigitte"] [word="bardot"] expand to text

      → sujets contenant la séquence de mots “brigitte” “bardot”

  • créer le sous corpus “{t.words ∌ BB}” résultat de la commande MINUS appliquée sur “{t ∈ T}” avec “{t.words ∋ BB}“
    → sujets ne contenant pas la séquence de mots “brigitte” “bardot”
    • [BP 2019-09-12] Difficile de continuer ici avec le corpus VOIXOFFV01, car à l'étape suivante on aura l'ensemble vide : du fait du bug sur les métadonnées avec guillemets, il n'y a qu'un seul sujet ayant BB dans les métadonnées, et il a aussi BB dans la voix off. Du coup je propose un exemple plus fourni, avec “foule”, cf. ci-après.
  • créer le sous corpus ”{t.meta ∋ BB, t.words ∌ BB}” résultat de la commande INTER appliquée sur “{t.meta ∋ BB}” avec “{t.words ∌ BB}”
  • calculer les spécificités de “{t.meta ∋ BB, t.words ∌ BB}” par rapport à “{t ∈ T}”

Résonance : analyse combinante 2 - cas foule

  • créer le sous corpus “sujets” de tous les sujets, en mode expert
    • [_.text_typedenotice="Notice sujet"] expand to text
  • créer le sous corpus “notice_avec_foule” en mode expert avec la requête :
    • [_.text_resume=".*foule.*"%c | _.text_sequences=".*foule.*"%c] expand to text
  • créer le sous corpus “voix_avec_foule” en mode expert avec la requête :
    • [frplemma="foule"] expand to text
  • créer le sous corpus “voix_sans_foule” résultat de la commande MINUS appliquée sur “sujets” avec “voix_avec_foule”
    → sujets ne contenant pas le lemme “foule” dans la voix off
  • créer le sous corpus “notice_avec_foule ∩ voix_sans_foule” résultat de la commande INTER appliquée sur “notice_avec_foule” avec “voix_sans_foule”
  • calculer les spécificités de “notice_avec_foule ∩ voix_sans_foule” (par rapport à “sujets”)

Navigation dans les éditions de sous-corpus

  • créer un sous corpus SOMMAIRES des sujets sommaire de AFVOIXOFF :
    • [_.text_typedenotice="Notice sommaire"] expand to text
  • sélectionner SOMMAIRES et ouvrir son édition
  • l'édition de la transcription de la première notice sommaire est affichée
  • aller au texte suivant → l'édition de la transcription de la notice sommaire suivante est affichée
  • aller au dernier texte → l'édition de la transcription de la dernière notice sommaire est affichée
  • aller au texte précédent → l'édition de la transcription de l'avant-dernière notice sommaire est affichée
  • aller au premier texte → l'édition de la transcription de la première notice sommaire est affichée
  • commencer la saisie du nom de texte “AF…” dans le champ d'accès direct
  • ouvrir la complétion avec CTRL + ESPACE
  • sélectionner “AF…” et valider avec la touche ENTRÉE

Recette étape 2.2

Si vous souhaitez simplement installer la version courante de TXM pour l'utiliser dans le cadre du projet Antract, la procédure d'installation est maintenant dans un document propre disponible sur le sharedocs huma-num du projet ici : ANR > ANTRACT > SP2 Corpus & Recherche technologique > TXM > formation_et_aide > fiche_installation

Lien direct de téléchargement de la version pdf : fiche_installation_txm_antract_200507a.pdf

Les paragraphes qui suivent concernent le cas où vous souhaitez aider le projet en testant la nouvelle version et en vérifiant son bon fonctionnement.

Étapes initiales

  • si nécessaire, télécharger et installer TXM 0.8.1 (actuellement en version beta) sur l'ordinateur ;
  • installer l'extension Media Player depuis TXM :
    • menu Fichier > Ajouter une extension
    • sélectionner l'extension Media Player (utiliser l'ascenseur pour parcourir la liste des extensions disponibles), puis accepter les différentes étapes (détail : cf. section Installer une extension dans le manuel utilisateur TXM)
  • télécharger le corpus binaire des transcriptions AFVOIXOFFV02.txm depuis Sharedocs :
  • charger le corpus binaire AFVOIXOFFV02.txm pour obtenir le corpus AFVOIXOFFV02 :
    • menu Fichier > Charger > Un corpus binaire (.txm)…
    • indiquer l'emplacement sur votre ordinateur du fichier AFVOIXOFFV02.txm que vous avez téléchargé, en naviguant jusqu'à lui,
    • puis Valider (bouton en bas de la boîte de dialogue) ;
    • TXM charge le corpus (cela peut prendre une petite minute), puis AFVOIXOFFV02 apparaît dans la liste des corpus, avec un petit cube marqué “C”, dans la partie gauche de la fenêtre TXM (vue Corpus).
  • sélectionner le corpus AFVOIXOFFV02
    • vérifier la version avec la commande Propriétés (menu Corpus > Propriétés > onglet “Général”)
      • 25 novembre 2019, 14h14 (date de dernière mise à jour)

Retour à la vidéo depuis une section d'édition

  • ouvrir l'édition du corpus :
    • sélectionner le corpus en cliquant sur le nom du corpus dans la vue Corpus (marge gauche de la fenêtre)
    • lancer la commande Edition (menu Corpus > Édition)
    • soit la 3e section, qui correspond à la 3e notice sujet, de la 1ere émission (dans l'ordre chronologique des émissions))
    • de titre propre “Les voeux du corps diplomatique”
    • datant du 04/01/1945
  • cliquer sur le symbole “♫” situé à droite du titre pour provoquer la lecture de la vidéo du sujet
  • il s'agit de la première vidéo lue à partir du site Okapi de l'INA, dans cette session TXM, la boite de dialogue de connexion au site de l'INA s'ouvre :
    • renseigner les informations de connexion fournies par l'INA :
      • identifiant
      • mot de passe
    • cliquer sur 'Se connecter'
      Attention : dans l'état actuel du logiciel TXM (au 13/01/2020), une erreur de saisie de l'identifiant ou du mot de passe empêche d'accéder aux vidéos (à juste titre) mais il n'y a aucun retour (visuel, textuel) fait de la situation à l'utilisateur ni possibilité de ré-essayer de saisir ces informations. Dans cette situation il faut donc relancer TXM pour retenter l'accès aux vidéos.
  • la fenêtre du lecteur vidéo s'ouvre au-dessus de la fenêtre de la transcription :
    • Note : il y a une petite latence avant le démarrage de la lecture de la vidéo
  • vérifier que l'empan joué correspond bien au début de la transcription de la 3e notice
    • soit, en temps, à 00:03:46:00 qui est la valeur de la propriété 'antract_debut' (00 heure 03 minutes 46 secondes)
    • soit, en texte, quand la voix off dit Mille neuf cent quarante-cinq. C'est le premier 1er janvier de la Libération…
      [le texte de la transcription se trouve après la barre de délimitation de la liste des propriétés du sujet]
  • cliquer sur le bouton [Pause] dans le lecteur pour arrêter la lecture

Retours

  • BP1 : OK

Retour à la vidéo depuis une ligne de concordance

  • si nécessaire, fermer les fenêtres de résultats existantes
  • sélectionner le corpus AFVOIXOFFV02 et lancer la commande Concordances (Menu Outils > Concordances)
  • calculer la concordance de “Bardot” (7 lignes)
  • régler l'emplacement d'ouverture de l'édition depuis une concordance à “à droite” :
    • menu Edition > Préférences
    • aller dans la page de préférences “TXM > Utilisateur > Édition” en double-cliquant successivement sur “TXM”, puis “Utilisateur”, etc., dans la marge gauche, pour déplier l'arborescence (Rq. à cause de son initiale accentuée “É”, “Édition” est le dernier élément de la liste sous “Utilisateur”)
    • régler la préférence “new editor position” à la valeur “RIGHT_OF” et valider (“Apply and close”).
  • faire un retour au texte en double-cliquant sur la première ligne de la concordance (les premiers Gala voici d'autres visage Brigitte Bardot , Johnson là Des grandes vedettes, elle du tout Paris en)
    • l'édition s'ouvre à droite de la concordance
  • régler la position d'ouverture de la fenêtre de lecture vidéo à “à droite de la concordance”
    • menu Edition > Préférences
    • aller dans les préférences “TXM > Utilisateur > MediaPlayer”
    • modifier la valeur de la préférence “BackToMedia position” à la valeur “RIGHT_OF”, et valider (“Apply and close”).
  • faire un retour à la vidéo depuis la première ligne de la concordance
    • menu contextuel de la première ligne (clic droit sur la première ligne) > Jouer le média
  • la fenêtre de lecture vidéo s'ouvre à droite de la concordance
    • si besoin on peut cliquer sur les frontières (entre concordance et vidéo, ou entre vidéo et édition de la transcription) pour les déplacer (par ex. si on veut agrandir la place occupée par la vidéo).
  • vérifier que l'empan joué correspond bien au tour de parole :
    • 0:02:16 ♫ Avec les premiers Gala voici d'autres visage Brigitte Bardot,

Retours

  • BP1 : OK

Réglage de l'empan de lecture vidéo en mots

  • sélectionner le corpus “AFVOIXOFFV02” dans la vue corpus (marge gauche de la fenêtre TXM)
  • modifier les préférences média du corpus :
    • lancer la commande du menu principal “Edition > Open media preferences” (ou : “Edition > Préférence MediaPlayer”)
    • dans la boite de dialogue régler les champs de la façon suivante (attention aux majuscules) :
      • backtomedia_wordtime_property : starttime
      • backtomedia_word_context_left_distance : 12
      • backtomedia_word_context_right_distance : 17
      • sync_mode : Word
    • Valider avec le bouton “OK”
  • rejouer le média depuis la concordance (comme précédemment)
  • vérifier que l'empan joué
    • commence bien au mot “Marcel [Pagnol]” (de starttime 132.85)
    • et se termine bien au mot “avec [Nadia gray]” (de starttime 147.70)
    • c'est à dire la partie située entre les crochets dans la transcription ci-dessous :
      0:02:11 ♫ Le président du jury [Marcel Pagnol.
      
      0:02:16 ♫ Avec les premiers Gala voici d'autres visage Brigitte Bardot,
      
      0:02:21 ♫ Johnson
      
      
      S 14: 0:02:23 ♫ là Des grandes vedettes, elle du tout Paris en smoking écossais André duguay avec] Nadia gray et oui, Jean pierre ou non une distribution

Retours

  • FM1 : il y a un petit décalage dans les segments de lecture vidéo à cette étape avec les réglages demandés. Le décalage entre la vidéo et la transcription est d’environ 1 seconde, la vidéo commence 1 seconde avant le départ sélectionné et se termine 1 seconde avant la fin de la sélection.
    • BP1 : je reproduis le bug (on demande un contexte 12/17 et on obtient un contexte décalé de 3 mots, 15/14).
    • MD : création du ticket #2808

Retour à la vidéo depuis une sélection de mots de l'édition

  • ouvrir l'édition du corpus :
    • sélectionner le corpus en cliquant sur le nom du corpus dans la vue Corpus (marge gauche de la fenêtre)
    • lancer la commande Edition (menu Corpus > Édition)
    • soit la 5e section, qui correspond à la 5e notice sujet, de la 1ere émission (dans l'ordre chronologique des émissions))
    • de titre propre “Inauguration du barrage d'Imfout au Maroc par le général Catroux”
    • datant du 04/01/1945
  • sélectionner les mots de la phrase “C'est une tare politique et sociale que la France veut poursuivre mais est ce que nous dit le général quatre” de l'énoncé au timing “0:07:07” (8e tour de parole)
  • ouvrir le menu contextuel de l'édition, par un clic droit dans l'édition, et lancer “Jouer le média”
  • la fenêtre du lecteur vidéo s'ouvre à droite de la fenêtre de la transcription
  • vérifier que l'empan joué correspond bien aux mots sélectionnés
  • cliquer sur le bouton [Pause] dans le lecteur pour arrêter la lecture

Retours

  • BP1 : on observe le même genre de décalage que lors du Réglage de l'empan de lecture vidéo en mots (section juste précédente).
    • le ticket #2808 a été complété en ce sens.

Édition de sujet non synchronisé

  • vérifier qu'il s'agit bien d'un sujet non synchronisé (sans timing)
    • de titre “Sujet non synchronisé”
    • de propriété synchronized à la valeur false
    • de contenu :
      S 48: 0:04:46 ♫ La
      
      
      S 26: 0:04:50 ♫ Quelles que soient les difficultés d'honneur la France ne détourne pas de sa grandeur impérial dans le sud algérien le port le plus bel verte qui porte le nom d'un héros de la guerre de Tunisie est inauguré par messieurs châtaignes au gouverneur général.
      
      
      S 48: 0:05:06 ♫ De fait,

Retours

  • BP1 : OK

Recettes étape 4

Préparation

V1

  • si ce n'est déjà fait, installer l'extension TXM 'Media Player'
  • les utilitaires pour ces recettes se trouvent dans le répertoire suivant de Sharedocs :
    ANR > ANTRACT > SP2 Corpus & Recherche technologique > TXM > utilitaires
    (accès direct)
    • ListerIdentifiantsSujetsMacro.groovy : créer une liste d'identifiants de sujets depuis un corpus TXM
    • ExporterSousCorpusSujetsDansOkapiMacro.groovy : créer un corpus Okapi à partir d'un sous-corpus TXM
    • AjouterDesSujetsAuCorpusOkapiMacro.groovy : ajouter des sujets à un corpus Okapi à partir d'un sous-corpus TXM
    • ImporterCorpusOkapiMacro.groovy : créer un sous-corpus TXM à partir d'un corpus Okapi
    • OkapiSaphirAPI.groovy : boite à outils de communication TXM↔Okapi
  • pour les installer, deux méthodes possibles :
    • dans le gestionnaire de fichiers :
      • copier tous les fichiers
      • coller dans $HOME/TXM-0.8.1/scripts/groovy/user/org/txm/macro/projects/antract
    • dans TXM :
      • copier tous les fichiers depuis la vue Fichier (navigateur de fichiers)
      • coller dans le sous-répertoire “projects/antract” de la vue Macro
  • Retours
    • [BP 2021-09-13, VM Windows 10, TXM 0.8.1 update 2021-01-14 12h01 - build 2020-06-29 09h05] Deux petits retours sur cette dernière interface :
      • le renommage de fichier dans la vue Fichiers fonctionne, mais la vue n'est pas rafraîchie donc le nom affiché reste l'ancien ;
      • je n'arrive pas à faire de sélection multiple donc pour 4 fichiers je fais la manoeuvre copier/coller 4 fois.
      • la macro OkapiSafirAPI n'a pas Macro à la fin de son nom, du coup elle n'apparaît pas dans la vue Macro même si on la rafraîchit, et l'utilisateur ne visualise pas si la copie a bien été effectuée ou non.

V2

  • si ce n'est déjà fait, installer l'extension TXM 'Media Player'
  • les utilitaires pour ces recettes se trouvent dans le répertoire suivant de SVN :(InstallerEtMettreAJourOutilsAntractMacro.groovy)
    • InstallerEtMettreAJourOutilsAntractMacro.groovy : récupère et installe les utilitaires Antract pour TXM
  • pour les installer :
    • dans le gestionnaire de fichiers, copier tous les fichiers
    • dans TXM, coller dans le sous-répertoire “projects/antract” de la vue Macro

Recette de la macro ListerIdentifiantsSujets

La macro est définie à la section Import/export de définitions de sous-corpus (sélection de textes).

  • Recette
    • dans le corpus AF-VOIX-OFF-V4-2021-05-19
    • créer le sous-corpus 'reportages' composé des structures div@genre=“Presse filmée;Reportage;”
    • sélectionner ce sous-corpus 'reportages' dans la vue Corpus et lancer la macro projects/antract/ListerIdentifiantsSujets depuis la vue Macro
    • vérifier que le résultat est bien composé d'identifiants de notices sujets
    • vérifier que la console affiche bien la liste de 8 identifiants suivante : AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276
    • vérifier que le presse-papier contient bien la chaine suivante : AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276
    • éventuellement, appliquer la macro à d'autres sous-corpus d'autres versions des corpus AFVOIXOFF et AFNOTICES
      • vérifier que les listes d'identifiants sont correctes
  • Retours de recette
    • BP 2021-06-15, VM Windows 10, TXM 0.8.1 update 2021-01-14 12h01 - build 2020-06-29 09h05 : recette OK pour :
      • le sous-corpus des 68 sujets sur les mutilés de guerre dans AF-VOIX-OFF-V4-2021-05-19
      • le sous-corpus de l'émission du 29 juin 1945 dans AF-VOIX-OFF-V4-2021-05-19 (pour tester le cas d'un corpus non défini à partir de sujets)
      • le sous-corpus de 24 sujets sur le 11 novembre dans AFNOTICES
    • [SLH, 2021-09-08] OK
    • [BP 2021-09-13, VM Windows 10, TXM 0.8.1 update 2021-01-14 12h01 - build 2020-06-29 09h05] OK j'ai utilisé la macro pour passer un corpus d'AFNOTICES à AF-VOIX-OFF-V4-2021-05-19, c'est un usage que je pense très utile pour contourner les difficultés d'expression de requête sur les métadonnées plus textuelles d'AF-VOIX-OFF.

Recette de la macro ExporterSousCorpusSujetsDansOkapi

La macro est définie à la section Import/export de définitions de sous-corpus (Utilitaire ExporterSousCorpusSujetsDansOkapi).

  • Recette
    • dans le corpus AF-VOIX-OFF-V4-2021-05-19
    • si nécessaire, créer le sous-corpus TXM 'reportages' composé des structures div@genre=“Presse filmée;Reportage;”
    • sélectionner ce sous-corpus et lancer la macro projects/antract/ExporterSousCorpusSujetsDansOkapi et régler les paramètres suivants
      • titre_corpus_okapi = test txm reportages
    • si cela n'a pas déjà été fait, renseigner votre identifiant et mot de passe Okapi
    • vérifier que la console affiche bien la liste AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276
    • vérifier que le corpus a bien été créé dans Okapi
      • le message “Le corpus 'test txm reportages' a été créé” est affiché ainsi que son identifiant et un lien d'accès direct
      • sur le site Antract d'Okapi, vérifier que le corpus “test txm reportages” est bien présent et qu'il contient les bons sujets.
  • Retours
    • [SLH, 2021-09-08] Problème d'accès en écriture dans Okapi :
      Exécution du script Groovy ExporterSousCorpusSujetsDansOkapiMacro.groovy…
      Liste des identifiants (8) : AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276
      Erreur : Le corpus Okapi n'a pas été créé (code d'erreur=error_write_unauthorized)
      Effectué en 36762 ms.
    • [SLH, 2021-09-09]
    • [BP 2021-09-13, VM Windows 10, TXM 0.8.1 update 2021-01-14 12h01 - build 2020-06-29 09h05]
      • Peut-être préciser plus clairement que la macro OkapiSaphirAPI est utilisée et ne doit pas être renommée ; idem pour la macro ListerIdentifiantsSujets.
      • Export testé et réussi pour un corpus “mode313sujets” créé dans AFNOTICES avec la requête
[word="modes?"%c & _.notice_identifiantdelanotice!="AFE85007446|AFE85010240|AFE85003943|AFE85009291|AFE85008305|AFE85001505|AFE85008807"] expand to notice
  • On remarque que la commande fonctionne si c'est un sous-corpus qui est sélectionné et pas seulement le corpus principal, mais le sous-corpus créé est sous le corpus principal.

Recette de la macro AjouterSujetsDansCorpusOkapi

  • Recette
    • dans le corpus AF-VOIX-OFF-V4-2021-05-19
    • créer le sous-corpus TXM 'déclarations' composé des structures div@genre=“Déclaration ; Presse filmée ;”
    • sélectionner ce sous-corpus et lancer la macro projects/antract/ListerIdentifiantsSujets et recopier la liste des identifiants
    • si demandé, renseigner votre identifiant et mot de passe Okapi
    • lancer la macro projects/antract/AjouterSujetsDansCorpusOkapi te renseigner :
      • liste_identifiants_sujets : AFE86000511|AFE86001277
      • identifiant_corpus_okapi : l'identifiant du corpus Okapi précédemment créé
        • Pour obtenir l'identifiant du corpus dans Okapi
          • cliquer sur le bouton “Exporter des liens” de la page du corpus (situé juste après les boutons de diffusion dans les réseaux sociaux)
          • dans la fenêtre qui s'ouvre, copier la valeur du champ “Identifiant de l'objet” (l'identifiant est une adresse web)
    • vérifier que le corpus a bien été modifié dans l'interface web Okapi et que les 2 nouveaux sujets sont bien présents
  • Retours
    • [SLH, 2021-09-09]
      • Le sous-corpus 'déclarations' ne contient qu'un sujet et il est différent : Liste des identifiants (1) : AFE85004014
      • Ajout d'un sujet au corpus Okapi OK

Recette de la macro ImporterCorpusOkapi

  • Recette
    • dans Okapi, récupérer la liste des identifiants de sujets du corpus
      • ouvrir la page du corpus “test txm reportages”, exporté depuis TXM par la recette ci-dessus, à partir de son lien direct ou depuis l'accueil Okapi
        • si nécessaire, se connecter par identifiant/mot de passe au site Okapi : bouton avec l'icone de bonhomme
        • accéder à la page du corpus
        • si nécessaire, se re-connecter par identifiant/mot de passe au site Okapi, si le bouton avec l'icone de bonhomme est toujours jaune avec une petite croix
        • ouvrir l'outil “éditer” : bouton avec icone de crayon situé à gauche du bonhomme
        • cocher la fonction “édition”
        • la barre d'outils d'édition du corpus s'ouvre
        • lancer la commande d'export de corpus : bouton avec icone de fichier avec flèche à droite (dernier bouton de la barre d'outils)
          • la liste d'identifiants s'affiche dans une boite de dialogue
            • elle doit être “AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86000511|AFE86001276|AFE86001277”
          • copier la liste en cliquant sur le bouton [Copier]
    • dans TXM, sélectionner le corpus AF-VOIX-OFF-V4-2021-05-19
    • lancer la macro projects/antract/ImporterCorpusOkapi et renseigner les paramètres :
      • liste_identifiants_sujets : coller la liste d'identifiants récupérée ci-dessus
      • nom_sous_corpus : test_import_okapi_reportages
    • vérifier que le nouveau sous-corpus TXM contient bien les sujets importés.
  • Retours
    • [BP 2021-09-13, VM Windows 10, TXM 0.8.1 update 2021-01-14 12h01 - build 2020-06-29 09h05] Import testé et réussi pour le sous-corpus “mode313sujets” dont on a retiré un sujet dans Okapi. On a pu mettre le sous-corpus rectifié à la fois dans AFNOTICES et dans AF-VOIX-OFF-V4-2021-05-19.

Recette finale

  • Recette
    • créer un sous-corpus de sujets dans TXM
    • afficher la liste des sujets du sous-corpus avec ListerCorpusOkapi
    • exporter le sous-corpus dans Okapi avec ExporterSousCorpusSujetsDansOkapi
    • ajouter des sujets au corpus Okapi créé avec AjouterDesSujetsAuCorpusOkapi
    • importer le corpus Okapi dans TXM sous un nouveau nom avec ImporterCorpusOkapi
    • vérifier que le nouveau sous-corpus TXM contient les bons sujets
  • Retours

Tutoriel d'utilisation des outils d'échanges entre TXM et Okapi

1) Préparer son TXM

Attention, l'étape 3 concernant la mise à jour Beta ne concerne que les Windows et Linux. Il ne faut pas faire de mise à jour Beta pour les Mac.
  • installer l'outil d'installation et de mise à jour des outils ANTRACT
    • télécharger et enregistrer le fichier InstallerEtMettreAJourOutilsMacro.groovy en acceptant les exceptions de sécurité pour le serveur (forge.cbp.ens-lyon.fr) - il ne faut pas chercher à le lancer au moment du téléchargement avec “Ouvrir avec…“, mais bien choisir “Enregistrer le fichier”. (Le fichier sera lancé plus tard, quand il sera dans TXM, depuis TXM.)
    • copier ce fichier dans l'explorateur de fichiers du système
    • dans TXM
      • ouvrir la vue Macro (Affichage > Vues > Macro)
      • dans la vue Macro, descendre dans le répertoire 'projects > antract' (voir encadré ci-dessous si ce répertoire manque).
      • faire un clic droit et lancer la commande 'Coller fichier'
Si vous n'avez pas le répertoire 'projects' entre 'office' et 'prototypes' dans la vue macro, vous pouvez utiliser votre navigateur de fichiers usuel pour placer le fichier InstallerEtMettreAJourOutilsMacro.groovy à cet endroit précisément (en créant les répertoires 'projects' et 'antract') :
$HOME\TXM-0.8.1\scripts\groovy\user\org\txm\macro\projects\antract

c'est-à-dire si je suis sous Windows et que mon nom d'utilisateur est 'bpincemi' :

C:\Users\bpincemi\TXM-0.8.1\scripts\groovy\user\org\txm\macro\projects\antract
  • lancer l'outil de récupération des outils ANTRACT
    • rafraîchir la vue Macro en cliquant sur le bouton en haut à gauche de l'onglet Macro, qui a une flèche en forme de cercle (mais dans certains environnements le caractère “flèche tournante” n'arrive pas à s'afficher, le bouton à considérer est le bouton carré juste à gauche du bouton “Nouvelle macro”)
    • double-cliquer sur la macro InstallerEtMettreAJourOutils → elle télécharge ou met à jour les nouveaux outils ANTRACT de TXM

2) Utiliser les nouveaux outils d'échanges TXM<->Okapi

2.1) Lister les identifiants des sujets d'un sous-corpus TXM

[cette commande est analogue à la commande 'Export du corpus' d'Okapi]

  • dans le corpus AF-VOIX-OFF-V4-2021-05-19
  • créer le sous-corpus 'reportages' composé de toutes les structures div dont la propriété genre a la valeur “Presse filmée;Reportage;”
  • sélectionner ce sous-corpus 'reportages' dans la vue Corpus et lancer l'outil projects/antract/ListerIdentifiantsSujets depuis la vue Macro
  • la console affiche la liste des 8 identifiants des sujets du sous-corpus : AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276
  • la liste des 8 identifiants a également été copiée dans le presse-papier

2.2) Exporter un sous-corpus TXM dans Okapi

[cette commande va créer un nouveau corpus dans Okapi]

  • sélectionner le sous-corpus 'reportages' du corpus AF-VOIX-OFF-V4-2021-05-19 et lancer l'outil projects/antract/ExporterSousCorpusSujetsDansOkapi en réglant les paramètres de la façon suivante :
    • titre_corpus_okapi = test txm reportages (nom exemple)
  • si cela n'a pas déjà été fait, renseigner votre identifiant et votre mot de passe Okapi
  • vérifier que la console affiche bien la liste AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86001276
  • vérifier que le corpus a bien été créé dans Okapi
    • le message “Le corpus 'test txm reportages' a été créé” est affiché ainsi que son identifiant et un lien d'accès direct est fourni
    • sur le site Antract d'Okapi, vérifier que le corpus “test txm reportages” est bien présent et qu'il contient les bons sujets.

2.3) Modifier le sous-corpus dans Okapi

  • dans Okapi, utiliser le lien d'accès direct au corpus 'test txm reportages'
  • modifier le corpus (ajouter ou supprimer des sujets)

2.4) Importer un corpus depuis Okapi

[cette commande va créer un nouveau sous-corpus dans TXM]

  • dans Okapi, récupérer la liste des identifiants de sujets du corpus :
    • ouvrir la page du corpus 'test txm reportages'2) à partir de son lien d'accès direct ou depuis l'accueil Okapi
      • si nécessaire, se connecter par identifiant/mot de passe au site Okapi : bouton avec l'icone de personne
      • accéder à la page du corpus
      • si nécessaire, se re-connecter par identifiant/mot de passe au site Okapi, si le bouton avec l'icone de personne est toujours jaune avec une petite croix
      • ouvrir l'outil “éditer” : bouton avec icone de crayon situé à gauche de l'icone de personne
      • cocher la fonction “édition”
      • la barre d'outils d'édition du corpus s'ouvre
      • lancer la commande d'export de corpus : bouton avec icone de fichier avec flèche à droite (dernier bouton de la barre d'outils)
        • la liste d'identifiants s'affiche dans une boite de dialogue
          • elle doit être de la forme “AFE85001294|AFE85001326|AFE85007690|AFE85009829|AFE85009904|AFE86000447|AFE86000510|AFE86000511|AFE86001276|AFE86001277”
        • copier la liste en cliquant sur le bouton [Copier]
  • dans TXM, sélectionner le corpus AF-VOIX-OFF-V4-2021-05-19 (remarque : fonctionne aussi pour les autres corpus ANTRACT : AFNOTICES (v2), AF-NOTICES-V3, AF-PLANS-V2)
    • lancer l'outil projects/antract/ImporterCorpusOkapi en renseignant les paramètres de la façon suivante :
      • liste_identifiants_sujets : coller la liste d'identifiants récupérée ci-dessus
      • nom_sous_corpus : test_import_okapi_reportages (nom exemple)
    • vérifier que le nouveau sous-corpus TXM contient bien les sujets importés à l'aide de l'outil projects/antract/ListerIdentifiantsSujets
1)
stratégie que j'ai utilisée pour ces corpus jusqu'à maintenant
2)
exemple de corpus
public/chantier_antract.txt · Dernière modification : 12/01/2022 11:31 de benedicte.pincemin@ens-lyon.fr