Outils pour utilisateurs

Outils du site


public:import_trs

Spécification du module d'import de transcriptions, eg Transcriber+CSV

Pouvoir importer des transcriptions au format Transcriber dans TXM. Ce module est une étape avant la mise en place d'un module d'import XML-TEI dévolu aux transcriptions.

Le module doit produire les ressources nécessaires pour le retour au média de l'extension MediaPlayer.

ENTRÉE

Un répertoire de fichier XML Transcriber. Le fichier DTD de transcriber n'est pas obligatoire.

IMPORTER

Déroulement :

  1. transformation TRS → XML-TEI de transcription
  2. injection des metadonnées
  3. tokenisation des entités
  4. tokenisation des mots
  5. transformation XML-TEI → XML-TXM

Format XML-TEI TXM produit

Dans TXM 0.7.8, le format est hybride XML-TXM et transcriber. TXM 0.8.0 remplace quelques balises (Section → div, Turn → sp, etc.) mais il reste :

  • tout une partie non TEI concernant l'entête des fichiers Transcriber
  • à confirmer les transformations “Section → div, Turn → sp, etc.”

Voir la spécification du format.

Synchronisation plus fine pour le plugin BackToMedia

Actuellement après un import Transcriber on a :

  • des structures “sp” avec les propriétés (non exaustif)
    • @starttime
    • @endtime
  • des structures “u” avec la propriété (non exaustif)
    • @time

Pour obtenir une synchronisation plus fine pour le plugin BackToMedia, il faudrait que les structure “u” aient aussi le timing de fin. On pourrait remplacer u@time par u@starttime et u@endtime. On peut aussi coder le temps au mot près dans une propriété “t” ou “time” par exemple.

tokenisation des entités

La tokenisation des entités est un pre-traitement de la tokenisation pour repérer les entités Transcriber.

Projection de propriétés de structures

Paramétrage

La projection se règle dans la section “Structures”, dans le champ “Projections de structures CQP”.

Le champ contient une règle de projection par ligne. Le format des règles est structuredépart_propriétédépart -> structurearrivée_propriétéarrivée avec :

  • structuredépart_propriétédépart la propriété de structure à copier
  • " -> " le séparateur des propriété de départ et d'arrivé
  • structurearrivée_propriétéarrivée la propriété de structure à créer

Exemple :

text_loc -> p_loc
text_date -> p_date
text_genre -> p_genre

Réalisation

Les projections sont réalisées lors de l'étape compiler lors de l'écriture du fichier source CQP → les projections ne seront alors disponibles que dans les index CQP.

COMPILER

traitement des événements Transcriber :

  • injection la propriété event des mots
  • création de structures event en utilisant le type de l'évenement Transcriber

PAGER

Metadonnées de transcription

Les métadonnées sont affichées dans l'ordre alphabétique dans un tableau à 2 colonnes : titre + valeur.

titre de la transcription

Par défaut le titre est : “Transcription ” + text@id

si text@title existe sa valeur est utilisé pour produire le titre.

Gestion des Sections

Titre

un saut de page est inséré avant le titre (il sera utilisé plus tard pour créer les pages d'édition)

Pour l'instant il y a une gestion assez simple qui affiche :

section@type: section@topic

L’intérêt est que ça marche toujours car Topic@Desc n'est pas toujours renseigné. Il y a aussi les sections “non-trans” qui ne doivent pas avoir de Topic correspondant. Et donc ça affiche seulement section@type.

Pour la prochaine amélioration je propose donc de faire :

  • si Topic@desc est renseigné (non null et longueur > 0):
    • section@type: Topic@desc
  • sinon :
    • si section@topic est renseigné
      • section@type: section@topic
    • sinon
      • section@type

metadonnées

Si @metadata et @metadatagroups existent, les métadonnées listée dans @metadata sont insérées.

Il existe 3 groupes :

  • metadata : les métadonnées principales
    • ces métadonnées sont regroupées dans une liste ul “titre: valeur” après le titre
  • secondary : les métadonnées secondaires, typepiquement pour afficher des informations + techniques
    • ces métadonnées sont regroupées dans une liste ul “titre: valeur” après la liste “metadata”
  • text : les métadonnées qui se présentent sous forme textuel
    • les balises h4 et p sont insérées avec respectivement le titre et la valeur

Si @metadata et @metadatagroups existent ne sont pas défini, tous les attributs sont listés dans une liste ul

EVOLUTIONS

Information en début d'édition

Faudrait en faire des options d'import :

  • afficher la liste des thèmes dans l'édition
  • afficher la liste des locuteurs dans l'édition
  • afficher les statistiques de locuteurs et thème dans l'édition

Affichage des chevauchements

Dans l'état l'édition affiche :

spk1 spk2: 0:21:30
ch_AC 7: 0:21:30 euh sur la République de Centre ?
PY 94: non non non

On pourrait mettre un marqueur pour identifier rapidement un chevauchement, par exemple :

>>>
ch_AC 7: 0:21:30 euh sur la République de Centre ?
PY 94: non non non

ou

//
ch_AC 7: 0:21:30 euh sur la République de Centre ?
PY 94: non non non

ou (état actuel dans TXM 0.7.5 19/03/2014)

// ch_AC 7: 0:21:30 euh sur la République de Centre ?
// PY 94: non non non

ou

Speaker1 + Speaker2: 0:21:30
  1: 0:21:30 euh sur la République de Centre ?
  2: 0:21:30 non non non

Formal specification

Speaker1@Name + Speaker2@Name: (class=spk) Turn@starTime (class=sync)
  Who@n: (class=spk) Sync@time (class=sync) euh sur la République de Centre ?
  Who@n: (class=spk) Sync@time (class=sync) non non non
public/import_trs.txt · Dernière modification : 22/06/2022 16:52 de matthieu.decorde@ens-lyon.fr