Liste de liens :
Liste de liens :
Pouvoir importer des transcriptions au format Transcriber dans TXM. Ce module est une étape avant la mise en place d'un module d'import XML-TEI dévolu aux transcriptions.
Le module doit produire les ressources nécessaires pour le retour au média de l'extension MediaPlayer.
Un répertoire de fichier XML Transcriber. Le fichier DTD de transcriber n'est pas obligatoire.
Déroulement :
Dans TXM 0.7.8, le format est hybride XML-TXM et transcriber. TXM 0.8.0 remplace quelques balises (Section → div, Turn → sp, etc.) mais il reste :
Voir la spécification du format.
Actuellement après un import Transcriber on a :
Pour obtenir une synchronisation plus fine pour le plugin BackToMedia, il faudrait que les structure “u” aient aussi le timing de fin. On pourrait remplacer u@time par u@starttime et u@endtime. On peut aussi coder le temps au mot près dans une propriété “t” ou “time” par exemple.
La tokenisation des entités est un pre-traitement de la tokenisation pour repérer les entités Transcriber.
Paramétrage
La projection se règle dans la section “Structures”, dans le champ “Projections de structures CQP”.
Le champ contient une règle de projection par ligne. Le format des règles est structuredépart_propriétédépart -> structurearrivée_propriétéarrivée avec :
Exemple :
text_loc -> p_loc text_date -> p_date text_genre -> p_genre
Réalisation
Les projections sont réalisées lors de l'étape compiler lors de l'écriture du fichier source CQP → les projections ne seront alors disponibles que dans les index CQP.
traitement des événements Transcriber :
Les métadonnées sont affichées dans l'ordre alphabétique dans un tableau à 2 colonnes : titre + valeur.
Par défaut le titre est : “Transcription ” + text@id
si text@title existe sa valeur est utilisé pour produire le titre.
un saut de page est inséré avant le titre (il sera utilisé plus tard pour créer les pages d'édition)
Pour l'instant il y a une gestion assez simple qui affiche :
section@type: section@topic
L’intérêt est que ça marche toujours car Topic@Desc n'est pas toujours renseigné. Il y a aussi les sections “non-trans” qui ne doivent pas avoir de Topic correspondant. Et donc ça affiche seulement section@type.
Pour la prochaine amélioration je propose donc de faire :
Si @metadata et @metadatagroups existent, les métadonnées listée dans @metadata sont insérées.
Il existe 3 groupes :
Si @metadata et @metadatagroups existent ne sont pas défini, tous les attributs sont listés dans une liste ul
Faudrait en faire des options d'import :
Dans l'état l'édition affiche :
spk1 spk2: 0:21:30 ch_AC 7: 0:21:30 euh sur la République de Centre ? PY 94: non non non
On pourrait mettre un marqueur pour identifier rapidement un chevauchement, par exemple :
>>> ch_AC 7: 0:21:30 euh sur la République de Centre ? PY 94: non non non
ou
// ch_AC 7: 0:21:30 euh sur la République de Centre ? PY 94: non non non
ou (état actuel dans TXM 0.7.5 19/03/2014)
// ch_AC 7: 0:21:30 euh sur la République de Centre ? // PY 94: non non non
ou
Speaker1 + Speaker2: 0:21:30 1: 0:21:30 euh sur la République de Centre ? 2: 0:21:30 non non non
Formal specification
Speaker1@Name + Speaker2@Name: (class=spk) Turn@starTime (class=sync) Who@n: (class=spk) Sync@time (class=sync) euh sur la République de Centre ? Who@n: (class=spk) Sync@time (class=sync) non non non