Outils pour utilisateurs

Outils du site


Action disabled: source
public:import_trs

Spécification du module d'import de transcriptions, eg Transcriber+CSV

Objectif

Améliorer l'état actuel de l'import Transcriber de TXM :

  • production et utilisation d'une représentation XML-TEI pivot à intégrer au format XML-TEI TXM
  • utilisation d'une représentation XML-TEI en entrée
  • Gestion des Sections
  • Production des éditions
  • Gestion des erreurs

Production et utilisation d'une représentation XML-TEI pivot à intégrer au format XML-TEI TXM

Objectif

Dans TXM 0.7.8, le module d'import XML Transcriber + CSV utilise une représentation hybride TRS+XML/w.

Il s'agit d'utiliser une représentation totalement TEI ou une extension TEI si nécessaire.

État de l'art

Il y a l'article JTEI de définition de l'encodage TEI de transcriptions : http://journals.openedition.org/jtei/142.

On peut s'intéresser aux outils de conversion Transcriber vers la TEI :

Analyse des conversions en TEI de la transcriptions P1S8

  • P1S8.trs (transcription exemple en Transcriber, sous licence Creative Commons BY-NC-SA)

tei-drop-en

  • P1S8_TEI.xml
    Commentaires produits par la conversion :
    Resolving .wav relative to /home/sheiden/Corpus/src/P1S8 30 avril 2014 (2)/P1S8 30 avril 2014.trs
    E --- SPK0
    ES --- SPK1
    P --- SPK2
    G17 --- SPK3
    EX --- SPK4
    NONE --- SPK5
    none --- SPK6
    Language of document set to en

teiconvert

Gestion des Sections

Pour l'instant il y a une gestion assez simple qui affiche : section@type: section@topic

L’intérêt est que ça marche toujours car Topic@Desc n'est pas toujours renseigné. Il y a aussi les sections “non-trans” qui ne doivent pas avoir de Topic correspondant. Et donc ça affiche seulement section@type.

Pour la prochaine amélioration je propose donc de faire :

  • si Topic@desc est renseigné (non null et longueur > 0):
    • section@type: Topic@desc
  • sinon :
    • si section@topic est renseigné
      • section@type: section@topic
    • sinon
      • section@type

Production des éditions

Information en début d'édition

Faudrait en faire des options d'import :

  • afficher la liste des thèmes dans l'édition
  • afficher la liste des locuteurs dans l'édition
  • afficher les statistiques de locuteurs et thème dans l'édition

Affichage des chevauchements

Dans l'état l'édition affiche :

spk1 spk2: 0:21:30
ch_AC 7: 0:21:30 euh sur la République de Centre ?
PY 94: non non non

On pourrait mettre un marqueur pour identifier rapidement un chevauchement, par exemple :

>>>
ch_AC 7: 0:21:30 euh sur la République de Centre ?
PY 94: non non non

ou

//
ch_AC 7: 0:21:30 euh sur la République de Centre ?
PY 94: non non non

ou (état actuel dans TXM 0.7.5 19/03/2014)

// ch_AC 7: 0:21:30 euh sur la République de Centre ?
// PY 94: non non non

ou

Speaker1 + Speaker2: 0:21:30
  1: 0:21:30 euh sur la République de Centre ?
  2: 0:21:30 non non non

Formal specification

Speaker1@Name + Speaker2@Name: (class=spk) Turn@starTime (class=sync)
  Who@n: (class=spk) Sync@time (class=sync) euh sur la République de Centre ?
  Who@n: (class=spk) Sync@time (class=sync) non non non

Gestion des erreurs

tours multiples

Suite à http://forge.cbp.ens-lyon.fr/redmine/issues/686 (il y a un fichier TRS associé pour reproduire le bug)

Lorsque qu'une balise Who déclare un numéro de locuteur erroné :

  • l'import s'interrompt ;
  • le message d'erreur n'est pas assez explicite.

Proposition d'évolution de scénario et de message : a) pour chaque Who posant le problème, afficher dans la console :

Warning: Mismatch speaker number declaration between <Who> and <Turn> tags at line 15 of /home/mdecorde/xml/trs-who-error/frint980428.trs transcription file

b) Il s'agit d'un Warning, donc l'import doit aller jusqu'au bout, mais pour chaque <Who> dont le numéro de locuteur n'est pas interprétable l'édition de la transcription doit afficher le numéro du locuteur de la façon suivante :

#2?: transcription.

Synchronisation plus fine pour le plugin BackToMedia

Actuellement après un import Transcriber on a :

  • des structures “sp” avec les propriétés (non exaustif)
    • @starttime
    • @endtime
  • des structures “u” avec la propriété (non exaustif)
    • @time

Pour obtenir une synchronisation plus fine pour le plugin BackToMedia, il faudrait que les structure “u” aient aussi le timing de fin. On pourrait remplacer u@time par u@starttime et u@endtime. On peut aussi coder le temps au mot près dans une propriété “t” ou “time” par exemple.

Conversion vers le format XML-TRS

Recettes

Gestion des erreurs de tours multiples

Les recettes alpha et beta sont les mêmes :

  • lancer l'import “XML Transcriber + CSV” sur le corpus de la transcription
  • vérifier la présence du message dans la console (surtout le numéro de ligne) :
    Warning: Mismatch speaker number declaration between <Who> and <Turn> tags at line 15 of the '/home/mdecorde/xml/trs-who-error/frint980428.trs' transcription file.
  • vérifier la bonne formation de l'édition page 1 au 1er tour
    sp1 sp2: 
    // #3?: 0:00:00 ouais . 
    // Patricia Martin: 0:00:00 sûr ?
public/import_trs.txt · Dernière modification: 2018/09/04 11:50 par slh@ens-lyon.fr