Outils pour utilisateurs

Outils du site


public:spec_corpus:corpus_parallele

Spécification des corpus parallèles

Les corpus parallèles servent aux situations suivantes :

  • on dispose de traductions de textes, alignées ou pas (eg projets AL fr/ru et fr/fro, CS fr/en/it/etc.)
  • on dispose de différentes versions de textes
  • on dispose de différents textes en rapport avec le même média source (ANTRACT : vidéo/audio → notices, transcriptions, tapuscrits…)

Nous avons besoin de gérer les cas suivants :

  • corpus parallèle alignés ou non encodés en TEI
  • transcriptions d'enregistrement parallèles

L'architecture visée peut être :

  • pour l'indexation
    • autant de corpus que de langue ou version
    • une compilation des langues ou versions au sein d'un même corpus
  • pour l'édition
    • éditions synoptiques, avec retour au texte depuis chaque langue ou version

En import cela peut concerner XTZ ou un nouveau module ou un scénario de choix d'import différent : 1) type de corpus (parallèle ou non, etc.) avant 2) format de corpus.

Interface de création de corpus parallèle

Actuellement seul l'import TMX permet de créer des corpus parallèle au sens CQP. Les informations de créations sont toutes présentes dans le fichier TMX source et il n'y a pas d'interface particulière.

Interface de création d'alignements et de corpus parallèles

Dans ce type d'interface, il n'y a pas à proprement parlé de création de corpus parallèle mais juste des déclaration de lien entre corpus. Comme cela est fait dans la spécification de la déclaration d'alignement XML-TEI TXM - Aligned corpora.

Un corpus parallèle peut alors être juste un regroupement de déclarations de liens et un sous-corpus parallèle est une sélection des liens du corpus parallèle.

Un dictionnaire traduit en plusieurs langues qui contient des liens qui peuvent êtres aussi regroupé dans des sous-corpus parallèle :

  • corpus parallèle DICTIONNAIRES (langues FR, FR2, EN, EN2, EN3, … IT)
    • sous-corpus parallèle DICTIONNAIRES FR (langues FR, FR2)
    • sous-corpus parallèle DICTIONNAIRES EN (langues EN, EN2 et EN3)
    • sous-corpus parallèle DICTIONNAIRES IT (langues IT)

Solutions

TXM 0.7.8

L'import TMX permet d'exploiter des corpus parallèles alignés, mais le format est très limité :

  • pas d'encodage des mots
  • pas d'édition particulière
  • etc.

TXM 0.8.0

L'import XTZ permet de créer des éditions synoptiques alignant des pages de versions différentes d'un même texte

public/spec_corpus/corpus_parallele.txt · Dernière modification: 2019/08/23 13:41 par matthieu.decorde@ens-lyon.fr