Nous sommes toujours intéressé par de nouveaux corpus exemples montrant de nouveaux champs d'application ou de nouvelles formes de corpus pour les formations à TXM. Si vous souhaitez partager un corpus avec la communauté des utilisateurs de TXM, voici différents critères vous permettant de voir ce qui serait le plus intéressant. Bien sûr, votre corpus n'est pas obligé de répondre à tous les critères.

Critères de qualité d'un corpus pour un usage de démonstration en textométrie

Critères pour un corpus textuel simple

  1. licence de diffusion ouverte des sources - obligatoire (*) [pour les questions de droits patrimoniaux et moraux]
  2. être relativement facile d'accès [La Quête du Graal en ancien français ou des oeuvres de Spinoza ne sont pas faciles d'accès]
  3. disposer d'une problématique associée et d'une littérature scientifique ou pédagogique basée sur son exploitation et accessible en licence ouverte ou open access
  4. pouvoir être reformaté dans tous les formats importés par TXM (sauf les formats spécifiques : TRS, TMX…) [pour servir à une documentation la plus transversale possible des modules d'import TXM et être un bon support pour les formations à l'import de sources dans TXM]
  5. avoir un volume (nombre de mots…) et une géométrie (nombre de textes et de métadonnées…) modestes, éventuellement par échantillonnage [pour ne pas pénaliser le temps des démonstrations d'importation]
  6. offrir des partitions chronologique et par catégories [pour montrer les sous-corpus et partitions inter-textuels]
    1. croisables et relativement équilibrées en nombre de mots/textes (auteur, genre, oeuvre…)
    2. disposer d'une catégorie (ou métadonnées) ayant plus de 10 valeurs [pour montrer la construction de partition assistée]
    3. disposer d'une catégorie (ou métadonnées) ayant plus de 3 valeurs [pour montrer l'analyse factorielle]
  7. disposer de délimitations typées de type “passage en discours direct” ou encore “section traitant de la thématique X” [pour montrer la création de sous-corpus et partitions infra-textuels]
  8. disposer de structures de type phrase ou paragraphe [pour montrer l'analyse de cooccurrences en contextes linguistiques]
  9. disposer du codage de locutions/entités nommées de type nom de lieux, d'organisations ou de personnes [pour montrer le traitement dual unité lexicale simple/unité lexicale complexe]
  10. disposer du codage de commentaires [pour montrer le traitement du hors-texte]
  11. disposer du codage (sous n'importe quelle forme) des limites de pages d'éditions de référence papier [pour construire des références de concordances utiles à la navigation au sein des éditions papier]
  12. disposer d'images de facsimilé des pages de textes [pour montrer les éditions synoptiques facsimilé | édition]

(*) la source d'un texte est diffusable sous licence ouverte quand A) elle est associée à une licence de ce type et B) un contrat ou une convention écrite et signée (par les ayant-droits) autorise la diffusion sous cette forme (en mentionnant la licence explicitement).

Critères supplémentaires pour un corpus parallèle

  1. disposer de textes alignés avec leur traduction au niveau d'une structure (phrase, paragraphe, section…) dans au moins une autre langue, ou au moins une autre version dans la même langue [pour montrer l'import TMX et les fonctionnalités propres à l'analyse de corpus parallèle]
  2. disposer de textes dans des systèmes d'écriture non romans (chinois, arabe, cyrillique…) ou d'états anciens des systèmes d'écriture non totalement pris en charge par Unicode (ancien français, hiéroglyphes…)

Critères supplémentaires pour un corpus de transcriptions d'enregistrements

  1. disposer de transcriptions anonymisées (avec un degré acceptable)
  2. disposer de métadonnées anonymisées
  3. disposer de consentements éclairés écrits et signés pour la diffusion libre des transcriptions [pour les questions de droit à l'image, de protection de la vie privée et de déontologie]
  4. disposer d'enregistrements alignés chronologiquement avec leur transcription
  5. disposer de consentements éclairés écrits et signés pour la diffusion libre des enregistrements [pour les questions de droit à l'image, de protection de la vie privée et de déontologie]
public/proposer_un_corpus_exemple.txt · Dernière modification: 2013/12/09 10:37 par matthieu.decorde@ens-lyon.fr