Corpus DEMOCRAT

Les textes annotés pour DEMOCRAT se trouvent dans :

  • ///ANR_Democrat/corpus/fichiers_4_annotes_democrat_MENTION
  • ///ANR_Democrat/corpus/fichiers_5_annotes_democrat_CHAINE

Le manuel d'annotation ///ANR_Democrat/corpus/Manuel_annotation_19-07.pdf

La structure d'annotation ///ANR_Democrat/corpus/Structure_annotation_DEMOCRAT.ecs

Corpus ANCOR

Les corpus se trouvent dans ///Corpus/src/ANCOR.

Ancor-Centre-CC-BY-NC-SA

  • 107 fichiers .ac → fichiers de textes recevant l'annotation = extrait de fichier source Transcriber .trs (format XML), également appelés “fichiers corpus” dans la documentation du corpus
  • 107 fichiers .aa → fichiers d'annotations Analec (format XML)
  • 102 fichiers .xml → fichiers combinant (format XML) :
    • source Transcriber .trs encadrée de l'élément <Trans>
    • annotations Analec encadrées de l'élément <annotation>
    • encadrés par un élément racine <ANCOR>
    • les spans de texte annotés de la partie <Trans> sont encadrés d'un élément <anchor>
  • 1 fichier .aam → modèle Glozz utilisé par ANCOR

Pour lister les fichiers .ac de (début de) transcriptions (incluant le préambule XML) :

cd ANCOR/Ancor-Centre-CC-BY-NC-SA
for f in *.ac; do echo -n $f; cut -c 1-100 $f; done|grep 'xml version'|sed -e 's/^\(.*\)\.ac.*$/\1/'

Résultat (37 fichiers) :

corpus_ESLO\ac_fichiers\004_-1
corpus_ESLO\ac_fichiers\005_C-1
corpus_ESLO\ac_fichiers\006_C-1
corpus_ESLO\ac_fichiers\007_C-1
corpus_ESLO\ac_fichiers\008_C-1
corpus_ESLO\ac_fichiers\009_C-1
corpus_ESLO\ac_fichiers\010_C-1
corpus_ESLO\ac_fichiers\012_C-1
corpus_ESLO\ac_fichiers\013_C-1
corpus_ESLO\ac_fichiers\014_C-1
corpus_ESLO\ac_fichiers\015_C-1
corpus_ESLO\ac_fichiers\018_C-1
corpus_ESLO\ac_fichiers\019_C-1
corpus_ESLO\ac_fichiers\020_C-1
corpus_ESLO\ac_fichiers\021_C-1
corpus_ESLO\ac_fichiers\023_C
corpus_ESLO\ac_fichiers\024_C-1
corpus_ESLO\ac_fichiers\025_C-1
corpus_ESLO\ac_fichiers\026_C-1
corpus_ESLO\ac_fichiers\029_C-1
corpus_ESLO\ac_fichiers\030_C-1
corpus_ESLO\ac_fichiers\078_C-1
corpus_ESLO\ac_fichiers\079_C-1
corpus_ESLO\ac_fichiers\096_C-1
corpus_ESLO\ac_fichiers\107_C-1
corpus_ESLO\ac_fichiers\131_C-1
corpus_ESLO\ac_fichiers\132_C-1
corpus_ESLO\ac_fichiers\133_C-1
corpus_ESLO\ac_fichiers\201_C
corpus_ESLO\ac_fichiers\215_C
corpus_ESLO\ac_fichiers\216_C
corpus_ESLO\ac_fichiers\217_C
corpus_ESLO\ac_fichiers\223_C
corpus_ESLO\ac_fichiers\542_C-1
corpus_ESLO_CO2\ac_fichiers\CO2_ESLO_001_C
corpus_ESLO_CO2\ac_fichiers\CO2_ESLO_002_C
corpus_ESLO_CO2\ac_fichiers\CO2_ESLO_003_C

Pour lister les fichiers additionnels (parties) :

cd ANCOR/Ancor-Centre-CC-BY-NC-SA
for f in *.ac; do echo -n $f; cut -c 1-100 $f; done|grep -v 'xml version'|sed -e 's/^\(.*\)\.ac.*$/\1/'

Pour lister combien il y a de parties de fichiers additionnels :

for f in *.ac; do echo -n $f; cut -c 1-100 $f; done|grep -v 'xml version'|sed -e 's/^\(.*\)..\.ac.*$/\1/'|sort|uniq -c

Résultat :

      3 corpus_ESLO\ac_fichiers\004_
      2 corpus_ESLO\ac_fichiers\005_C
      2 corpus_ESLO\ac_fichiers\006_C
      2 corpus_ESLO\ac_fichiers\007_C
      2 corpus_ESLO\ac_fichiers\008_C
      3 corpus_ESLO\ac_fichiers\009_C
      4 corpus_ESLO\ac_fichiers\010_C
      2 corpus_ESLO\ac_fichiers\012_C
      2 corpus_ESLO\ac_fichiers\013_C
      5 corpus_ESLO\ac_fichiers\014_C
      1 corpus_ESLO\ac_fichiers\015_C
      1 corpus_ESLO\ac_fichiers\018_C
      2 corpus_ESLO\ac_fichiers\019_C
      2 corpus_ESLO\ac_fichiers\020_C
      5 corpus_ESLO\ac_fichiers\021_C
      3 corpus_ESLO\ac_fichiers\024_C
      2 corpus_ESLO\ac_fichiers\025_C
      4 corpus_ESLO\ac_fichiers\026_C
      4 corpus_ESLO\ac_fichiers\029_C
      3 corpus_ESLO\ac_fichiers\030_C
      3 corpus_ESLO\ac_fichiers\078_C
      1 corpus_ESLO\ac_fichiers\079_C
      2 corpus_ESLO\ac_fichiers\096_C
      2 corpus_ESLO\ac_fichiers\107_C
      1 corpus_ESLO\ac_fichiers\131_C
      2 corpus_ESLO\ac_fichiers\132_C
      3 corpus_ESLO\ac_fichiers\133_C
      2 corpus_ESLO\ac_fichiers\542_C

Accès direct aux transcriptions et enregistrements au site crdo-COLLECTION_ESLO1 :

Ancor-Centre-CC-BY-SA

public/umr_lattice_democrat_corpus_annotes.txt · Dernière modification: 2017/05/04 15:53 par slh@ens-lyon.fr