Les textes annotés pour DEMOCRAT se trouvent dans :
Le manuel d'annotation ///ANR_Democrat/corpus/Manuel_annotation_19-07.pdf
La structure d'annotation ///ANR_Democrat/corpus/Structure_annotation_DEMOCRAT.ecs
Les corpus se trouvent dans ///Corpus/src/ANCOR.
Pour lister les fichiers .ac de (début de) transcriptions (incluant le préambule XML) :
cd ANCOR/Ancor-Centre-CC-BY-NC-SA for f in *.ac; do echo -n $f; cut -c 1-100 $f; done|grep 'xml version'|sed -e 's/^\(.*\)\.ac.*$/\1/'
Résultat (37 fichiers) :
corpus_ESLO\ac_fichiers\004_-1 corpus_ESLO\ac_fichiers\005_C-1 corpus_ESLO\ac_fichiers\006_C-1 corpus_ESLO\ac_fichiers\007_C-1 corpus_ESLO\ac_fichiers\008_C-1 corpus_ESLO\ac_fichiers\009_C-1 corpus_ESLO\ac_fichiers\010_C-1 corpus_ESLO\ac_fichiers\012_C-1 corpus_ESLO\ac_fichiers\013_C-1 corpus_ESLO\ac_fichiers\014_C-1 corpus_ESLO\ac_fichiers\015_C-1 corpus_ESLO\ac_fichiers\018_C-1 corpus_ESLO\ac_fichiers\019_C-1 corpus_ESLO\ac_fichiers\020_C-1 corpus_ESLO\ac_fichiers\021_C-1 corpus_ESLO\ac_fichiers\023_C corpus_ESLO\ac_fichiers\024_C-1 corpus_ESLO\ac_fichiers\025_C-1 corpus_ESLO\ac_fichiers\026_C-1 corpus_ESLO\ac_fichiers\029_C-1 corpus_ESLO\ac_fichiers\030_C-1 corpus_ESLO\ac_fichiers\078_C-1 corpus_ESLO\ac_fichiers\079_C-1 corpus_ESLO\ac_fichiers\096_C-1 corpus_ESLO\ac_fichiers\107_C-1 corpus_ESLO\ac_fichiers\131_C-1 corpus_ESLO\ac_fichiers\132_C-1 corpus_ESLO\ac_fichiers\133_C-1 corpus_ESLO\ac_fichiers\201_C corpus_ESLO\ac_fichiers\215_C corpus_ESLO\ac_fichiers\216_C corpus_ESLO\ac_fichiers\217_C corpus_ESLO\ac_fichiers\223_C corpus_ESLO\ac_fichiers\542_C-1 corpus_ESLO_CO2\ac_fichiers\CO2_ESLO_001_C corpus_ESLO_CO2\ac_fichiers\CO2_ESLO_002_C corpus_ESLO_CO2\ac_fichiers\CO2_ESLO_003_C
Pour lister les fichiers additionnels (parties) :
cd ANCOR/Ancor-Centre-CC-BY-NC-SA for f in *.ac; do echo -n $f; cut -c 1-100 $f; done|grep -v 'xml version'|sed -e 's/^\(.*\)\.ac.*$/\1/'
Pour lister combien il y a de parties de fichiers additionnels :
for f in *.ac; do echo -n $f; cut -c 1-100 $f; done|grep -v 'xml version'|sed -e 's/^\(.*\)..\.ac.*$/\1/'|sort|uniq -c
Résultat :
3 corpus_ESLO\ac_fichiers\004_ 2 corpus_ESLO\ac_fichiers\005_C 2 corpus_ESLO\ac_fichiers\006_C 2 corpus_ESLO\ac_fichiers\007_C 2 corpus_ESLO\ac_fichiers\008_C 3 corpus_ESLO\ac_fichiers\009_C 4 corpus_ESLO\ac_fichiers\010_C 2 corpus_ESLO\ac_fichiers\012_C 2 corpus_ESLO\ac_fichiers\013_C 5 corpus_ESLO\ac_fichiers\014_C 1 corpus_ESLO\ac_fichiers\015_C 1 corpus_ESLO\ac_fichiers\018_C 2 corpus_ESLO\ac_fichiers\019_C 2 corpus_ESLO\ac_fichiers\020_C 5 corpus_ESLO\ac_fichiers\021_C 3 corpus_ESLO\ac_fichiers\024_C 2 corpus_ESLO\ac_fichiers\025_C 4 corpus_ESLO\ac_fichiers\026_C 4 corpus_ESLO\ac_fichiers\029_C 3 corpus_ESLO\ac_fichiers\030_C 3 corpus_ESLO\ac_fichiers\078_C 1 corpus_ESLO\ac_fichiers\079_C 2 corpus_ESLO\ac_fichiers\096_C 2 corpus_ESLO\ac_fichiers\107_C 1 corpus_ESLO\ac_fichiers\131_C 2 corpus_ESLO\ac_fichiers\132_C 3 corpus_ESLO\ac_fichiers\133_C 2 corpus_ESLO\ac_fichiers\542_C
Accès direct aux transcriptions et enregistrements au site crdo-COLLECTION_ESLO1 :