Outils pour utilisateurs

Outils du site


public:umr_lattice_democrat_corpus_annotes

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

public:umr_lattice_democrat_corpus_annotes [2017/05/04 15:53] (Version actuelle)
slh@ens-lyon.fr créée
Ligne 1: Ligne 1:
 +==== Corpus DEMOCRAT ====
 +
 +Les textes annotés pour DEMOCRAT se trouvent dans :
 +  * %%///​ANR_Democrat/​corpus/​fichiers_4_annotes_democrat_MENTION%%
 +  * %%///​ANR_Democrat/​corpus/​fichiers_5_annotes_democrat_CHAINE%%
 +
 +Le manuel d'​annotation %%///​ANR_Democrat/​corpus/​Manuel_annotation_19-07.pdf%%
 +
 +La structure d'​annotation %%///​ANR_Democrat/​corpus/​Structure_annotation_DEMOCRAT.ecs%%
 +
 +==== Corpus ANCOR ====
 +
 +Les corpus se trouvent dans %%///​Corpus/​src/​ANCOR%%.
 +
 +=== Ancor-Centre-CC-BY-NC-SA ===
 +
 +    * 107 fichiers .ac -> fichiers de textes recevant l'​annotation = extrait de fichier source Transcriber .trs (format XML), également appelés "​fichiers corpus"​ dans la documentation du corpus
 +    * 107 fichiers .aa -> fichiers d'​annotations Analec (format XML)
 +    * 102 fichiers .xml -> fichiers combinant (format XML) :
 +      * source Transcriber .trs encadrée de l'​élément <​Trans>​
 +      * annotations Analec encadrées de l'​élément <​annotation>​
 +      * encadrés par un élément racine <​ANCOR> ​
 +      * les spans de texte annotés de la partie <​Trans>​ sont encadrés d'un élément <​anchor>​
 +    * 1 fichier .aam -> modèle Glozz utilisé par ANCOR
 +
 +Pour lister les fichiers .ac de (début de) transcriptions (incluant le préambule XML) :
 +<​code>​
 +cd ANCOR/​Ancor-Centre-CC-BY-NC-SA
 +for f in *.ac; do echo -n $f; cut -c 1-100 $f; done|grep 'xml version'​|sed -e '​s/​^\(.*\)\.ac.*$/​\1/'​
 +</​code>​
 +
 +Résultat (37 fichiers) :
 +<​code>​
 +corpus_ESLO\ac_fichiers\004_-1
 +corpus_ESLO\ac_fichiers\005_C-1
 +corpus_ESLO\ac_fichiers\006_C-1
 +corpus_ESLO\ac_fichiers\007_C-1
 +corpus_ESLO\ac_fichiers\008_C-1
 +corpus_ESLO\ac_fichiers\009_C-1
 +corpus_ESLO\ac_fichiers\010_C-1
 +corpus_ESLO\ac_fichiers\012_C-1
 +corpus_ESLO\ac_fichiers\013_C-1
 +corpus_ESLO\ac_fichiers\014_C-1
 +corpus_ESLO\ac_fichiers\015_C-1
 +corpus_ESLO\ac_fichiers\018_C-1
 +corpus_ESLO\ac_fichiers\019_C-1
 +corpus_ESLO\ac_fichiers\020_C-1
 +corpus_ESLO\ac_fichiers\021_C-1
 +corpus_ESLO\ac_fichiers\023_C
 +corpus_ESLO\ac_fichiers\024_C-1
 +corpus_ESLO\ac_fichiers\025_C-1
 +corpus_ESLO\ac_fichiers\026_C-1
 +corpus_ESLO\ac_fichiers\029_C-1
 +corpus_ESLO\ac_fichiers\030_C-1
 +corpus_ESLO\ac_fichiers\078_C-1
 +corpus_ESLO\ac_fichiers\079_C-1
 +corpus_ESLO\ac_fichiers\096_C-1
 +corpus_ESLO\ac_fichiers\107_C-1
 +corpus_ESLO\ac_fichiers\131_C-1
 +corpus_ESLO\ac_fichiers\132_C-1
 +corpus_ESLO\ac_fichiers\133_C-1
 +corpus_ESLO\ac_fichiers\201_C
 +corpus_ESLO\ac_fichiers\215_C
 +corpus_ESLO\ac_fichiers\216_C
 +corpus_ESLO\ac_fichiers\217_C
 +corpus_ESLO\ac_fichiers\223_C
 +corpus_ESLO\ac_fichiers\542_C-1
 +corpus_ESLO_CO2\ac_fichiers\CO2_ESLO_001_C
 +corpus_ESLO_CO2\ac_fichiers\CO2_ESLO_002_C
 +corpus_ESLO_CO2\ac_fichiers\CO2_ESLO_003_C
 +</​code>​
 +
 +Pour lister les fichiers additionnels (parties) :
 +<​code>​
 +cd ANCOR/​Ancor-Centre-CC-BY-NC-SA
 +for f in *.ac; do echo -n $f; cut -c 1-100 $f; done|grep -v 'xml version'​|sed -e '​s/​^\(.*\)\.ac.*$/​\1/'​
 +</​code>​
 +
 +Pour lister combien il y a de parties de fichiers additionnels :
 +<​code>​
 +for f in *.ac; do echo -n $f; cut -c 1-100 $f; done|grep -v 'xml version'​|sed -e '​s/​^\(.*\)..\.ac.*$/​\1/'​|sort|uniq -c
 +</​code>​
 +
 +Résultat :
 +<​code>​
 +      3 corpus_ESLO\ac_fichiers\004_
 +      2 corpus_ESLO\ac_fichiers\005_C
 +      2 corpus_ESLO\ac_fichiers\006_C
 +      2 corpus_ESLO\ac_fichiers\007_C
 +      2 corpus_ESLO\ac_fichiers\008_C
 +      3 corpus_ESLO\ac_fichiers\009_C
 +      4 corpus_ESLO\ac_fichiers\010_C
 +      2 corpus_ESLO\ac_fichiers\012_C
 +      2 corpus_ESLO\ac_fichiers\013_C
 +      5 corpus_ESLO\ac_fichiers\014_C
 +      1 corpus_ESLO\ac_fichiers\015_C
 +      1 corpus_ESLO\ac_fichiers\018_C
 +      2 corpus_ESLO\ac_fichiers\019_C
 +      2 corpus_ESLO\ac_fichiers\020_C
 +      5 corpus_ESLO\ac_fichiers\021_C
 +      3 corpus_ESLO\ac_fichiers\024_C
 +      2 corpus_ESLO\ac_fichiers\025_C
 +      4 corpus_ESLO\ac_fichiers\026_C
 +      4 corpus_ESLO\ac_fichiers\029_C
 +      3 corpus_ESLO\ac_fichiers\030_C
 +      3 corpus_ESLO\ac_fichiers\078_C
 +      1 corpus_ESLO\ac_fichiers\079_C
 +      2 corpus_ESLO\ac_fichiers\096_C
 +      2 corpus_ESLO\ac_fichiers\107_C
 +      1 corpus_ESLO\ac_fichiers\131_C
 +      2 corpus_ESLO\ac_fichiers\132_C
 +      3 corpus_ESLO\ac_fichiers\133_C
 +      2 corpus_ESLO\ac_fichiers\542_C
 +</​code>​
 +
 +Accès direct aux transcriptions et enregistrements au site [[http://​cocoon.huma-num.fr/​exist/​crdo/​meta/​crdo-COLLECTION_ESLO1|crdo-COLLECTION_ESLO1]] :
 +  * [[http://​cocoon.huma-num.fr/​exist/​crdo/​eslo/​ESLO1_ENT_004_C.xml|transcription TRS ESLO1_ENT_004_C]]
 +  * [[http://​cocoon.huma-num.fr/​data/​eslo/​ESLO1_ENT_004.mp3|enregistrement MP3 ESLO1_ENT_004_C]]
 +
 +
 +=== Ancor-Centre-CC-BY-SA ===
 +
  
public/umr_lattice_democrat_corpus_annotes.txt · Dernière modification: 2017/05/04 15:53 par slh@ens-lyon.fr