Cette page sert au suivi des projets de l'UMR LATTICE mobilisant TXM.

Dans la mesure où cette page est actuellement publique, il est recommandé de veiller à maintenir un niveau d'anonymat raisonnable. (merci de nous contacter si cette page doit évoluer vers plus de confidentialité)

Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.

Projet ANR DEMOCRAT : Annotation et analyse de chaînes de co-références

Descriptif du projet

Objectifs :

  • Modéliser les chaines de référence (CR)
  • Créer un corpus annoter en chaines de référence
  • Développement de l'annotation et de l'analyse de chaînes de co-références dans TXM en s'appuyant sur le logiciel Analec.

Wikis

Spécifications et Recettes

Les spécifications de ce chantier sont hébergées dans le chantier Annotation de la plateforme TXM et le chantier d'annotation avec Analec (sous-page).

Les recettes sont hébergées dans les pages de spécifications ou dans ce wiki.

Utilisation de TXM pour créer des annotations Analec et pour les analyser

Corpus

Recensement de corpus annotés disponibles.

Corpus DEMOCRAT

Les textes annotés pour DEMOCRAT se trouvent dans :

  • ///ANR_Democrat/corpus/fichiers_4_annotes_democrat_MENTION
  • ///ANR_Democrat/corpus/fichiers_5_annotes_democrat_CHAINE

Le manuel d'annotation ///ANR_Democrat/corpus/Manuel_annotation_19-07.pdf

La structure d'annotation ///ANR_Democrat/corpus/Structure_annotation_DEMOCRAT.ecs

Corpus ANCOR

Les corpus se trouvent dans ///Corpus/src/ANCOR.

Ancor-Centre-CC-BY-NC-SA

  • 107 fichiers .ac → fichiers de textes recevant l'annotation = extrait de fichier source Transcriber .trs (format XML), également appelés “fichiers corpus” dans la documentation du corpus
  • 107 fichiers .aa → fichiers d'annotations Analec (format XML)
  • 102 fichiers .xml → fichiers combinant (format XML) :
    • source Transcriber .trs encadrée de l'élément <Trans>
    • annotations Analec encadrées de l'élément <annotation>
    • encadrés par un élément racine <ANCOR>
    • les spans de texte annotés de la partie <Trans> sont encadrés d'un élément <anchor>
  • 1 fichier .aam → modèle Glozz utilisé par ANCOR

Pour lister les fichiers .ac de (début de) transcriptions (incluant le préambule XML) :

cd ANCOR/Ancor-Centre-CC-BY-NC-SA
for f in *.ac; do echo -n $f; cut -c 1-100 $f; done|grep 'xml version'|sed -e 's/^\(.*\)\.ac.*$/\1/'

Résultat (37 fichiers) :

corpus_ESLO\ac_fichiers\004_-1
corpus_ESLO\ac_fichiers\005_C-1
corpus_ESLO\ac_fichiers\006_C-1
corpus_ESLO\ac_fichiers\007_C-1
corpus_ESLO\ac_fichiers\008_C-1
corpus_ESLO\ac_fichiers\009_C-1
corpus_ESLO\ac_fichiers\010_C-1
corpus_ESLO\ac_fichiers\012_C-1
corpus_ESLO\ac_fichiers\013_C-1
corpus_ESLO\ac_fichiers\014_C-1
corpus_ESLO\ac_fichiers\015_C-1
corpus_ESLO\ac_fichiers\018_C-1
corpus_ESLO\ac_fichiers\019_C-1
corpus_ESLO\ac_fichiers\020_C-1
corpus_ESLO\ac_fichiers\021_C-1
corpus_ESLO\ac_fichiers\023_C
corpus_ESLO\ac_fichiers\024_C-1
corpus_ESLO\ac_fichiers\025_C-1
corpus_ESLO\ac_fichiers\026_C-1
corpus_ESLO\ac_fichiers\029_C-1
corpus_ESLO\ac_fichiers\030_C-1
corpus_ESLO\ac_fichiers\078_C-1
corpus_ESLO\ac_fichiers\079_C-1
corpus_ESLO\ac_fichiers\096_C-1
corpus_ESLO\ac_fichiers\107_C-1
corpus_ESLO\ac_fichiers\131_C-1
corpus_ESLO\ac_fichiers\132_C-1
corpus_ESLO\ac_fichiers\133_C-1
corpus_ESLO\ac_fichiers\201_C
corpus_ESLO\ac_fichiers\215_C
corpus_ESLO\ac_fichiers\216_C
corpus_ESLO\ac_fichiers\217_C
corpus_ESLO\ac_fichiers\223_C
corpus_ESLO\ac_fichiers\542_C-1
corpus_ESLO_CO2\ac_fichiers\CO2_ESLO_001_C
corpus_ESLO_CO2\ac_fichiers\CO2_ESLO_002_C
corpus_ESLO_CO2\ac_fichiers\CO2_ESLO_003_C

Pour lister les fichiers additionnels (parties) :

cd ANCOR/Ancor-Centre-CC-BY-NC-SA
for f in *.ac; do echo -n $f; cut -c 1-100 $f; done|grep -v 'xml version'|sed -e 's/^\(.*\)\.ac.*$/\1/'

Pour lister combien il y a de parties de fichiers additionnels :

for f in *.ac; do echo -n $f; cut -c 1-100 $f; done|grep -v 'xml version'|sed -e 's/^\(.*\)..\.ac.*$/\1/'|sort|uniq -c

Résultat :

      3 corpus_ESLO\ac_fichiers\004_
      2 corpus_ESLO\ac_fichiers\005_C
      2 corpus_ESLO\ac_fichiers\006_C
      2 corpus_ESLO\ac_fichiers\007_C
      2 corpus_ESLO\ac_fichiers\008_C
      3 corpus_ESLO\ac_fichiers\009_C
      4 corpus_ESLO\ac_fichiers\010_C
      2 corpus_ESLO\ac_fichiers\012_C
      2 corpus_ESLO\ac_fichiers\013_C
      5 corpus_ESLO\ac_fichiers\014_C
      1 corpus_ESLO\ac_fichiers\015_C
      1 corpus_ESLO\ac_fichiers\018_C
      2 corpus_ESLO\ac_fichiers\019_C
      2 corpus_ESLO\ac_fichiers\020_C
      5 corpus_ESLO\ac_fichiers\021_C
      3 corpus_ESLO\ac_fichiers\024_C
      2 corpus_ESLO\ac_fichiers\025_C
      4 corpus_ESLO\ac_fichiers\026_C
      4 corpus_ESLO\ac_fichiers\029_C
      3 corpus_ESLO\ac_fichiers\030_C
      3 corpus_ESLO\ac_fichiers\078_C
      1 corpus_ESLO\ac_fichiers\079_C
      2 corpus_ESLO\ac_fichiers\096_C
      2 corpus_ESLO\ac_fichiers\107_C
      1 corpus_ESLO\ac_fichiers\131_C
      2 corpus_ESLO\ac_fichiers\132_C
      3 corpus_ESLO\ac_fichiers\133_C
      2 corpus_ESLO\ac_fichiers\542_C

Accès direct aux transcriptions et enregistrements au site crdo-COLLECTION_ESLO1 :

Ancor-Centre-CC-BY-SA

public/umr_lattice.txt · Dernière modification: 2017/04/19 17:12 par matthieu.decorde@ens-lyon.fr