Outils pour utilisateurs

Outils du site


public:annotation:specs_annotation_analec:imports

Import de corpus Analec

Planning

Etape 1

Pouvoir importer un corpus Analec dans TXM et comparer les interfaces sur le “même corpus”. Il s'agit d'importer la surface textuelle du corpus Analec et de réaligner les annotations sur les mots de TXM (au lieu des caractères)

On part du format XML de Glozz

Etape 2

FG a des corpus au format XML-Analec, reproduire l'import Glozz qui est très similaire.

Etape 3

  • importer un corpus composé de plusieurs textes au format Glozz
  • alignement des annotations d'un corpus Glozz de plusieurs textes avec les mots d'un corpus TXM (des mêmes textes)

Spécifications

Import d'un corpus Glozz

préparation :

  • Le texte est exporté avec le menu “Documents > Exporter des données Glozz…”. 3 fichiers sont créés
  • soit AC le fichier .ac est le TXT
  • soit AA le fichier .aa qui contient les annotations XML
  • soit AAM le fichier .aam qui contient la structure d'annotation XML

algorithme d'import :

  • importer le fichier AC avec le module TXT+CSV
  • importer le corpus Glozz avec les méthode de la classe FichierGlozz
  • faire une boucle sur les unités lexicales du corpus :
    • on cherche la première occurrence de la forme graphique de l'unité courante à partir de l'offset courant
      • si on trouve une correspondance :
        • le début de la chaîne est l'offset de début
        • la fin de la chaîne est l'offset de fin (début + longueur) : la longueur de la chaînes est le nombre de caractères de l'unité courante
        • enregistrer les infos d'offset dans l'unité courante
        • on maj l'offset courant
      • si on ne trouve pas de correspondance
        • on arrête tout :
          • on affiche l'offset courant + no de ligne
          • les 20 caractères du TXT qui précèdent et qui suivent séparés par une barre et l'unité courante
          • les 5 unités (séparés par des blancs) qui précèdent et qui suivent séparés par une double barre
    • créer un corpus Analec dans TXM
    • on importe les annotations sérialisées du fichier AA
    • on importe la structure d'annotation du fichier AAM
    • on parcours toutes les annotations en mettant à jours leurs limites en s'appuyant sur la correspondance offset-unité créée
    • on sauve les annotations du corpus depuis TXM (fichier .ecs)

Import d'un corpus Glozz de plusieurs textes

Le corpus Ancor a été découpé en plusieurs morceaux pour paliers aux limites de Glozz d'affichage du nombre d'annotations. Le corpus est alors composé de plusieurs transcriptions eux même découpés en plusieurs corpus Glozz (.aa + .ac + .aam).

Algo général de l'import :

  • le nom du corpus sera le nom du dossier glozz sélectionné
  • itérer sur les corpus Glozz (couples .aa et .ac):
    • importer le corpus Glozz
    • enregistré au format ec
    • écrire le fichier TXT correspondant
  • importer les fichiers TXT
  • fusionner les fichiers .ec dans un corpus Analec dans le même ordre d'import des fichiers TXT)
    • aligner les annotations Analec (position en caractères) vers URS (position en mot)

Paramètres :

  • glozz directory : contient les fichiers aa et ac de chaque corpus Glozz à importer
  • fichier model glozz : le fichier model des annotation Glozz

Les fichiers aa et ac d'un corpus doivent porter le même nom (exemple.aa et exemple.ac)

Import d'un corpus XML-TEI Analec

L'algo d'import est similaire à celui de l'import d'un corpus Glozz, il faut juste utiliser les méthodes de la classe FichierTEI au lieu de FichierGlozz.

Alignement d'un corpus TXM avec un corpus Analec

Une pratique d'Analec et de Glozz pour annoter les corpus XML est d'annoter le texte à travers une édition qui contient le texte et les balises XML.

C'est ce qui a été fait pour le corpus Ancor qui est du XML Transcriber. Il est alors possible d'importer dans TXM le corpus avec le module XML-TRS + CSV, il faut ensuite retrouver les annotations du “textes brut” du corpus Analec et les aligner avec les mots de TXM.

public/annotation/specs_annotation_analec/imports.txt · Dernière modification: 2021/06/16 09:41 par matthieu.decorde@ens-lyon.fr