Spécification de la gestion de l'annotation syntaxique

Objectif

Intégrer l'annotation syntaxique automatique.

Méthode

Les annotations peuvent être calculées par des parseurs au moment de l'import, par l'import d'annotations pré-existantes ou par le lancement de parseurs sur un corpus TXM depuis TXM.

Prise en compte d'annotations dans les sources à l'import (import de corpus)

Lancement de parseurs au moment de l'import (import de corpus)

Lancement de parseurs sur un corpus TXM depuis TXM (annotation automatique de corpus)

Prise en compte d'annotations externes dans un corpus TXM depuis TXM (import d'annotations)

Ajouter des annotations syntaxiques à un corpus TXM.

CoNNL-UD

Ajouter la commande “Corpus > Importer > Annotation syntaxiques : UD” :

  • source : un corpus TXM
  • paramètre : un fichier CONNLUD
  • résultat
    • un index Icarus d'annotation syntaxiques est créé dans le sous répertoire “icarus”
    • la console affiche le nombre d'annotation syntaxiques qui ont été projetées et qui n'ont pas été projetées

TIGERSearch

Ajouter la commande “Corpus > Importer > Annotation syntaxiques : TIGERSearch” :

  • source : un corpus TXM
  • paramètre : un fichier source de TIGER XML
  • résultat
    • un corpus TIGER est créé dans le sous répertoire “tiger”
    • la console affiche le nombre d'annotation syntaxiques qui ont été projetées et qui n'ont pas été projetées

Solution

État de l'art général et pour le Français

Composants de TAL

Formats

Corpus

Visualisation

Moteurs de recherche (extraction)

  • CQP
    • CWB-treebank : CWB-treebank is a tool for corpus linguistics. With CWB-treebank, the IMS Open Corpus Workbench (OCWB) can be used as an efficient graph matcher for dependency graphs (stemmata). CWB-treebank is the main reason for the speed with which Treebank.info can answer linguistic queries. A more detailed description of the tool can be found in Proisl and Uhrig (2012).
  • TIGER Search
  • Icarus

Prototypes

Version finale

Documentation

Utilisateur

Développeur

Recette

Protocole de test

Alpha

Beta

État courant

Qui Quand Quoi

public/specs_import_annotation_syntaxique_auto.txt · Dernière modification: 2019/01/25 15:56 par matthieu.decorde@ens-lyon.fr