Outils pour utilisateurs

Outils du site


public:composant_de_lemmatisation

Composant de lemmatisation

Principes à décider

  • formats des sources à traiter : avec tokenisation/sans
  • principes de segmentation lexicale : mots simples et mots composés ?
  • principes de lemmatisation
    • questions de 1 seul modèle panchronique ou plusieurs modèles synchroniques
    • principes de construction des lemmes : ancien ou moderne
    • principes de construction des catégories morphosyntaxiques : limité au besoin de lemmatiser ou complet
  • principes de technologies d'annotation : probabiliste, par règles…
  • principes d'évaluation de la qualité des catégories/lemmes
    • principes et procédures d'évaluation (partenaires évaluateurs, outils…)
    • évaluation de la qualité pour les mots inconnus
  • principes d'évaluation de la qualité des sources et son impact sur la qualité des annotations (segmentation, lemmatisation…)
  • principes de correction/amélioration de la lemmatisation
  • principes logistiques
    • répartition des sources chez les différents partenaires (répartition/centralisé)
  • principes de propriété intellectuelle
  • principes de licences de diffusion

État de l'art

  • ressources lexicales
  • corpus d'apprentissage
  • modèles linguistique (disponibles par tranches diachroniques)
  • méthodologies et technologies de lemmatisation : Voir État de l'art général pour le français
  • établissement des lacunes et des stratégies pour les combler

Construction d'un réseau de partenaires

  • appel à ressources (par tranche…)

Programmation du chantier

  • tâches
  • calendrier
public/composant_de_lemmatisation.txt · Dernière modification : 19/06/2014 15:38 de slh@ens-lyon.fr