Ceci est une ancienne révision du document !


Corpus Voeux

  • homogénéiser les versions pour la RCP et pour TXM-WEB :
    • la tokenisation
    • le nom des propriétés (variations de type ttpos / frpos / pos mais je n'ai pas pu vérifier dans le détail car quand j'ai consulté le portail demo il n'y avait pas Voeux)
    • le repérage des phrases (qui est fait pour l'une et pas pour l'autre)
  • attention aux apostrophes non reconnues comme telles (essentiellement chez Chirac je crois - facile à voir en faisant un calcul de spécificités sur une partition en présidents).
  • en lien avec la question de la tokenisation et de la gestion des apostrophes, voir si on peut améliorer l'étiquetage (le fonctionnement de treetagger est actuellement perturbé et dégradé par les apostrophes)
  • point connu, pour quand on aura le temps : retravailler l'édition, pour éviter les retours à la ligne intempestifs et ajouter au début de chaque texte un rappel des métadonnées permettant de l'identifier commodément.
public/retours_sur_les_corpus_exemples.1342560777.txt.gz · Dernière modification: 2012/07/17 23:32 par benedicte.pincemin@ens-lyon.fr