Ceci est une ancienne révision du document !


Corpus Voeux

  • homogénéiser les versions pour la RCP et pour TXM-WEB :
    • la tokenisation
    • le nom des propriétés (variations de type ttpos / frpos / pos mais je n'ai pas pu vérifier dans le détail car quand j'ai consulté le portail demo il n'y avait pas Voeux)
    • le repérage des phrases (qui est fait pour l'une et pas pour l'autre)
  • attention aux apostrophes non reconnues comme telles (essentiellement chez Chirac je crois - facile à voir en faisant un calcul de spécificités sur une partition en présidents).
  • point connu, pour quand on aura le temps : retravailler l'édition, pour éviter les retours à la ligne intempestifs et ajouter au début de chaque texte un rappel des métadonnées permettant de l'identifier commodément.
public/retours_sur_les_corpus_exemples.1342560661.txt.gz · Dernière modification: 2012/07/17 23:31 par benedicte.pincemin@ens-lyon.fr