Corpus Voeux

  • homogénéiser les versions pour la RCP et pour TXM-WEB :
    • la tokenisation
    • le nom des propriétés (variations de type ttpos / frpos / pos mais je n'ai pas pu vérifier dans le détail car quand j'ai consulté le portail demo il n'y avait pas Voeux)
    • le repérage des phrases (qui est fait pour l'une et pas pour l'autre)
  • attention aux apostrophes non reconnues comme telles, cela a plusieurs impacts :
    • tokenisation : la version dans TXM WEB ne segmentait pas sur tout ou partie des apostrophes ;
    • étiquetage : dans la version téléchargeable pour la RCP, les majuscules suivi d'un apostrophe sont des noms propres (NAM), “j'” est lemmatisé “je” pour 8 occurrences, restent 69 occurrences
    • spécificités : les spécificités chez Chirac montrent qu'il y a une concentration d'apostrophes non reconnues chez lui -dommage que cela occupe massivement la tête de liste
  • point connu, pour quand on aura le temps : retravailler l'édition, pour éviter les retours à la ligne intempestifs (voir si au passage cela permettrait de définir une structure paragraphe ?) et ajouter au début de chaque texte un rappel des métadonnées permettant de l'identifier commodément.
  • mettre à jour en ajoutant les derniers discours de voeux (il en manque 2 ou 3).
public/retours_sur_les_corpus_exemples.txt · Dernière modification: 2012/10/19 15:06 par benedicte.pincemin@ens-lyon.fr