homogénéiser les versions pour la RCP et pour TXM-WEB :
la tokenisation
le nom des propriétés (variations de type ttpos / frpos / pos mais je n'ai pas pu vérifier dans le détail car quand j'ai consulté le portail demo il n'y avait pas Voeux)
le repérage des phrases (qui est fait pour l'une et pas pour l'autre)
attention aux apostrophes non reconnues comme telles, cela a plusieurs impacts :
tokenisation : la version dans TXM WEB ne segmentait pas sur tout ou partie des apostrophes ;
étiquetage : dans la version téléchargeable pour la RCP, les majuscules suivi d'un apostrophe sont des noms propres (NAM), “j'” est lemmatisé “je” pour 8 occurrences, restent 69 occurrences
spécificités : les spécificités chez Chirac montrent qu'il y a une concentration d'apostrophes non reconnues chez lui -dommage que cela occupe massivement la tête de liste
point connu, pour quand on aura le temps : retravailler l'édition, pour éviter les retours à la ligne intempestifs (voir si au passage cela permettrait de définir une structure paragraphe ?) et ajouter au début de chaque texte un rappel des métadonnées permettant de l'identifier commodément.
mettre à jour en ajoutant les derniers discours de voeux (il en manque 2 ou 3).
public/retours_sur_les_corpus_exemples.txt · Dernière modification: 2012/10/19 15:06 par benedicte.pincemin@ens-lyon.fr