Différences

Cette page vous donne les différences entre la révision choisie et la version actuelle de la page.

public:retours_sur_les_corpus_exemples [2012/07/17 23:32]
benedicte.pincemin@ens-lyon.fr
public:retours_sur_les_corpus_exemples [2012/10/19 15:06] (version actuelle)
benedicte.pincemin@ens-lyon.fr
Ligne 5: Ligne 5:
    * le nom des propriétés (variations de type ttpos / frpos / pos mais je n'ai pas pu vérifier dans le détail car quand j'ai consulté le portail demo il n'y avait pas Voeux)     * le nom des propriétés (variations de type ttpos / frpos / pos mais je n'ai pas pu vérifier dans le détail car quand j'ai consulté le portail demo il n'y avait pas Voeux)
    * le repérage des phrases (qui est fait pour l'une et pas pour l'autre)     * le repérage des phrases (qui est fait pour l'une et pas pour l'autre)
-  * attention aux apostrophes non reconnues comme telles (essentiellement chez Chirac je crois - facile à voir en faisant un calcul de spécificités sur une partition en présidents). +  * attention aux apostrophes non reconnues comme telles, cela a plusieurs impacts : 
-  * en lien avec la question de la tokenisation et de la gestion des apostrophes, voir si on peut améliorer l'étiquetage (le fonctionnement de treetagger est actuellement perturbé et dégradé par les apostrophes) +    * tokenisation : la version dans TXM WEB ne segmentait pas sur tout ou partie des apostrophes
-  * point connu, pour quand on aura le temps : retravailler l'édition, pour éviter les retours à la ligne intempestifs et ajouter au début de chaque texte un rappel des métadonnées permettant de l'identifier commodément.+    * étiquetage : dans la version téléchargeable pour la RCP, les majuscules suivi d'un apostrophe sont des noms propres (NAM), "j'" est lemmatisé "je" pour 8 occurrences, restent 69 occurrences 
 +    * spécificités : les spécificités chez Chirac montrent qu'il y a une concentration d'apostrophes non reconnues chez lui -dommage que cela occupe massivement la tête de liste 
 +  * point connu, pour quand on aura le temps : retravailler l'édition, pour éviter les retours à la ligne intempestifs (voir si au passage cela permettrait de définir une structure paragraphe ?) et ajouter au début de chaque texte un rappel des métadonnées permettant de l'identifier commodément
 +  * mettre à jour en ajoutant les derniers discours de voeux (il en manque 2 ou 3).
public/retours_sur_les_corpus_exemples.1342560777.txt.gz · Dernière modification: 2012/07/17 23:32 par benedicte.pincemin@ens-lyon.fr