Retours BP

octobre 2010

  • formats des préférences de l'affichage des colonnes non documentés. [effectué]
  • Il faudrait documenter le fait que, lorsque l'on est sur une partition, on peut aller directement voir les textes d'une partie (accès direct vs séquentiel). [effectué]
  • Pagination pas à jour dans la table des matières (ex. Cooccurrences) [effectué]
  • Rédiger des introductions synthétiques (vs. listes à puces très proches du sommaire), mettant en évidence l'intérêt pragmatique de ce qui est détaillé dans la section.
  • Revoir le plan : difficile de bien comprendre tout ce qui concerne la gestion de l'interface et des fenêtres sans avoir vu les types de traitements effectués.
  • (Revoir et unifier la terminologie: unité lexicale / mot, etc.⇒ mais ceci est en amont de la rédaction même du manuel)

Il faudrait que je relise toutes les parties concernant les nouvelles fonctionnalités, notamment pour les explications et renvois scientifiques. Pour le moment je n'ai vu que AFC :

AFC

[effectué]

cf. mail du 12/10 à Matthieu et Serge

Le tableau des valeurs propres affiche le numéro des valeurs, la
valeur propre au carré ainsi que le pourcentage de la valeur propre
au carré.

Non je ne pense pas qu'il faille dire valeur propre “au carré”, il me semble que justement il y a une équivalence modulo un passage au carré entre la singular value et la valeur propre.

Les tableaux d'information sur les lignes et les colonnes
donnent la qualité des plans,

la qualité de la représentation du point dans chaque plan, calculée comme la somme des cosinus carrés du point sur les deux axes concernés : plus la qualité est proche de 1, moins la position du point est déformée par la projection dans le plan.

la fréquence relative,

on parle plutôt du poids relatif - la fréquence relative est habituellement fréquence / taille du texte, or le calcul du poids rapporte la fréquence à la somme des fréquences des autres mots-lignes, qui ne représentent pas forcément tout le texte.

la distance,

distance du point *à l'origine* (= centre de la représentation = centre de gravité du nuage de point = croisement des axes)

contribution à chaque axe,

la contribution est la participation du point à la construction de l'axe. La somme des contributions vaut 100. Les points qui présentent les plus fortes contributions pour un axe donné servent à interpréter l'axe (intérêt donc de pouvoir trier tour à tour sur chacune de ces colonnes).

le cos² de chaque axe

le cos2 du point *sur* chaque axe, ce qui est une mesure de l'angle entre le vecteur représentatif du point et l'axe. Un cos2 proche de 1 indique que le point est bien représenté sur l'axe, un cos2 faible (proche de 0) indique que la projection déforme fortement le point par rapport à cet axe et qu'il vaut mieux donc éviter d'interpréter la position du point par rapport aux autres selon la coordonnée sur cet axe. En particulier, un point qui a un cos2 faible sur les deux axes de la représentation plane choisie a une position trompeuse, sa proximité apparente avec d'autres points ne doit pas être interprétée dans ce plan.

les coordonnées
normalisées par la valeur propre.

Non je ne pense pas qu'il faille dire que les coordonnées soient normalisées par la valeur propre, puisque notre référence c'est la tradition française, non la sortie du package CA de R. Dire tout simplement les coordonnées. SH : [En fait l'expression vient de moi. Dans le contexte de CA, la formulation initiale était “coordonnées divisées par la valeur propre”. Or, il me semble que l'expression “normalisé par la valeur propre” exprime à la fois le fait qu'il y ai une division (ce qui est vrai mathématiquement) et que la coordonnée soit normalisée (les coordonnées sont comparables entre elles). A propos de tradition française, j'attends toujours une référence d'implémentation de l'AFC dans cette tradition pour me prononcer sur la formulation précise des résultats.]

13 octobre 2010 : précisions apportées par Matthieu, à intégrer

Quelques précisions sur les paramètres optionnels de l'import :

  • L'encodage sert souvent pour les systèmes unix qui veulent importer des fichiers windows, comme par exemple les import Hyperbase ou Alceste (encodage CP1252).
  • La langue permettra à TXM de faire des tris et un meilleur affichage des résultats des fonctions. Ainsi que de choisir le modèle pour l'annotation de TreeTagger. Dans la plus part des cas, la langue de vos corpus est la langue de vos systèmes. Dans le cas contraire, il faut mettre le code ISO de la langue (fr, it , en…)
  • Le champ “fichier de paramètres pour le tokeniseur” permet de paramétrer très finement le comportement du tokeniseur. Dans la plus part des cas, et comme pour les autres champs, il n'y a pas besoin de changer sa valeur.
public/retours_sur_la_documentation/retours_benedicte_pincemin.txt · Dernière modification: 2010/11/12 10:17 par benedicte.pincemin@ens-lyon.fr