Outils pour utilisateurs

Outils du site


public:specs_cah

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Dernière révision Les deux révisions suivantes
public:specs_cah [2018/02/27 11:45]
slh@ens-lyon.fr
public:specs_cah [2018/05/03 10:16]
benedicte.pincemin@ens-lyon.fr
Ligne 5: Ligne 5:
 Fournir un outil de classification de tableau de données textuelles. Fournir un outil de classification de tableau de données textuelles.
  
-===== Solution 1 ===== 
  
-On délégue ​le calcul à la librairie FactoMineR en utilisant la Classification Ascendante Hiérarchique (CAH) : HCPC.+===== Solution ===== 
 + 
 +==== Etat de l'art ==== 
 + 
 +Gestion de résultats de CAH volumineux : 
 +  * tableaux ? cf. scénario de l'AFC dans TXM actuel 
 +  * existant dans les composants utilisés (DynGraph, factomineR) ? 
 +  * existant dans les autres logiciels et composants 
 +On devrait trouver des propositions d'​interface qui aident à repérer où couper l'​arbre,​ pour voir le détail sur une partition donnée. Et sans doute aussi des manières (+/- graphiques, ± interactives) de présenter le détail des agrégations successives. 
 + 
 + 
 +==== Solution 1 ==== 
 + 
 +On délègue ​le calcul à la librairie FactoMineR en utilisant la Classification Ascendante Hiérarchique (CAH) : HCPC.
  
 L'​essentiel de la fonctionnalité est délégué aux méthodes du package FactomineR qui est une implémentation open-source de référence dans la lignée des travaux d'une doctorante de J-P Benzécri. L'​essentiel de la fonctionnalité est délégué aux méthodes du package FactomineR qui est une implémentation open-source de référence dans la lignée des travaux d'une doctorante de J-P Benzécri.
Ligne 13: Ligne 25:
 ==== Algorithme ==== ==== Algorithme ====
  
-* la CAH part d'une partition, d'une table lexicale ou d'une AFC +  ​* la CAH part d'une partition, d'une table lexicale ou d'une AFC 
-* une AFC est toujours réalisée en amont de la CAH +  * une AFC ??? est toujours réalisée en amont de la CAH ??? 
-* la CAH est réalisée sur le tableau réduit résultat de l'AFC+  * la CAH est réalisée sur le tableau réduit résultat de l'AFC, combien d'axes sont préservés ???
  
 ===== Documentation ===== ===== Documentation =====
 +
 +==== Utilisateur ====
 +
 +Une section du manuel a commencé à être rédigée.
 +
 +==== Développeur ====
  
 À FAIRE À FAIRE
Ligne 23: Ligne 41:
 ===== Recette ===== ===== Recette =====
  
-À FAIRE+==== Retours utilisateurs de Bénédicte (notés en mai 2018 - version courante de TXM = 0.7.9) ==== 
 + 
 +=== Limitation pratique du nombre d'​éléments classés === 
 + 
 +Ce qui est mis en avant par l'​interface c'est une sortie graphique. 
 +Lorsqu'​il y a un grand nombre de parties l'​encombrement fait que cela n'est pas lisible : 
 +problèmes de type recouvrement d'​étiquettes,​ mais aussi difficulté plus générale de voir l'​arbre à la fois globalement et dans ses détails. 
 + 
 +=== Manque de transparence sur le calcul mis en oeuvre === 
 + 
 +Ce qui me gêne peut-être le plus dans l'​interface actuelle (et en partie la doc), c'est de ne pas expliciter le fait qu'il y a une AFC sous-jacente et de ne pas donner accès au nombre de dimensions utilisées. 
 + 
 +Il faudrait par ailleurs vérifier si c'est bien une AFC plutôt qu'une ACP qui calcule l'​espace dans lequel s'​opère la CAH (les données exportables associées au résultat de la CAH dans TXM jettent le doute). 
 + 
 +On a commencé à noter tout cela dans Solution 1, ci-dessus. 
 + 
 +=== Pourquoi (ne) choisir (qu'​)une classification hiérarchique ? === 
 + 
 +Si l'on prend du recul et que l'on pose la question de la manière de proposer des classifications dans TXM, il peut aussi y avoir en amont la question du type de classification à implémenter : la **CAH** est un classique, les **nuées dynamiques** peuvent être complémentaires (notamment pour un grand nombre d'​éléments à classer). Dans DtmVic les **méthodes de classification hybrides** (AFC puis CAH) intègrent également une 3e phase pour améliorer les classes (**test d'​échanges d'​éléments**). La **méthode Reinert** peut rejoindre aussi ce sujet (classer des unités de contextes pour obtenir des ensembles de mots faisant thème). Dans ma recherche personnelle,​ j'ai mis en avant la question de nouveaux types de classification (multiclasse non exhaustive) mieux adaptées aux données textuelles ; la méthode Reinert (ou plus généralement le principe de classer des contextes pour obtenir des regroupements de mots, ni exhaustifs ni disjoints) apporte une forme de réponse à cette question. 
 + 
  
public/specs_cah.txt · Dernière modification: 2018/05/03 10:17 par benedicte.pincemin@ens-lyon.fr