Liste de liens :
Liste de liens :
Fournir un outil de classification de tableau de données textuelles.
Gestion de résultats de CAH volumineux :
On devrait trouver des propositions d'interface qui aident à repérer où couper l'arbre, pour voir le détail sur une partition donnée. Et sans doute aussi des manières (+/- graphiques, ± interactives) de présenter le détail des agrégations successives.
On délègue le calcul à la librairie FactoMineR en utilisant la Classification Ascendante Hiérarchique (CAH) : HCPC.
L'essentiel de la fonctionnalité est délégué aux méthodes du package FactomineR qui est une implémentation open-source de référence dans la lignée des travaux d'une doctorante de J-P Benzécri.
Récupération des positions des éléments à afficher :
FactoMineRAHC1$t$inert.gain [1] 0.033374795 0.025353684 0.020823283 0.017381983 0.011627975 0.001046091
$X Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 dg -0.32968078 -0.082142014 -0.05669736 0.0793716798 -0.038924480 pompidou -0.08627795 0.101899900 -0.10937265 0.0007636458 0.392513089 mitterrand -0.03341618 -0.007719739 0.22653592 -0.1211223456 0.002990372 giscard 0.01368680 0.398695204 -0.09262657 -0.0357057198 -0.073234949 chirac 0.17321937 -0.121833026 -0.13430097 -0.0785086788 -0.022057847 sarkozy 0.23027298 0.013876814 0.10539608 0.2912835865 -0.007030725 hollande 0.30737350 -0.082132425 0.12765481 0.1085555262 0.067982933 clust dg 1 pompidou 2 mitterrand 1 giscard 3 chirac 4 sarkozy 4 hollande 4
$desc.ind$para Cluster: 1 dg mitterrand 0.232103 0.232103 ------------------------------------------------------------ Cluster: 2 pompidou 0 ------------------------------------------------------------ Cluster: 3 giscard 0 ------------------------------------------------------------ Cluster: 4 hollande sarkozy chirac 0.1315881 0.2135031 0.2666902
Une section du manuel a commencé à être rédigée.
À FAIRE
Ce qui est mis en avant par l'interface c'est une sortie graphique. Lorsqu'il y a un grand nombre de parties l'encombrement fait que cela n'est pas lisible : problèmes de type recouvrement d'étiquettes, mais aussi difficulté plus générale de voir l'arbre à la fois globalement et dans ses détails.
Ce qui me gêne peut-être le plus dans l'interface actuelle (et en partie la doc), c'est de ne pas expliciter le fait qu'il y a une AFC sous-jacente et de ne pas donner accès au nombre de dimensions utilisées.
Il faudrait par ailleurs vérifier si c'est bien une AFC plutôt qu'une ACP qui calcule l'espace dans lequel s'opère la CAH (les données exportables associées au résultat de la CAH dans TXM jettent le doute).
On a commencé à noter tout cela dans Solution 1, ci-dessus.
Si l'on prend du recul et que l'on pose la question de la manière de proposer des classifications dans TXM, il peut aussi y avoir en amont la question du type de classification à implémenter : la CAH est un classique, les nuées dynamiques peuvent être complémentaires (notamment pour un grand nombre d'éléments à classer). Dans DtmVic les méthodes de classification hybrides (AFC puis CAH) intègrent également une 3e phase pour améliorer les classes (test d'échanges d'éléments). La méthode Reinert peut rejoindre aussi ce sujet (classer des unités de contextes pour obtenir des ensembles de mots faisant thème). Dans ma recherche personnelle, j'ai mis en avant la question de nouveaux types de classification (multiclasse non exhaustive) mieux adaptées aux données textuelles ; la méthode Reinert (ou plus généralement le principe de classer des contextes pour obtenir des regroupements de mots, ni exhaustifs ni disjoints) apporte une forme de réponse à cette question.