Outils pour utilisateurs

Outils du site


public:specs_cah

Classification

Objectif

Fournir un outil de classification de tableau de données textuelles.

Solution

Etat de l'art

Gestion de résultats de CAH volumineux :

  • tableaux ? cf. scénario de l'AFC dans TXM actuel
  • existant dans les composants utilisés (DynGraph, factomineR) ?
  • existant dans les autres logiciels et composants

On devrait trouver des propositions d'interface qui aident à repérer où couper l'arbre, pour voir le détail sur une partition donnée. Et sans doute aussi des manières (+/- graphiques, ± interactives) de présenter le détail des agrégations successives.

Solution 1

On délègue le calcul à la librairie FactoMineR en utilisant la Classification Ascendante Hiérarchique (CAH) : HCPC.

L'essentiel de la fonctionnalité est délégué aux méthodes du package FactomineR qui est une implémentation open-source de référence dans la lignée des travaux d'une doctorante de J-P Benzécri.

Rendu JFreeChart

Récupération des positions des éléments à afficher :

  • ordre et hauteur (poids) des clusters :
    FactoMineRAHC1$t$inert.gain
    [1] 0.033374795 0.025353684 0.020823283 0.017381983 0.011627975 0.001046091
  • positions et appartenance des variables (dans l'exemple : chirac, dg, sarkozy, etc.) dans l'espace 2D
    • PAS ENCORE TROUVÉ
  • positions et appartenance des variables (dans l'exemple : chirac, dg, sarkozy, etc.) dans l'espace 3D
    $X
                     Dim.1        Dim.2       Dim.3         Dim.4        Dim.5
    dg         -0.32968078 -0.082142014 -0.05669736  0.0793716798 -0.038924480
    pompidou   -0.08627795  0.101899900 -0.10937265  0.0007636458  0.392513089
    mitterrand -0.03341618 -0.007719739  0.22653592 -0.1211223456  0.002990372
    giscard     0.01368680  0.398695204 -0.09262657 -0.0357057198 -0.073234949
    chirac      0.17321937 -0.121833026 -0.13430097 -0.0785086788 -0.022057847
    sarkozy     0.23027298  0.013876814  0.10539608  0.2912835865 -0.007030725
    hollande    0.30737350 -0.082132425  0.12765481  0.1085555262  0.067982933
               clust
    dg             1
    pompidou       2
    mitterrand     1
    giscard        3
    chirac         4
    sarkozy        4
    hollande       4
  • score de proximité avec le baricentre du cluster, utile ?
    $desc.ind$para
    Cluster: 1
            dg mitterrand 
      0.232103   0.232103 
    ------------------------------------------------------------ 
    Cluster: 2
     pompidou
            0
    ------------------------------------------------------------ 
    Cluster: 3
     giscard
           0
    ------------------------------------------------------------ 
    Cluster: 4
     hollande   sarkozy    chirac 
    0.1315881 0.2135031 0.2666902 

Algorithme

  • la CAH part d'une partition, d'une table lexicale ou d'une AFC
  • une AFC ??? est toujours réalisée en amont de la CAH ???
  • la CAH est réalisée sur le tableau réduit résultat de l'AFC, combien d'axes sont préservés ???

Documentation

Utilisateur

Une section du manuel a commencé à être rédigée.

Développeur

À FAIRE

Recette

Retours utilisateur de Bénédicte (notés en mai 2018 - version courante de TXM = 0.7.9)

Limitation pratique du nombre d'éléments classés

Ce qui est mis en avant par l'interface c'est une sortie graphique. Lorsqu'il y a un grand nombre de parties l'encombrement fait que cela n'est pas lisible : problèmes de type recouvrement d'étiquettes, mais aussi difficulté plus générale de voir l'arbre à la fois globalement et dans ses détails.

Manque de transparence sur le calcul mis en oeuvre

Ce qui me gêne peut-être le plus dans l'interface actuelle (et en partie la doc), c'est de ne pas expliciter le fait qu'il y a une AFC sous-jacente et de ne pas donner accès au nombre de dimensions utilisées.

Il faudrait par ailleurs vérifier si c'est bien une AFC plutôt qu'une ACP qui calcule l'espace dans lequel s'opère la CAH (les données exportables associées au résultat de la CAH dans TXM jettent le doute).

On a commencé à noter tout cela dans Solution 1, ci-dessus.

Pourquoi (ne) choisir (qu')une classification hiérarchique ?

Si l'on prend du recul et que l'on pose la question de la manière de proposer des classifications dans TXM, il peut aussi y avoir en amont la question du type de classification à implémenter : la CAH est un classique, les nuées dynamiques peuvent être complémentaires (notamment pour un grand nombre d'éléments à classer). Dans DtmVic les méthodes de classification hybrides (AFC puis CAH) intègrent également une 3e phase pour améliorer les classes (test d'échanges d'éléments). La méthode Reinert peut rejoindre aussi ce sujet (classer des unités de contextes pour obtenir des ensembles de mots faisant thème). Dans ma recherche personnelle, j'ai mis en avant la question de nouveaux types de classification (multiclasse non exhaustive) mieux adaptées aux données textuelles ; la méthode Reinert (ou plus généralement le principe de classer des contextes pour obtenir des regroupements de mots, ni exhaustifs ni disjoints) apporte une forme de réponse à cette question.

public/specs_cah.txt · Dernière modification : 04/12/2023 11:01 de matthieu.decorde@ens-lyon.fr