Outils pour utilisateurs

Outils du site


Action disabled: source
public:specs_cah

Classification

Objectif

Fournir un outil de classification de tableau de données textuelles.

Solution

Etat de l'art

Gestion de résultats de CAH volumineux :

  • tableaux ? cf. scénario de l'AFC dans TXM actuel
  • existant dans les composants utilisés (DynGraph, factomineR) ?
  • existant dans les autres logiciels et composants

On devrait trouver des propositions d'interface qui aident à repérer où couper l'arbre, pour voir le détail sur une partition donnée. Et sans doute aussi des manières (+/- graphiques, ± interactives) de présenter le détail des agrégations successives.

Solution 1

On délègue le calcul à la librairie FactoMineR en utilisant la Classification Ascendante Hiérarchique (CAH) : HCPC.

L'essentiel de la fonctionnalité est délégué aux méthodes du package FactomineR qui est une implémentation open-source de référence dans la lignée des travaux d'une doctorante de J-P Benzécri.

Algorithme

  • la CAH part d'une partition, d'une table lexicale ou d'une AFC
  • une AFC ??? est toujours réalisée en amont de la CAH ???
  • la CAH est réalisée sur le tableau réduit résultat de l'AFC, combien d'axes sont préservés ???

Documentation

Utilisateur

Une section du manuel a commencé à être rédigée.

Développeur

À FAIRE

Recette

Retours utilisateur de Bénédicte (notés en mai 2018 - version courante de TXM = 0.7.9)

Limitation pratique du nombre d'éléments classés

Ce qui est mis en avant par l'interface c'est une sortie graphique. Lorsqu'il y a un grand nombre de parties l'encombrement fait que cela n'est pas lisible : problèmes de type recouvrement d'étiquettes, mais aussi difficulté plus générale de voir l'arbre à la fois globalement et dans ses détails.

Manque de transparence sur le calcul mis en oeuvre

Ce qui me gêne peut-être le plus dans l'interface actuelle (et en partie la doc), c'est de ne pas expliciter le fait qu'il y a une AFC sous-jacente et de ne pas donner accès au nombre de dimensions utilisées.

Il faudrait par ailleurs vérifier si c'est bien une AFC plutôt qu'une ACP qui calcule l'espace dans lequel s'opère la CAH (les données exportables associées au résultat de la CAH dans TXM jettent le doute).

On a commencé à noter tout cela dans Solution 1, ci-dessus.

Pourquoi (ne) choisir (qu')une classification hiérarchique ?

Si l'on prend du recul et que l'on pose la question de la manière de proposer des classifications dans TXM, il peut aussi y avoir en amont la question du type de classification à implémenter : la CAH est un classique, les nuées dynamiques peuvent être complémentaires (notamment pour un grand nombre d'éléments à classer). Dans DtmVic les méthodes de classification hybrides (AFC puis CAH) intègrent également une 3e phase pour améliorer les classes (test d'échanges d'éléments). La méthode Reinert peut rejoindre aussi ce sujet (classer des unités de contextes pour obtenir des ensembles de mots faisant thème). Dans ma recherche personnelle, j'ai mis en avant la question de nouveaux types de classification (multiclasse non exhaustive) mieux adaptées aux données textuelles ; la méthode Reinert (ou plus généralement le principe de classer des contextes pour obtenir des regroupements de mots, ni exhaustifs ni disjoints) apporte une forme de réponse à cette question.

public/specs_cah.txt · Dernière modification: 2018/05/03 10:17 par benedicte.pincemin@ens-lyon.fr