Outils pour utilisateurs

Outils du site


public:specifications_extension_mallet-topic_maps

Extension MALLET Topic Maps

Objectif

Aider PG à calculer des topic maps malgré les limitations de la bibliothèque MATLAB qu'il utilise pour des “petits” corpus.

Proposer une première implémentation d'un calcul populaire en SHS, qu'il faudrait comparer aux usages de l'algorithme Reinert.

Démontrer la facilité avec laquelle on peut intégrer un outil Java natif dans TXM, en particulier un outil populaire.

Peut-être interfacer d'autres services de la librairie MALLET et surtout associer les capacités d'import versatiles de TXM avec les possibilités de MALLET.

Amorcer une pompe d'intégration d'outils natifs Java utiles et populaires, en particulier les outils de TAL/NLP :

  • pour justifier de l'investissement dans Java et dans le langage de scripts Groovy à la base de TXM ;
  • en particulier en ce qui concerne le TAL où NLTK en Python est très populaire et justifie la formation à Python comme langage de scripts pour la manipulation de formats de fichiers et de TAL alors que la grande majorité des développements en TAL/NLP sont fait en Java mais ont du mal à être diffusés auprès d'utilisateurs potentiels.

Méthode

L'idée est de s'appuyer sur l'application de base topic-modeling-tool (A graphical user interface tool for Latent Dirichlet Allocation topic modeling) écrite en Java Swing et s'appuyant sur la librairie Java MAchine Learning for LanguagE Toolkit (MALLET) pour implémenter une première version d'interface utilisateur de calcul de topic maps. Il s'agit de remplacer les procédures d'import de MALLET par celles de TXM et l'UI de topic-modeling-tool par celle d'une nouvelle commande TXM appelée 'Topics' appliquée à une partition (ou à un corpus si on suit la stratégie optimisée pour les grands corpus).

La série de tutoriels Text Analysis with Topic Models for the Humanities and Social Sciences (TAToM) construite à partir de Python, NumPy, Matplotlib et MALLET peut servir avantageusement pour la recette de l'extension dans la mesure où l'environnement TXM fournit déjà des services équivalents à Python, NumPy et Matplotlib.

État de la plateforme

Avancement dans l'élaboration de la solution

Solution

État de l'art

Éléments de solution

Prototypes

Version finale

Documentation

Utilisateur

Développeur

Recette

Protocole de test

Alpha

Beta

État courant

public/specifications_extension_mallet-topic_maps.txt · Dernière modification: 2014/11/03 09:57 par slh@ens-lyon.fr