Outils pour utilisateurs

Outils du site


public:specifications_extension_mallet-topic_maps

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:specifications_extension_mallet-topic_maps [2014/11/02 21:07]
slh@ens-lyon.fr
public:specifications_extension_mallet-topic_maps [2014/11/03 09:57] (Version actuelle)
slh@ens-lyon.fr
Ligne 6: Ligne 6:
  
 Proposer une première implémentation d'un calcul populaire en SHS, qu'il faudrait comparer aux usages de l'​algorithme Reinert. Proposer une première implémentation d'un calcul populaire en SHS, qu'il faudrait comparer aux usages de l'​algorithme Reinert.
 +
 +Démontrer la facilité avec laquelle on peut intégrer un outil Java natif dans TXM, en particulier un outil populaire.
 +
 +Peut-être interfacer d'​autres services de la librairie MALLET et surtout associer les capacités d'​import versatiles de TXM avec les possibilités de MALLET.
 +
 +Amorcer une pompe d'​intégration d'​outils natifs Java utiles et populaires, en particulier les outils de TAL/NLP :
 +  * pour justifier de l'​investissement dans Java et dans le langage de scripts Groovy à la base de TXM ;
 +  * en particulier en ce qui concerne le TAL où NLTK en Python est très populaire et justifie la formation à Python comme langage de scripts pour la manipulation de formats de fichiers et de TAL alors que la grande majorité des développements en TAL/NLP sont fait en Java mais ont du mal à être diffusés auprès d'​utilisateurs potentiels.
  
 ===== Méthode ===== ===== Méthode =====
  
-L'​idée est de s'​appuyer sur l'​application de base [[https://​code.google.com/​p/​topic-modeling-tool|topic-modeling-tool]] (A graphical user interface tool for Latent Dirichlet Allocation topic modeling) écrite en Java Swing pour implémenter une première version d'interface utilisateur de calcul de topic maps à partir de la librairie [[http://​mallet.cs.umass.edu/​|Java MAchine Learning for LanguagE Toolkit]] (MALLET).+L'​idée est de s'​appuyer sur l'​application de base [[https://​code.google.com/​p/​topic-modeling-tool|topic-modeling-tool]] (A graphical user interface tool for Latent Dirichlet Allocation topic modeling) écrite en Java Swing et s'appuyant sur la librairie [[http://​mallet.cs.umass.edu/​|Java MAchine Learning for LanguagE Toolkit]] (MALLET) pour implémenter une première version d'​interface utilisateur de calcul de topic maps. Il s'agit de remplacer les procédures d'​import de MALLET par celles de TXM et l'UI de topic-modeling-tool par celle d'une nouvelle commande TXM appelée '​Topics'​ appliquée à une partition (ou à un corpus si on suit la stratégie optimisée pour les grands corpus).
  
-La série de tutoriels [[https://​de.dariah.eu/​tatom|Text Analysis with Topic Models for the Humanities and Social Sciences (TAToM)]] construite à partir de Python, NumPy, Matplotlib et MALLET peut servir avantageusement pour la recette de l'​extension.+La série de tutoriels [[https://​de.dariah.eu/​tatom|Text Analysis with Topic Models for the Humanities and Social Sciences (TAToM)]] construite à partir de Python, NumPy, Matplotlib et MALLET peut servir avantageusement pour la recette de l'​extension ​dans la mesure où l'​environnement TXM fournit déjà des services équivalents à Python, NumPy et Matplotlib.
  
 ==== État de la plateforme ==== ==== État de la plateforme ====
public/specifications_extension_mallet-topic_maps.1414958824.txt.gz · Dernière modification: 2014/11/02 21:07 par slh@ens-lyon.fr