Outils pour utilisateurs

Outils du site


public:specifications_extension_mallet-topic_maps

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
public:specifications_extension_mallet-topic_maps [2014/11/02 21:01]
slh@ens-lyon.fr créée
public:specifications_extension_mallet-topic_maps [2014/11/03 09:57] (Version actuelle)
slh@ens-lyon.fr
Ligne 1: Ligne 1:
 ====== Extension MALLET Topic Maps ====== ====== Extension MALLET Topic Maps ======
  
-L'​idée est de s'​appuyer sur l'​application de base [[https://​code.google.com/​p/​topic-modeling-tool|topic-modeling-tool]] (A graphical user interface tool for Latent Dirichlet Allocation topic modeling) écrite en Java Swing pour implémenter une première version d'​interface utilisateur de calcul de [[http://​fr.wikipedia.org/​wiki/​Topic_model |topic maps]] à partir de la librairie [[http://​mallet.cs.umass.edu/​|Java MAchine Learning for LanguagE Toolkit]] (MALLET).+===== Objectif =====
  
-La série de tutoriels ​[[https://de.dariah.eu/tatom|Text Analysis with Topic Models for the Humanities and Social Sciences (TAToM)]] construite à partir ​de Python, NumPy, Matplotlib et MALLET peut servir avantageusement pour la recette de l'extension.+Aider PG à calculer des [[http://fr.wikipedia.org/wiki/​Topic_model ​|topic maps]] malgré les limitations ​de la bibliothèque MATLAB qu'il utilise pour des "​petits"​ corpus.
  
-===== Objectif =====+Proposer une première implémentation d'un calcul populaire en SHS, qu'il faudrait comparer aux usages de l'​algorithme Reinert. 
 + 
 +Démontrer la facilité avec laquelle on peut intégrer un outil Java natif dans TXM, en particulier un outil populaire. 
 + 
 +Peut-être interfacer d'​autres services de la librairie MALLET et surtout associer les capacités d'​import versatiles de TXM avec les possibilités de MALLET. 
 + 
 +Amorcer une pompe d'​intégration d'​outils natifs Java utiles et populaires, en particulier les outils de TAL/NLP : 
 +  * pour justifier de l'​investissement dans Java et dans le langage de scripts Groovy à la base de TXM ; 
 +  * en particulier en ce qui concerne le TAL où NLTK en Python est très populaire et justifie la formation à Python comme langage de scripts pour la manipulation de formats de fichiers et de TAL alors que la grande majorité des développements en TAL/NLP sont fait en Java mais ont du mal à être diffusés auprès d'​utilisateurs potentiels.
  
 ===== Méthode ===== ===== Méthode =====
-Description ​de la méthode ​de travail ​pour atteindre ​l'objectif+ 
 +L'​idée est de s'​appuyer sur l'​application de base [[https://​code.google.com/​p/​topic-modeling-tool|topic-modeling-tool]] (A graphical user interface tool for Latent Dirichlet Allocation topic modeling) écrite en Java Swing et s'​appuyant sur la librairie [[http://​mallet.cs.umass.edu/​|Java MAchine Learning for LanguagE Toolkit]] (MALLET) pour implémenter une première version d'​interface utilisateur ​de calcul de topic maps. Il s'agit de remplacer les procédures d'​import de MALLET par celles de TXM et l'UI de topic-modeling-tool par celle d'une nouvelle commande TXM appelée '​Topics'​ appliquée à une partition (ou à un corpus si on suit la stratégie optimisée ​pour les grands corpus). 
 + 
 +La série de tutoriels [[https://​de.dariah.eu/​tatom|Text Analysis with Topic Models for the Humanities and Social Sciences (TAToM)]] construite à partir de Python, NumPy, Matplotlib et MALLET peut servir avantageusement pour la recette de l'​extension dans la mesure où l'environnement TXM fournit déjà des services équivalents à Python, NumPy et Matplotlib.
  
 ==== État de la plateforme ==== ==== État de la plateforme ====
public/specifications_extension_mallet-topic_maps.1414958515.txt.gz · Dernière modification: 2014/11/02 21:01 par slh@ens-lyon.fr