Outils pour utilisateurs

Outils du site


public:apres-28-juin:explo

Outils d'exploration

retour CMR-Insurance services

Trame

Comment s'en servir ?

  1. Si l'outil dont vous vous servez est déjà défini sur cette page, vous cliquez sur le bouton “éditer” correspondant et ajoutez vos propos (modifiez les commentaires associés aux traits pertinents, puis ajoutez votre partie “Utilisateurs et commentaires” Thermo-LKW
  2. si l'outil n'est pas encore décrit, vous cliquez sur le bouton “éditer” correspondant à cette trame, à droite de la fenêtre. Vous copiez le texte. Vous le collez plus bas (vérifiez que le nom de l'outil figure bien comme sous-titre (signes d'égalité avant et après le nom), de façon à permettre une fenêtre d'édition locale. Remplacez le texte de commentaires associé à chaque trait de la trame.

TROPES

Cf documentation et page wikipedia: “Tropes utilise des techniques de classification sémantique et de génération de thesaurus qui se rapprochent de la linguistique anglo-saxonne, en particulier des travaux de John Lyons. Sa particularité est d'exploiter activement l'Analyse Propositionnelle du Discours (APD) et l'Analyse Cognitivo-Discursive (ACD) de Rodolphe Ghiglione. Tropes s'est aussi inspiré de la Grammaire du sens et de l'expression de Patrick Charaudeau pour diagnostiquer le style du texte. Ainsi que des travaux de Mathieu Brugidou, concernant l'analyse chronologique du récit.”

> moyennant un retour au corpus pour corréler lexique/catégories, il permet un traitement rapide de différents corpus dans le cadre d'une démarche différentielle notamment. Format word ou txt donc facile d'usage.

un complément avec d'autres logiciels pour les catégories grammaticales peut s'avérer intéressant pour compléter les résultats de Tropes (comme Cordial); personnellement, dans un travail sur la portée argumentative de la grammaire en discours, l'utilisation des concepts de Charaudeau par les concepteurs est intéressant
pour les textes littéraires, l'outil de scénario doit être intéressant, même s'il présente plusieurs limites qui conduisent à un usage prudent

CORDIAL

  • Objectif de Recherche : inspirée des travaux de Malrieu et Rastier pour déterminer les caractéristiques morphosyntaxiques de différents genres de discours. Les statistiques sont intéressants car ils permettent de déterminer les aspects saillants d'un corpus. Voir notamment sur la page web:

- Analyse logique visualisable avec désambiguïsation sémantique - Occurrences lemmatisées ou non - Recherche de mots-clés, de syntagmes-clés, de phrases-clés, de concepts-clés - Statistiques - Association d'informations morphologiques, syntaxiques et grammaticales aux mots de vos textes - Configuration de l'analyse linguistique : Cordial Analyseur vous propose de choisir parmi les 27 types de données (lemme, type syntaxique, type grammatical, numéro de proposition dans la phrase, équivalents sémantiques, etc.) celles qui correspondent à vos besoins - Extraction d'informations linguistiques à partir de texte : extraction automatique des verbes d'un corpus, du pourcentage de verbes à l'infinitif, etc. - Collocations sur plus d'1,2 milliard de mots - Extraction de phrases de corpus.

IRaMuTeQ


Développé à l'origine comme alternative libre à Alceste (Max Reinert), IRaMuTeQ permet de faire des analyses statistiques sur des corpus textuels et sur des tableaux individus/caractères. Comme Alceste, IRaMuTeQ est construit autour d'unités de base appelées 'unité de contexte initiale'(UCI pouvant représenter un entretien, un article, un livre ou tout autre type de documents), pouvant être caractérisées par un ensemble de variaables et découpées en thématiques (pour le formatage du corpus, se référer à la page http://sourceforge.net/apps/mediawiki/iramuteq/index.php?title=Formatage_des_corpus_texte). Ces UCI sont elles-mêmes redécoupées en segments homogènes (les unité de contexte élémentaires, UCE) qui seront classés en fonction de leur distribution. Une classe est constituée sur la base du contenu lexical regroupe les UCE contenant les mêmes formes lexicales. Les classes obtenues sont des classes de sens constituées par les mots et les phrases les plus significatifs, et représentent les idées et les thèmes dominants du corpus.


  • Aux analyses lexicométriques classiques (dictionnaires fréquentiels, Analyse Factorielle des Correspondances (AFC), spécificités…), IraMuTeQ proposent un large choix de représentations graphiques des résultats des analyses de similitude, des classifications (notamment de la classification hiérarchique descendante sur un tableau croisant les formes pleines et des segments de texte décrite par Reinert (1983, 1991)) et des réseaux lexicaux.
  • Dans sa forme actuelle, il ne prend pas en charge des corpus pré-lemmatisés, et offre une lemmatisation endogène et un étiquetage morpho-syntaxique élémentaire mais configurable selon les besoins de l'analyse.
  • De même le concordancier est assez basique relativement à celui proposé dans le cadre de l'Open Corpus Workbench (CWB) ou de TXM.
  • Un forum dynamique et très réactifs permet d'accompagner les utilisateurs et de compenser une documentation encore très fragmentaire.
  • La version 0.6 (livraison prévue cet automne) sera en mesure d'accommoder des corpus de plusieurs centaines de millions de mots.
  • Le logiciel est multi-plateforme
public/apres-28-juin/explo.txt · Dernière modification: 2014/07/16 10:10 par 31.24.91.68