Outils pour utilisateurs

Outils du site


public:specs_specificites:nullax

Nullax

Ticket: #2024

Objectif

Sélectionner les nullax potentiellement les plus intéressants d'une partition. Une unité lexicale est un nullax dans une partie si sa fréquence est nulle dans la partie et sa spécificité (forcément négative) est inférieure à un seuil (type seuil de banalité).

En pratique, c'est intéressant de sélectionner une unité qui vérifie aussi d'autres conditions, comme celle d'être suffisamment présente (ex. au moins deux fois) dans suffisamment d'autres parties. Par exemple un nom de personnage, très présent dans un texte, pourra être totalement absent de tous les autres textes ou quasi, or il est généralement peu pertinent à mettre en avant.

Les opérations textométriques à prévoir sur une telle sélection de nullax sont a minima un retour au texte en concordance, pour voir quels sont les emplois dans les autres textes d'un nullax d'un texte.

Méthode

Commencer par implémenter une macro comparable à BasicVocabulary et SelectSpecif qui manipule directement un résultat de spécificité. Puis voir comment intégrer le calcul dans l'actuel fonctionnalité des spécificités.

Solution

V1 - Macro Nullax

  • Paramètres :
    • tsvFile : le fichier TSV résultat
    • TS : un tableau de spécificités
    • seuil_specif : un seuil pour l'indice de spécificité, par défaut -2
    • seuil_f : un seuil de fréquence de présence significative, par défaut 2
    • seuil_nb_parties_inf : un seuil de nombre de parties où une unité doit être présente par ailleurs (au niveau seuil_f) pour être intéressante à sélectionner, par défaut 2
    • seuil_nb_parties_sup : un seuil de nombre de parties où une unité doit être présente par ailleurs (au niveau seuil_f) pour considérer que c'est une unité quasiment toujours présente, par défaut le nombre de colonnes de TS moins 1.
  • Calcul :
    • Pour chaque partie, sélectionner des lignes du tableau telles que
      • l'indice de spécificité est inférieur à seuil_specif, et
      • la fréquence de l'unité dans la partie est nulle, et
      • il existe au moins seuil_nb_parties_inf parties dans lesquelles la fréquence de l'unité est supérieure à seuil_f ;
      • enregistrer le nombre de parties où la fréquence de l'unité est supérieure à seuil_f.
  • Résultat : un fichier TSV composé de l'ensemble des lignes sélectionnées, avec une colonne supplémentaire D<seuil_nb_parties> (par exemple D2 -“D” comme “dispersion” (concept original)), positionnée juste après la colonne F donnant la fréquence totale de l'unité, et qui rend compte du nombre de parties où l'unité est présente avec une fréquence supérieure à seuil_f.
  • Résultat 2 : afficher en console les nullax pour chaque partie de la partition
    • pour chaque partie, les unités sont ordonnées selon l’indice des spécificités, en commençant par les absences les plus remarquables (indice le plus faible, ex. -10) ;
    • marquer en gras les unités pour lesquelles D<seuil_nb_parties> vaut au moins seuil_nb_parties_sup.

Recette

V1

Sur le corpus FLAUBERT (lien) utilisé pour le livre Lebart et al., en considérant les paramètres suivants :

  • tsvFile : le fichier TSV résultat
  • TS : spécificités en lemmes sur la partition en 5 textes (simple sur text_id)
  • seuil_specif = -2
  • seuil_f = 2
  • seuil_nb_parties_inf = 3
  • seuil_nb_parties_sup = 4

Les nullax contiennent alors les lemmes suivants (après élimination manuelle de certains lemmes non filtrés par la procédure automatique ci-dessus, pour des raisons sémantiques type connaissance du cadre spatio-temporel associé au texte) :

  • BOUVARD : lorsque, murmure, poudre, patrie, poignard, distraire, tunique, magasin, tumulte, tranquillement, horrible, haie, frissonner, festin, armure, souffle, entreprise, couloir, instant, estrade, char, accouder, soudain, hérisser, gaieté, dénouer, torche, sangloter, coussin
  • BOVARY : soldat, république, rempart, palais, périr, roche, armure, lame, faim, ébranler, Rome, sacré, fendre, assemblée, exécuter, triomphe, accorder, argile, violence, dénigrer, gravir, exclusivement, menace, oncle, pierreries, tapage, gueule, victime, faveur, caverne, également, choix
  • EDUCATION : apothicaire, golfe, cuirasse, cidre, falaise, hache, taureau, aube, portion, échelle, caverne, lin, tiare, escabeau, charrue, tonneau, mont, catéchisme, gouverneur, enterrer, incertain, empoisonner
  • SALAMMBO : semaine, visite, midi, moquer, joli, conversation, portrait, santé, réflexion, fréquenter, artiste, individu, drôle, promenade, déranger, connaissance, charmant, soirée, etc., gamin, affection, néanmoins, fameux, style, citer, soigner, observation, malheureux, cas, paysage, hein, procurer, convive, bref, fâcher, témoin, bah, convenable, préférer, merci, charmer, aplomb, faux, conseiller, allusion, tempérament, découverte, scène, tinter, politesse, sublime, protester, honnête, bêtise, parfaitement, gentil, moral, charme, humeur, content, insister, fourrer, expression, bonsoir, affecter, cousin, anecdote, convoitise
  • TROIS CONTES : effet, lorsque, plaindre
public/specs_specificites/nullax.txt · Dernière modification: 2017/02/07 14:56 par benedicte.pincemin@ens-lyon.fr