Ceci est une ancienne révision du document !
Cette page sert au suivi du projet associant l'UMR IHPC et l'UMR ICAR pour développer un cours sur Schiller intégrant des éléments de textométrie porté par AL.
Dans la mesure où cette page est pour l'instant accessible publiquement, il est recommandé de maintenir un minimum d'anonymat.
Pour éditer cette page, il suffit d'être abonné à la liste de diffusion 'txm-users'.
Il s'agit d'une initiation à la textométrie et à l'utilisation du logiciel TXM en les appliquant au corpus des Lettres sur l’Éducation Esthétique de l'Homme de Friedrich Schiller.
Le corpus est composé de deux sous-ensembles :
La langue étant du Neuhochdeutch mais avec de fortes variations de graphie par rapport à l'allemand contemporain, on n'a pas lemmatisé avec un modèle de l'allemand contemporain. On a utilisé le webservice proposé par la Deutsches Text Archiv (http://www.deutschestextarchiv.de/demo/cab/) adapté à la lemmatisation de la langue de cette époque.
Remarque
Nous avons remarqué qu'un paragraphe manque dans le corpus, à la fin de la lettre 23 : “Diese Geistreiche…” forme le début d'une note en fin de lettre. La suite de la note est présente mais dans le texte.
[BP] Pour ce contraste, voici comment procéder :
On observe que les pronoms personnels de première personne du singulier occupent le haut de la liste (sont spécifiques aux lettres au Prince).
Observation en concordance de :
[moot-lemma="Vorstellung"] [moot-lemma="Einbildungskraft"]
cf. citation de Kant http://gutenberg.spiegel.de/buch/kritik-der-urteilskraft-3507/9 : “Um zu unterscheiden, ob etwas schön sei oder nicht, beziehen wir die Vorstellung nicht durch den Verstand auf das Objekt zum Erkenntnisse, sondern durch die Einbildungskraft (vielleicht mit dem Verstande verbunden) auf das Subjekt und das Gefühl der Lust oder Unlust desselben.”
“Erster Brief, § 1 : “Sie wollen mir also vergönnen,…” → observation en contexte par une concordance de :
[moot-lemma="vergönnen|Gunst"]
Tentative de Bénédicte : rechercher (en CONCORDANCE) des occurrences de Herz précédées d'un déterminant possessif :
[moot-tag="PPOSAT"][]{0,3}[moot-lemma="Herz"]
Pour lister toute la famille et dérivés, INDEX de
[moot-lemma=".*muth?.*"%d]
(tentative de Bénédicte) INDEX de :
".*selbst.*"%c
1. Construire la partition opposant les lettres et l'ouvrage :
2. Sélectionner la partition et demander un INDEX
3. Sélectionner le résultat de l'index dans la marge gauche de la fenêtre TXM, sous le cube partition, et demander une TABLE LEXICALE.
4. Dans la vue de la table lexicale qui s'affiche, cliquer sur le bouton “Fusion ou Suppr. de lignes”
5. Sélectionner le résultat de la table lexicale dans la marge gauche de la fenêtre TXM, sous le cube partition et juste après l'index, et demander le calcul des SPÉCIFICITÉS. On obtient le résultat suivant :
Unité F f_AB Score f_BAEST Score -heit/-keit 1270 394 -9.1 876 9.1 #RESTE# 63502 24952 9.1 38550 -9.1
Interprétation : les mots en -heit et -keit sont sur-représentés dans l'ouvrage : le score de 9 indique que si les mots étaient distribués aléatoirement entre les deux parties du corpus, alors il n'y aurait qu'une chance sur 1 milliard (score 9 → 1 suivi de 9 zéros, 1 000 000 000) pour qu'on ait 876 occurrences de ces mots (ou plus) dans l'ouvrage.
Remarque : il est tout à fait normal qu'on ait le même score (au signe près) dans les quatre cases du tableau, c'est attendu mathématiquement (les scores sont égaux en valeur et opposés en signes : pour toutes les lignes d'un tableau à deux colonnes ; ou/et pour toutes les colonnes d'un tableau à deux lignes).
A partir d'une réflexion sur Gluckseligkeit, on recherche tous les mots basés sur 'glück'
[moot-lemma=".*glück.*" %cd]
Partition AB/BAEST
Geschamck a un score de -12,5 dans BAEST
Visiblement remplacé par plusieurs mots, dont Schönheit
[moot-lemma=”.*zirkel.*“ %cd]
Weltbürger, Zeitbürger, Staatbürger…
On constate le style qui se condense dans BAEST par rapport à AB
[moot-lemma=".+burger.*" %cd]
On veut rechercher les phrases qui comportent à la fois un mot de la famille de Kopf et un mot de la famille de Herz.
On commence par mettre au point la requête avec la fonction INDEX avec affichage en moot-lemma :
On vérifie qu'il y a dans le corpus une structure phrase : on voit dans la DESCRIPTION que c'est a priori “s”, on peut voir son emploi en contexte en faisant une CONCORDANCE sur <s>[] et retour à l'édition en double-cliquant sur une ligne → tous les débuts de phrases sont coloriés dans la page d'édition affichée. On peut si besoin s'assurer que le balisage a été fait sur toutes les lettres en faisant une partition en lettres (partition simple sur div/id) puis un INDEX de <s>[] sur cette partition (on voit au passage qu'il y a une partie vide sans id, à corriger éventuellement à l'occasion d'un nouvel import).
On peut alors lancer la recherche en INDEX (avec affichage en word) puis CONCORDANCE :
([moot-lemma="Herz|Herzhaftigkeit|herzlich"][]{0,30}[moot-lemma="Kopf"] | [moot-lemma="Kopf"][]{0,30}[moot-lemma="Herz|Herzhaftigkeit|herzlich"]) within s
ou encore (phrase entière) :
<s>[]*[moot-lemma="kopf.*" %cd][]*[moot-lemma="herz.*" %cd][]*</s>|<s>[]*[moot-lemma="herz.*" %cd][]*[moot-lemma="kopf.*" %cd][]*</s>
Les recherches sur les familles de mots peuvent se faire en INDEX (avec affichage en word ou en lemmes), pour voir les différents dérivés pertinents (ou non) ; puis en CONCORDANCE, notamment par double-clic sur une ligne de l'INDEX ou par reprise de la requête de l'INDEX (complète ou ajustée pour éviter les intrus).
On lance la commande INDEX et on règle le paramètre “Propriété(s)” (juste à droite du champ requête) sur “moot-lemma”, à l'aide du bouton éditer.
Les verbes
Requête pour la liste des verbes : [moot-tag=“VV.*”]
Résultat (top 15) :
machen 183 geben 142 finden 77 lassen 66 nehmen 65 setzen 64 bleiben 48 führen 43 handeln 43 empfinden 42 bringen 41 kommen 41 tun 41 bestimmen 40 stehen 40
Nous avons par exemple noté l'emploi fréquent de “empfinden” : un double-clic sur “empfinden” dans la liste de l'INDEX permet de voir les contextes d'emploi de ce verbe en CONCORDANCE.
Les noms
Requête pour la liste des noms : [moot-tag=“NN”]
Résultat (top 20) :
Mensch 303 Natur 197 Freiheit 151 Vernunft 141 Schönheit 139 Form 135 Kraft 121 Zeit 109 Zustand 104 Menschheit 103 Geist 102 Geschmack 102 Gesetz 96 Kunst 88 Empfindung 83 Wahrheit 80 Bedürfnis 70 Begriff 70 Brief 67 Welt 67
“Mensch” fait partie des noms les plus fréquents, mais ce n'est peut-être pas si remarquable, c'est un nom très fréquent dans différents types de corpus, par exemple on peut voir ce que cela donne dans le corpus VOEUXRFA (disponible ici : http://sourceforge.net/projects/txm/files/corpora/voeuxrfa/ - télécharger le fichier voeuxrfa-bin.txm, l'enregistrer où l'on veut sur son disque dur, puis dans TXM lancer la commande Fichier > Charger, et naviguer pour indiquer le fichier voeuxrfa-bin.txm).
Requête pour la liste des verbes dans le corpus VOEUXRFA (le codage du corpus est différent, les étiquettes pour les catégories grammaticales sont les mêmes je crois mais l'information s'appelle pos et non moot-pos) : [pos=“NN”]
Résultat (top 15) :
jahr 320 mensch 275 land 224 welt 130 frieden 117 zukunft 116 familie 112 mitbürger 102 kind 95 leben 89 mitbürgerin 84 freiheit 79 gesellschaft 76 weihnachten 76 kraft 73
Ce cours a été l'occasion notamment de découvrir les apports des cooccurrences, pour les mots ayant une fréquence de l'ordre de la centaine ou plus.
La suite de commandes-type est :
Nous avons exploré notamment les notions suivantes :
[moot-lemma="Freiheit"]
[moot-lemma=“Wahrheit|Freiheit”] (avec propriété(s) = moot-lemma pour l'affichage)
[moot-lemma=".*geschmack.*"%cd]
[moot-lemma=".*energ.*"%cd]
([moot-lemma="Energie"][]*[moot-lemma="Kraft"] | [moot-lemma="Kraft"] []*[moot-lemma="Energie"]) within s
[moot-tag="ADJA"][moot-lemma=".*energ.*"%cd]
[moot-lemma=".*hande?l.*"%c]
Autre thème à explorer :
[moot-lemma=".*sinken|tief|herunter"] (à préciser/compléter)
La fonction PROGRESSION permet de visualiser sous forme de graphe le déroulement du corpus (sur l'axe horizontal) et la présence de mots donnés (fréquence cumulée sur l'axe vertical). Lorsque la courbe est plate/horizontale, c'est que le mot n'apparaît pas. Lorsque la courbe monte vigoureusement, c'est que le mot est employé de façon dense.
Réglages de la commande :
[moot-lemma=".*geschmack.*"]
[moot-lemma="Freiheit"] et dans un 2e champ [moot-lemma="Wahrheit"]
Pas de “Prometh.*”%cd dans notre corpus (CONCORDANCE).
CONCORDANCE de [moot-lemma=“Gott.*”] → on voit que les contextes sont positifs (BAEST06, BAEST09)
CONCORDANCE (et retour à l'édition) de “Gleichgültigkeit” : indifférence, placidité, hors passions, ataraxie.
INDEX de [moot-lemma=”.*tracht.*|.*sehen|.*sicht|.*schau.*“%cd]
ou séparément :
[moot-lemma=”.*schau.*“%cd]
[moot-lemma=”.*sehen|.*sicht“%cd]
[moot-lemma=”.*blick.*“%cd]
Recherche aussi sur les particules doubles séparables :
[moot-lemma=“hinein.*|hinaus.*|heraus.*”%cd]
“hinaus” se concentre dans les dernières lettres