Cours sur Schiller

Descriptif du projet

Il s'agit d'une initiation à la textométrie et à l'utilisation du logiciel TXM en les appliquant au corpus des Lettres sur l’Éducation Esthétique de l'Homme de Friedrich Schiller.

Descriptif du corpus

Le corpus est composé de deux sous-ensembles :

La langue étant du Neuhochdeutch mais avec de fortes variations de graphie par rapport à l'allemand contemporain, on n'a pas lemmatisé avec un modèle de l'allemand contemporain. On a utilisé le webservice proposé par la Deutsches Text Archiv (http://www.deutschestextarchiv.de/demo/cab/) adapté à la lemmatisation de la langue de cette époque.

Remarque

Nous avons remarqué qu'un paragraphe manque dans le corpus, à la fin de la lettre 23 : “Diese Geistreiche…” forme le début d'une note en fin de lettre. La suite de la note est présente mais dans le texte.

Éléments d'analyse

Contraste entre le corpus des lettres publiées et celui des lettres originales au Prince

[BP] Pour ce contraste, voici comment procéder :

  1. sélectionner le corpus
  2. demander le calcul d'une partition
  3. indiquer le nom de la partition (par ex. baest_vs_ab), laisser la structure “text”, et choisir la propriété qui nous semble la plus intéressante pour désigner nos parties (moi j'ai choisi titleshort), puis valider → création d'un petit cube partition sous le corpus
  4. sélectionner ce cube, et demander le calcul de spécificités, laisser les paramètres par défaut dans la boîte de dialogue qui s'affiche
  5. dans le tableau résultat, trier sur la colonne score en cliquant sur l'entête de colonne

On observe que les pronoms personnels de première personne du singulier occupent le haut de la liste (sont spécifiques aux lettres au Prince).

Différencier les sens de Vorstellung (représentation) et Einbildungskraft (imagination)

Observation en concordance de :

[moot-lemma="Vorstellung"]
[moot-lemma="Einbildungskraft"]

cf. citation de Kant http://gutenberg.spiegel.de/buch/kritik-der-urteilskraft-3507/9 : “Um zu unterscheiden, ob etwas schön sei oder nicht, beziehen wir die Vorstellung nicht durch den Verstand auf das Objekt zum Erkenntnisse, sondern durch die Einbildungskraft (vielleicht mit dem Verstande verbunden) auf das Subjekt und das Gefühl der Lust oder Unlust desselben.”

La soumission au Prince (mécène)

“Erster Brief, § 1 : “Sie wollen mir also vergönnen,…” → observation en contexte par une concordance de :

[moot-lemma="vergönnen|Gunst"]

Le Prince a un coeur, est humain, sensible

Tentative de Bénédicte : rechercher (en CONCORDANCE) des occurrences de Herz précédées d'un déterminant possessif :

[moot-tag="PPOSAT"][]{0,3}[moot-lemma="Herz"]

Famille de "-mut(h)-/-müt(h)-"

Pour lister toute la famille et dérivés, INDEX de

[moot-lemma=".*muth?.*"%d]

Une pensée libre, autonome, par elle-même

(tentative de Bénédicte) INDEX de :

".*selbst.*"%c

Les noms abstraits sont-ils significativement plus présents dans le texte édité que dans les lettres au prince ?

1. Construire la partition opposant les lettres et l'ouvrage :

  • sélectionner le corpus SCHILLER20150105
  • lancer la commande Corpus>PARTITION
  • paramétrer le calcul :
  • nom = le nom de la partition à construire, par ex baest_vs_ab
  • structure = text, Propriété = titleshort
  • lancer le calcul avec le bouton OK → création d'un cube P sous le corpus Schiller.

2. Sélectionner la partition et demander un INDEX

  • Saisir la requête, par exemple : [moot-lemma=”.*[hk]eit”]
  • On peut aussi régler “Propriétés” à “moot-lemma”
  • Lancer le calcul (bouton “chercher”) et vérifier que cela correspond bien aux termes abstraits qu'on veut capter.

3. Sélectionner le résultat de l'index dans la marge gauche de la fenêtre TXM, sous le cube partition, et demander une TABLE LEXICALE.

  • Une fenêtre de paramètres s'affiche : s'assure que c'est bien “Total toutes les occurrences du corpus” qui est sélectionné pour cette analyse.

4. Dans la vue de la table lexicale qui s'affiche, cliquer sur le bouton “Fusion ou Suppr. de lignes”

  • Sélectionner tous les mots sauf le dernier (#RESTE#) dans le cadre de gauche, et les reverser à droite avec la flèche entre les deux cadres.
  • Saisir le “nom du résultat de la fusion”, par exemple ”-heit/-keit” et valider avec OK
  • On obtient un tableau à 2 lignes (les mots en -heit/-keit d'une part et tous les autres mots du corpus d'autre part) et 2 colonnes (lettres vs ouvrage).

5. Sélectionner le résultat de la table lexicale dans la marge gauche de la fenêtre TXM, sous le cube partition et juste après l'index, et demander le calcul des SPÉCIFICITÉS. On obtient le résultat suivant :

Unité		F	f_AB	Score	f_BAEST	Score
-heit/-keit	1270	394	-9.1	876	 9.1
#RESTE#		63502	24952	 9.1	38550	-9.1

Interprétation : les mots en -heit et -keit sont sur-représentés dans l'ouvrage : le score de 9 indique que si les mots étaient distribués aléatoirement entre les deux parties du corpus, alors il n'y aurait qu'une chance sur 1 milliard (score 9 → 1 suivi de 9 zéros, 1 000 000 000) pour qu'on ait 876 occurrences de ces mots (ou plus) dans l'ouvrage.

Remarque : il est tout à fait normal qu'on ait le même score (au signe près) dans les quatre cases du tableau, c'est attendu mathématiquement (les scores sont égaux en valeur et opposés en signes : pour toutes les lignes d'un tableau à deux colonnes ; ou/et pour toutes les colonnes d'un tableau à deux lignes).

Les mots de la famille de 'glück'

A partir d'une réflexion sur Gluckseligkeit, on recherche tous les mots basés sur 'glück'

[moot-lemma=".*glück.*" %cd]

Geschmack plus présent dans les lettres au Prince (AB) que dans les Lettres édités (BAEST)

Partition AB/BAEST

Geschamck a un score de -12,5 dans BAEST

Visiblement remplacé par plusieurs mots, dont Schönheit

Zirkel : vue en contexte pour distinguer le sens "cercle vicieux" et "cercle" au sens social

[moot-lemma=”.*zirkel.*” %cd]

.*bürger

Weltbürger, Zeitbürger, Staatbürger…

On constate le style qui se condense dans BAEST par rapport à AB

[moot-lemma=".+burger.*" %cd]

Sur l'articulation de la raison et du coeur

On veut rechercher les phrases qui comportent à la fois un mot de la famille de Kopf et un mot de la famille de Herz.

On commence par mettre au point la requête avec la fonction INDEX avec affichage en moot-lemma :

  • ”.*kopf.*”%c : OK, mais cela peut aussi correspondre exactement à [moot-lemma=“Kopf”]
  • ”.*herz.*”%c : il faut sans doute se restreindre à quelques lemmes qu'on énumère, par exemple [moot-lemma=“Herz|Herzhaftigkeit|herzlich”]

On vérifie qu'il y a dans le corpus une structure phrase : on voit dans la DESCRIPTION que c'est a priori “s”, on peut voir son emploi en contexte en faisant une CONCORDANCE sur <s>[] et retour à l'édition en double-cliquant sur une ligne → tous les débuts de phrases sont coloriés dans la page d'édition affichée. On peut si besoin s'assurer que le balisage a été fait sur toutes les lettres en faisant une partition en lettres (partition simple sur div/id) puis un INDEX de <s>[] sur cette partition (on voit au passage qu'il y a une partie vide sans id, à corriger éventuellement à l'occasion d'un nouvel import).

On peut alors lancer la recherche en INDEX (avec affichage en word) puis CONCORDANCE :

([moot-lemma="Herz|Herzhaftigkeit|herzlich"][]{0,30}[moot-lemma="Kopf"] | [moot-lemma="Kopf"][]{0,30}[moot-lemma="Herz|Herzhaftigkeit|herzlich"]) within s

ou encore (phrase entière) :

<s>[]*[moot-lemma="kopf.*" %cd][]*[moot-lemma="herz.*" %cd][]*</s>|<s>[]*[moot-lemma="herz.*" %cd][]*[moot-lemma="kopf.*" %cd][]*</s>

Recherche de familles de mots (cours 5)

Les recherches sur les familles de mots peuvent se faire en INDEX (avec affichage en word ou en lemmes), pour voir les différents dérivés pertinents (ou non) ; puis en CONCORDANCE, notamment par double-clic sur une ligne de l'INDEX ou par reprise de la requête de l'INDEX (complète ou ajustée pour éviter les intrus).

  • A propos de la liberté : recherche de la famille de Not
  • Verwilderung : Wuth, roh, Triebe, vocabulaire de la bestialité, de la violence animale, des pulsions
  • Erschlaffung : verfeinert, fein, bizar, vocabulaire de l'artifice, de la politesse, de tout ce qui corsète et qui éloigne de la nature, de la flatterie, de l'insincérité, du déguisement
  • .*tyran.*, .*despot.*
  • Klasse : Schiller ne fait pas encore de description sociologique de la société, mais évocation des classes…
  • Vocabulaire de la cour, des cercles sociaux
  • .*schwarm.* (contraire de Hellerverstand) (confusion/esprit clair)
  • .*spott.* la moquerie

Quels sont les verbes / les noms les plus fréquents du corpus ?

On lance la commande INDEX et on règle le paramètre “Propriété(s)” (juste à droite du champ requête) sur “moot-lemma”, à l'aide du bouton éditer.

Les verbes

Requête pour la liste des verbes : [moot-tag=“VV.*”]

Résultat (top 15) :

machen	183
geben	142
finden	77
lassen	66
nehmen	65
setzen	64
bleiben	48
führen	43
handeln	43
empfinden	42
bringen	41
kommen	41
tun	41
bestimmen	40
stehen	40

Nous avons par exemple noté l'emploi fréquent de “empfinden” : un double-clic sur “empfinden” dans la liste de l'INDEX permet de voir les contextes d'emploi de ce verbe en CONCORDANCE.

Les noms

Requête pour la liste des noms : [moot-tag=“NN”]

Résultat (top 20) :

Mensch	303
Natur	197
Freiheit	151
Vernunft	141
Schönheit	139
Form	135
Kraft	121
Zeit	109
Zustand	104
Menschheit	103
Geist	102
Geschmack	102
Gesetz	96
Kunst	88
Empfindung	83
Wahrheit	80
Bedürfnis	70
Begriff	70
Brief	67
Welt	67

“Mensch” fait partie des noms les plus fréquents, mais ce n'est peut-être pas si remarquable, c'est un nom très fréquent dans différents types de corpus, par exemple on peut voir ce que cela donne dans le corpus VOEUXRFA (disponible ici : http://sourceforge.net/projects/txm/files/corpora/voeuxrfa/ - télécharger le fichier voeuxrfa-bin.txm, l'enregistrer où l'on veut sur son disque dur, puis dans TXM lancer la commande Fichier > Charger, et naviguer pour indiquer le fichier voeuxrfa-bin.txm).

Requête pour la liste des verbes dans le corpus VOEUXRFA (le codage du corpus est différent, les étiquettes pour les catégories grammaticales sont les mêmes je crois mais l'information s'appelle pos et non moot-pos) : [pos=“NN”]

Résultat (top 15) :

jahr	320
mensch	275
land	224
welt	130
frieden	117
zukunft	116
familie	112
mitbürger	102
kind	95
leben	89
mitbürgerin	84
freiheit	79
gesellschaft	76
weihnachten	76
kraft	73

Mots attirés par un mot donné (cours 6)

Ce cours a été l'occasion notamment de découvrir les apports des cooccurrences, pour les mots ayant une fréquence de l'ordre de la centaine ou plus.

La suite de commandes-type est :

  • INDEX pour vérifier que la requête attrape bien ce qu'on veut
  • CONCORDANCE obtenue soit par double-clic sur un des mots listés par l'INDEX, soit en lançant la commande CONCORDANCE sur la même requête que celle d'abord testée en INDEX (on peut faire un copier/coller d'un champ requête à l'autre)
  • retour au texte élargi (ÉDITION) avec surlignage des occurrences du mot, en double-cliquant sur une ligne de la concordance
  • nouvelles pistes interprétatives avec la commande COOCCURRENCES, lancée toujours sur la même requête que l'index.

Nous avons exploré notamment les notions suivantes :

  • [moot-lemma="Freiheit"]
    • avec un petit détour par une partition opposant les lettres au livre, pour voir avec un calcul d'INDEX puis de SPÉCIFICITÉS si Wahrheit ou/et Freiheit sont plus employés dans le livre (cf. procédure déjà mise en oeuvre pour les noms abstraits, sans l'opération de fusion des lignes). La conclusion est que ces mots sont effectivement un peu plus employés, mais que statistiquement l'écart n'est pas très marqué, qu'il n'y a pas de sur-emploi remarquable dans le livre. Requête utilisée :

[moot-lemma=“Wahrheit|Freiheit”] (avec propriété(s) = moot-lemma pour l'affichage)

  • [moot-lemma=".*geschmack.*"%cd]
  • [moot-lemma=".*energ.*"%cd]
    • dans les cooccurrences, nous sommes allés voir les contextes d'emploi (double-clic sur le cooccurrent) de “Energie” et “Entschlusses” par exemple.
    • nous avons aussi recherché par ailleurs les contextes communs à Energie et Kraft :
        ([moot-lemma="Energie"][]*[moot-lemma="Kraft"] | [moot-lemma="Kraft"] []*[moot-lemma="Energie"]) within s
    • pour préciser les adjectifs qualifiant Energie, nous avons lancé un INDEX sur :
        [moot-tag="ADJA"][moot-lemma=".*energ.*"%cd]
  • [moot-lemma=".*hande?l.*"%c]
    • et dans les COOCCURRENCES nous sommes allés voir de plus près “sittlich”

Autre thème à explorer :

  • ce qui descend vs ce qui s'élève :
    [moot-lemma=".*sinken|tief|herunter"] (à préciser/compléter)

Évolution de la présence d'un mot au fil du corpus (cours 6)

La fonction PROGRESSION permet de visualiser sous forme de graphe le déroulement du corpus (sur l'axe horizontal) et la présence de mots donnés (fréquence cumulée sur l'axe vertical). Lorsque la courbe est plate/horizontale, c'est que le mot n'apparaît pas. Lorsque la courbe monte vigoureusement, c'est que le mot est employé de façon dense.

Réglages de la commande :

  • pour repérer sur le graphique le passage d'un texte à un autre :
    • cas 1 : si on veut le passage d'une lettre à l'autre (découpage fin), régler :
      • Unité structurelle : div
      • Propriété : id
    • cas 2 : si on veut seulement séparer les lettres au prince et le livre (découpage large), régler :
      • Unité structurelle : text
      • Propriété : id
  • saisir la requête correspondant au mot/motif cherché dans le champ en bas de la fenêtre. Rq. On peut afficher sur le même graphe les évolutions de plusieurs mots en saisissant plusieurs requêtes (1 requête → une courbe), chaque nouvelle requête étant à saisir dans un nouveau champ qu'on fait apparaître avec le bouton “ajouter”. Ex. de requête :
    • [moot-lemma=".*geschmack.*"]
    • [moot-lemma="Freiheit"] et dans un 2e champ [moot-lemma="Wahrheit"]

Vérification de l'absence d'un mot/thème (cours 13)

Pas de “Prometh.*”%cd dans notre corpus (CONCORDANCE).

Recherche d'occurrences en contexte (cours 13)

CONCORDANCE de [moot-lemma=“Gott.*”] → on voit que les contextes sont positifs (BAEST06, BAEST09)

CONCORDANCE (et retour à l'édition) de “Gleichgültigkeit” : indifférence, placidité, hors passions, ataraxie.

Etude de radicaux

INDEX de

[moot-lemma=".*tracht.*|.*sehen|.*sicht|.*schau.*"%cd]

ou séparément :

[moot-lemma=".*schau.*"%cd]
[moot-lemma=".*sehen|.*sicht"%cd]
[moot-lemma=".*blick.*"%cd]

Recherche aussi sur les particules doubles séparables :

[moot-lemma="hinein.*|hinaus.*|heraus.*"%cd]

“hinaus” se concentre dans les dernières lettres

public/umr_ihrim_cours_schiller.txt · Dernière modification: 2016/11/29 09:47 par slh@ens-lyon.fr