Auslegen und Ausrechnen

In unserem Artikel diskutieren wir das methodologische Verhältnis zwischen hermeneutischen und quantitativen Verfahren in den Literaturwissenschaften im Lichte der jüngsten Entwicklungen auf dem Gebiet der Digital Humanities. Ausgehend von (1) einer Auswertung von Franco Morettis Begriff distant reading als einem literaturgeschichtlichen Kernbegriff und (2) einer Analyse der historischen und begrifflichen Basis der Stilometrie fokussieren wir (3) die Bedeutung der Operationalisierung. Anschließend schlagen wir (4) einen integrativen Ansatz für die Literaturwissenschaft vor, dessen theoretischer Kern auf der Schnittstelle zwischen hermeneutischen und quantitativen Methoden liegt.

Abstract

In our article we discuss the methodological relationship of hermeneutical and quantitative approaches in literary studies in the light of latest developments in the field of digital humanities. Starting from (1) an evaluation of Franco Moretti’s term distant reading as a core concept in literary historiography and (2) an analysis of the historical and conceptual foundation of stylometrics we then focus (3) on the importance of operationalizing. Following this, we propose (4) a mixed methods approach in literary studies that theorizes the interface of hermeneutical and quantitative methods.

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

Oh, those are mathematicians! We never talk to them.^{Footnote 1}

Die seit einigen Jahren in den Literaturwissenschaften unter dem Stichwort der Digital Humanities ^{Footnote 2} zu beobachtende Renaissance quantitativer Verfahren^{Footnote 3} zur Textanalyse, Literaturgeschichtsschreibung oder ‚Stilmessung‘ wirft eine Reihe methodischer Fragen auf und nötigt nicht nur diese Geisteswissenschaft, sich systematisch mit den Berührungspunkten zwischen Hermeneutik und Statistik auseinanderzusetzen. Texte werden heute nach linguistischen und literaturwissenschaftlichen Gesichtspunkten annotiert, Textelemente statistisch erfasst und visualisiert, Autor- oder Gattungsstil durch die Erfassung von Worthäufigkeiten in einem Text in Relation zu anderen Texten gemessen. Entsprechende Studien operieren mit unterschiedlichen Neigungen innerhalb eines methodischen Spektrums zwischen Texthermeneutik und Statistik, die dadurch auf vielfältige Weise in Beziehung treten.

Unsere Untersuchung nimmt dieses Verhältnis zwischen hermeneutischen und quantitativen Verfahren in den Literaturwissenschaften in den Blick und eruiert mögliche Synergien. Uns interessiert die Frage nach einem mixed methods-Verfahren hermeneutisch-statistischer Textanalyse, weshalb im Anschluss an die methodologische Erörterung verschiedener Studien ein Vorschlag in diese Richtung formuliert werden soll.

From a Distance: Literaturgeschichte als Analyse zweiter Ordnung

Der im Kontext der Digital Humanities zum geflügelten Wort für quantitative Analysen gewordene Begriff des distant reading ist von seinem Schöpfer Franco Moretti (den Missverständnissen zum Trotz, die er durch manche polemische Überreizung erzeugt hat) als Ergänzung zu den close readings hermeneutischer Einzeltextlektüren geprägt worden, wobei er vor allem die als traditionell anzusehende Frage im Sinn hatte, wie sich einzelne Lektürebefunde literaturgeschichtlich verallgemeinern lassen. Der globale Boom bei der Digitalisierung literarischer Texte hat the big unread auf den Schirm systematischer Überlegungen gebracht und im Falle Morettis zum leidenschaftlichen Plädoyer für eine „more rational literary history“^{Footnote 4} geführt, die Texte zwar weiterhin als die Grundelemente der Literatur, nicht aber als die eigentlichen Objekte der Literaturgeschichte verstehen will^{Footnote 5}. Der provokante Leitbegriff des distant reading wendet sich gegen die Kanonisierungseffekte einer kleinen Zahl von Texten, die im akademischen close reading als Vertreter einer Epoche, einer Gattung oder ihrer leichten Verträglichkeit mit bestimmten Theorien wegen hermeneutisch strapaziert werden. Er kritisiert die oft unbedachte Formulierung weitreichender Thesen aus einzelnen Lektüren heraus, die sich nicht einmal bewusst ist, wie viele ungelesene Texte sie mit ihrer Fokussierung ausblendet. Anstelle der bloßen Lektüre kanonischer Werke plädiert Moretti für Untersuchungen auf der Basis des verfügbaren Buchangebots des jeweiligen Zeitraums, das sich nur quantitativ verarbeiten lässt. Anstatt nur durch immer neue Beobachtungen an denselben altbekannten Texten originell zu sein, setzt diese Herangehensweise die Arbeit mit statistisch hinreichenden Korpora voraus, um zu belast- und überprüfbaren Aussagen und Argumenten zu gelangen^{Footnote 6}.

Dieses Verfahren, das bislang in den weitaus meisten Studien bereits Bekanntes konsolidiert und mithin als Methode, nicht aber im Ergebnis originell ist, steht quer zur großen Mehrheit der qualitativen Denkstile in der Literaturwissenschaft; und womöglich deshalb operiert die Moretti-Schule mit methodischen Kampfbegriffen, die diese Denkstile auf eine Weise diskreditieren, die ebenso originell und unscharf ist wie der wissenschaftliche Habitus, den sie aufs Korn nimmt. Wer nicht aufpasst, der wird dadurch in die Irre geführt. Wenn etwa Matthew Jockers mit euphorischer big data-Rhetorik die close reading-Tradition für ihre „anecdotal evidence“^{Footnote 7} bloßzustellen versucht, täuscht er zumindest teilweise über die tatsächlichen Grundlagen und den Bezugspunkt von Morettis distant reading hinweg. Moretti fordert keineswegs die glatte Abkehr vom close reading als Methode der Textanalyse, sondern die Einführung des distant reading in die Literaturgeschichtsschreibung gerade auf der Basis der professionellen Lektüren anderer. Gegenstände der Literaturgeschichtsschreibung im Sinne des distant reading sollen literaturwissenschaftliche Studien sein: Distant reading ist „‚second-hand‘ criticism“^{Footnote 8}, also eine Literaturanalyse zweiter Ordnung, und in dieser Form „a patchwork of other people’s research, without a single direct textual reading“^{Footnote 9}.

Moretti steht also nicht „for a method of distant reading (as opposed to close reading) and for abandoning detailed microreading“^{Footnote 10}, sondern er hat die Verbindung von Einzeltextlektüren und statistischen Methoden im Blick, wobei unter der „Distanz“ des distant reading im Laufe der Entwicklung ganz unterschiedliche Perspektiven und Techniken verstanden werden, so als bewege sich Moretti seinen Kritikern gegenüber als moving target. Nach unserem Verständnis lassen sich (bislang) drei Distanz-Konzepte unterscheiden: Die Analyse von „Weltliteratur“ verlangt schon aus Gründen beschränkter Sprachkompetenz den Rückgriff auf die Studien anderer zu bestimmten regionalen, nationalen oder kontinentalen Literaturen, um etwa Migrationsbewegungen von Gattungen in globaler Perspektive zu verfolgen (1). Die Distanz des ‚second hand criticisms‘ hat hier ihren systematischen Ort, an dem sich das too big to read-Argument, das gern für die quantitative Analyse großer Korpora ins Feld geführt wird^{Footnote 11}, in multiplizierter Form anlagert. Davon zu unterscheiden ist die Nutzung einschlägiger Sekundärliteratur zur „Operationalisierung“^{Footnote 12} von Fragestellungen für eine quantitative Analyse (2). Strukturale Textanalysen eignen sich dafür in der Regel gut^{Footnote 13}, Hinweise auf sprachliche Epochen-, Gattungs- oder Stilmerkmale ebenso. Doch auch bestimmte literaturgeschichtliche^{Footnote 14} und kulturtheoretische^{Footnote 15} Studien zu Epochengrenzen oder Einzeltextanalysen zu strukturellen Gattungsfragen wie Figuren-Netzwerken im Drama^{Footnote 16} lassen sich so operationalisieren, dass ein distant reading aus dem close reading bzw. einer qualitativen literaturhistorischen Argumentation der Sekundärliteratur oder aus systematischen Überlegungen der Literaturtheorie hervorgeht. Dieses zweistufige Verfahren macht zwar nicht ohne Weiteres „extensive use of secondary sources to obtain data“^{Footnote 17}, entnimmt aber der Forschung anderer Operationalisierungsideen, um dann computergestützt aus Texten Daten zu gewinnen, die wiederum der Interpretation bedürfen. Im Falle einer erfolgreichen Operationalisierung lassen sich mit diesem Distanzverfahren die entsprechenden Hypothesen der Sekundärliteratur natürlich auch testen – ohne dass man eine andere Lesart des Primärtextes dagegenhält:

This kind of ‘reading’, however, no longer produces interpretations but merely tests them: it’s not the beginning of the critical enterprise, but its appendix. And then, here you don’t really read the text anymore, but rather through the text, looking for your unit of analysis. The task is constrained from the start; it’s a reading without freedom.^{Footnote 18}

Anhand von Netzwerktheorien hat Moretti Einsichten in eine aus der strukturalen Textanalyse bestens bekannte heuristische Distanzfunktion erneuert, die die Einsicht in die Funktion von Modellen betrifft (3). So führt er in einer einzeltextbasierten Hamlet-Analyse den Vorteil von Textmodellen gegenüber dem verstehenden Lesen vor. Indem die Modellierung den hermeneutischen Gehalt eines Textes fast vollkommen ausblendet, kann sie zeigen, was man als Leser im Text nicht realisieren kann. „[O]ne can intervene on a model; make experiments“^{Footnote 19}. Niemand käme auf die Idee, sich Shakespeares Hamlet beim Lesen ohne Hamlet vorzustellen. Eine Netzwerksimulation hingegen kann dadurch die unterschiedliche Konnektivität innerhalb eines Figurennetzwerks ermitteln und an den weak und strong ties ^{Footnote 20} ablesen, was die hermeneutische Unterscheidung von Haupt- und Nebenfiguren nicht lesbar machen kann. Die Rekonzeptualisierung solcher oft unreflektierter Zentralbegriffe kann eine willkommene literaturtheoretische Folge der Distanzbetrachtung sein.

Stilometrie – Methode ohne Theorie?

Als „‚distant reading’ strategy“^{Footnote 21} oder „Macroanalysis“^{Footnote 22} am weitesten verselbständigt haben sich bislang stilometrische Analysen, die methodisch scheinbar ohne eine hermeneutische Textlektüre auskommen, da sie Texte rein statistisch erfassen und ihr Verhältnis zueinander aufgrund von Textmerkmalen berechnen. Die Stilometrie setzt den Stil eines Textes, einer Gattung oder eines Autors als (relativ) messbare Größe voraus. Innerhalb der scientific community der Digital Humanities umfasst sie „computergestützte^{Footnote 23} Verfahren der Erhebung stilistischer Merkmale und ihrer Häufigkeiten in Texten, sowie der Nutzung dieser Merkmale und Häufigkeiten für die Klassifikation von Texten“^{Footnote 24}.

Ein mögliches und in der Stilometrie häufig untersuchtes Textmerkmal^{Footnote 25} sind Funktionswörter beziehungsweise ihre Häufigkeit in einem Text im Vergleich zu den Häufigkeiten in anderen Texten^{Footnote 26}. Dieses Vorgehen basiert auf der Annahme, dass sich Funktionswörter aufgrund zweier charakteristischer Eigenschaften besonders für eine Stilmessung eignen:

The reason for using FWs [function words; T.W./T.G./N.K.] in preference to others is that we do not expect their frequencies to vary greatly with the topic of the text, and hence, we may hope to recognize texts by the same author on different topics. It also is unlikely that the frequency of FW use can be consciously controlled^{Footnote 27}.

Wie Friedrich Michael Dimpel jedoch unter Rückgriff auf eine Arbeit von Louis T. Milic bemerkt, leidet die Stilometrie unter ihren „unzureichenden theoretischen Grundlagen“^{Footnote 28}. Notwendig wäre eine „intellectual structure that relates its phenomena to each other and explains the significance of data“^{Footnote 29}. Dafür freilich müsste zunächst eine ganze Reihe präliminarischer Fragen geklärt werden: „is there such a thing as style and where is it located? Does an individual have a unique style which is different from that of others? Is this acquired by practice, by will, or by some other circumstance? If it is unique, does it stay that way or does it change?“^{Footnote 30}

Schon in den 1960er-Jahren hat Wilhelm Fucks auf das theoretische Defizit der Stilometrie hingewiesen. Mit seinem Vorgehen bei der Messung von Textmerkmalen kann er als Vorläufer der modernen Stilometrie gelten. Fucks suchte nach einem Fingerabdruck literarischer Autoren^{Footnote 31} und musste erkennen, „daß man in den Texten nicht so leicht etwas findet, das die Rolle des Fingerabdrucks in der Kriminalistik spielen könnte.“^{Footnote 32}. Er formuliert drei Voraussetzungen, die erfüllt sein müssten, um von einem Fingerabdruck beziehungsweise von einem Autorsignal sprechen zu können:

Erstens müßten sie während des ganzen Lebens eines Autors so unveränderlich sein wie beim Menschen der Fingerabdruck; zweitens müßte sich der literarische Fingerabdruck jedes Autor von dem jedes anderen Autors unmißverständlich unterscheiden; und drittens müßte er leicht bestimmbar sein.^{Footnote 33}

Die leichte Bestimmbarkeit ist sicher ein zu relatives Kriterium, mit den beiden anderen Bedingungen sind dagegen Herausforderungen formuliert, zu denen sich die Stilometrie verhalten muss. Fotis Jannidis reagiert darauf, indem er systematisch zwischen einer starken und einer schwachen These des Autorstils unterscheidet: „In ihrer starken Variante würde sie lauten: Alle Texte eines Autors, also unabhängig von der Gattung, dem Alter des Autors und anderen Faktoren, weisen einen einheitlichen Stil auf. In ihrer schwächeren Variante würde sie lauten: Mehrere Texte eines Autors weisen einen einheitlichen Stil auf.“^{Footnote 34}

Der „größere Teil der stilometrischen Forschung“ arbeitet mit diesem schwachen Begriff von Autorstil und kontrolliert den „zentrale[n] Einfluss anderer Variablen, insbesondere der Gattung, aber auch der Lebenszeit auf die Verteilung der linguistischen Merkmale“ durch „eine sorgsame Auswahl der Vergleichstexte“^{Footnote 35}.

Die Einmaligkeit suggerierende Vorstellung eines literarischen Fingerabdrucks ist literaturtheoretisch diskussionswürdig. Methodisch bringt sie unerfüllbare Anforderungen mit sich, weshalb sich die Stilometrie von der Idee des Autorstils als absoluter Größe, die durch die statistische Textanalyse zu ermitteln ist, verabschiedet hat. Inzwischen arbeitet man stattdessen mit dem Konzept eines relativ ermittelbaren Autorsignals, das „sich nicht exklusiv auf spezifische Merkmale zurückführen lässt, sondern nur in spezifischen Textkonstellationen aufgrund von spezifischen Merkmalskonstellationen in der Unterscheidung aufscheint.“^{Footnote 36}

Doch auch bei der relativen Bestimmung des Autorstils stellt sich die Frage nach dem Verhältnis von beobachteten Merkmalen beziehungsweise ihren Verteilungen und der Idee eines für einen Autor spezifischen Stils. Es ist bisher noch keine Theorie bekannt, die den Zusammenhang zwischen hochfrequenten (Funktions-)Wörtern und Autorstil sowie die in der Stilometrie angenommene unbewusste Verwendung dieser Wörter durch den Autor erklären kann^{Footnote 37}. Diese theoretische Leerstelle zwingt die Literaturwissenschaft zwar nicht zur Abkehr von den in vielen Einzelstudien mit vielversprechendem Ergebnis angewandten Methoden der Stilometrie, sie sollte jedoch gefüllt werden, um den Ergebnissen Gewicht zu verleihen.

Zieht man auf der Suche nach einer Theorie des Autorstils hermeneutische Verfahren der Stilbestimmung zu Rate, findet sich in der Stilistik das Konzept von Stil als „Gestaltphänomen“^{Footnote 38}, welches impliziert, dass eine ganzheitliche Analyse des Autorstils nicht durch die Untersuchung verschiedener Merkmale oder Stilebenen beziehungsweise durch die Summe dieser Einzeluntersuchungen möglich ist. Das sich daraus ergebende Problem – die Frage einer geeigneten Methode zur Stilanalyse – besteht jedoch nicht nur in der hermeneutischen Stilistik, sondern auch in der quantitativen Stilometrie: Selbst Arbeiten, die Stil quantitativ untersuchen und dabei als multivariantes Phänomen begreifen^{Footnote 39}, können nicht von sich behaupten, eine ganzheitliche Stiluntersuchung im Sinne eines gestalthaften holistischen Autorstils zu leisten. Beide Forschungstraditionen – Stilistik und Stilometrie – sehen sich deshalb mit derselben Fragestellung konfrontiert: „Wie analysiert man Stil, wenn nicht über die einzelnen stilistischen Merkmale? Und wenn man ihn mittels einzelner Merkmale analysiert, wie gelangt man dann zu dem die Bausteine übersteigenden Ganzen?“^{Footnote 40}

Die Antwortet auf diese Frage scheint so simpel wie folgenschwer: gar nicht^{Footnote 41}. Um die Untersuchung von Stil – durch hermeneutische oder quantitative Verfahren – realisierbar zu machen, muss man sich auf bestimmte Textmerkmale als Einheiten von Stilebenen konzentrieren und die Idee eines gestalthaften Stils zugunsten eines weniger ambitionierten, dafür aber operationalisierbaren Stilbegriffs aufgeben.

In solcher Lage wird deutlich, dass der „methodological moment“, den die Digital Humanities der Literaturwissenschaft bescheren, keineswegs ein „post-theoretical age“^{Footnote 42} einläutet. Die durch die Notwendigkeiten der Operationalisierung strengen Methodenfragen stellen auch theoretische Herausforderungen dar, die nicht in jedem Fall begriffliche Rekonzeptualisierung im Sinne Morettis verlangen^{Footnote 43}, aber doch dazu nötigen, die Theoriebestände des Fachs neu zu sichten. Ist „im Kontext der Stilometrie erst deutlich geworden, was wir nicht wissen“^{Footnote 44}, lassen methodische Entscheidungen wie die, den literarischen Fingerabdruck als Leitvorstellung zu verwerfen, zugleich deutlich werden, wo auf dem Feld auch der historischen Stiltheorie Anknüpfungspunkte zu finden sind. Bereits am Beginn der modernen Idee von Stil im Singular im 18. Jahrhundert, die sich von der rhetorischen Vorstellung des erlernbaren Verfügens über eine bestimmte Anzahl klar umgrenzter Stile zugunsten von Stil als eigentümlicher Signatur abkehrt, wird Stil auf Merkmale zurückgeführt, in denen sich Individuelles und Allgemeines kreuzen. Goethe stellt „Styl“ als (erstrebenswerte) mittlere Haltung zwischen einfache „Nachahmung“ und subjektivistische „Manier“ und geht davon aus, „daß eine in die andere sich zart verlaufen kann“^{Footnote 45}. Simmels „Stil des Lebens“^{Footnote 46} und Bourdieus „Habitus“^{Footnote 47} bezeichnen das Zusammenspiel von Mimesis und Distinktion in einer modernen Welt, in der individueller Stil nie nur die Signatur des Individuums trägt. Auf den Autorstil angewandt plausibilisiert das die Idee vom Autorsignal als charakteristischer Funktionswörterfrequenz und zeigt zugleich, wie man sie weiterdenken könnte: in Richtung auf eine je spezifische Interferenz von und mit Signalen der Gattung, der Epoche, des Zyklus (z. B. von Textsammlungen oder Periodika) usw.

Solche Überlegungen verdeutlichen, dass die unbedingt zu realisierende Verschiedenheit hermeneutischer und statistischer Methoden in der Praxis von Untersuchungen innerhalb der Literaturwissenschaft vor dem Hintergrund nicht einfach gemeinsamer, aber doch vermittelbarer systematischer Probleme steht, die es wiederum lohnenswert erscheinen lassen, auch die Methoden wohlüberlegt zu kombinieren, wozu wir im Folgenden einen Vorschlag formulieren wollen.

Operationalisierung

Wir greifen dazu zunächst noch einmal auf Moretti zurück, der mit Thomas Kuhn unter dem Stichwort „Operationalisierung“ den systematischen Ort quantitativer Methoden bestimmt. Eine Fragestellung zu operationalisieren heißt, eine Brücke zu bauen von einem Konzept zu einem Messvorgang. Bezogen auf die Textanalyse führt die Quantifizierung dabei nicht vom Text über Daten zur Konstruktion von Theorien, sondern, wenn es denn klappt, geht der Weg der Untersuchung umgekehrt aus von Theorien und läuft über die aus deren Operationalisierung geschöpften Daten zurück zum Textproblem, das sich dadurch möglicherweise anders darstellt, als vor der Operationalisierung erwartet. In diesem Sinne jedenfalls betont Moretti (vielleicht etwas zu emphatisch und verallgemeinernd) den rekonzeptualisierenden Effekt quantitativer Untersuchungen, die zur kritischen Rückbesinnung auf das Tun und Lassen der Literaturwissenschaft überhaupt beitragen (sollen):

What I will say is that the leap from measurement to reconceptualization demonstrates how the unprecedented empirical power of digital tools and archives offers a unique chance to rethink the categories of literary study. Digital humanities may not yet have changed the territory of the literary historian or the reading of individual texts; but operationalizing has certainly changed, and radicalized, our relationship to concepts [...], because, if the data revolt against their creator, then the concept is really in trouble.^{Footnote 48}

Quantitative Verfahren stellen literaturwissenschaftliche Kategorien und Konzepte auf den Prüfstand, die, dessen ist sich Moretti bewusst, nicht für solche Verfahren entwickelt worden sind: „The trouble is, most literary concepts are emphatically not designed to be quantified; and the question then arises of what to do with them.“^{Footnote 49} Auf die Frage, was tun in dieser Situation, gibt es zwei, möglicherweise aber nicht notwendig in die gleiche Richtung weisende Antworten. Die für quantitative Verfahren erforderliche Exaktheit mag man grundsätzlich begrüßen, es ist aber gerade den in quantitativer Philologie Kundigen klar, dass die methodischen Zwänge, die solche Verfahren ohne Zweifel implizieren, nicht zum invarianten Paradigma taugen. Dies anzunehmen hieße vor allem, die rekonzeptualisierenden Effekte sowohl ‚erfolgreicher‘ als auch ‚misslingender‘ Operationalisierungen zu unterschätzen. So wenig man einerseits ein Konzept unverändert lassen muss, wenn die Ergebnisse quantitativer Erhebungen dauerhaft eine Modifikation nahelegen, so wenig kann man sich andererseits sicher sein, dass die Fehlerhaftigkeit des Konzepts die Ursache für die errechneten Daten darstellt. Dies gilt natürlich auch, wenn man meint, die Daten konsolidierten ein Konzept. Gerade traditionell rein verifikationsorientierte Hermeneutiker, die es gewohnt sind, für ihre Thesen Belege zu finden (und damit unweigerlich einem confirmation bias unterliegen, der nicht Passendes ausblendet), neigen dazu, zu beiden Seiten hin, ihre Ergebnisse zu überschätzen, insbesondere wenn die Visualisierung von Daten etwas zu ‚zeigen‘ scheint.

Was not tut, ist also nicht die Ablösung qualitativer durch quantitative Forschung in der Literaturwissenschaft, sondern ein je an der konkreten Fragestellung orientierter mixed methods-Ansatz, der sich bewusst darüber ist, welche Verfahren aus beiden Bereichen er einsetzt. Das klingt viel leichter, als es getan ist. Wie zum Trost können die Literaturwissenschaftler einen Blick auf andere Disziplinen riskieren, wo, etwa in der Politikwissenschaft oder Soziologie, oft ein lautes Schweigen zwischen den qualitativen und quantitativen Vertreterinnen des Fachs herrscht. Wenn es der Literaturwissenschaft gelingt, hier möglichst eine Vielzahl von Ansätzen zu entwickeln, wäre das nicht unbedingt eine Pionierleistung, aber doch ein sinnvoller Beitrag zu einem transdisziplinären methodischen Megaproblem.

Alle notwendige Skepsis in Rechnung gestellt, sind wir der Auffassung, dass sich dafür das folgende Basis-Schema bewähren kann (vgl. Abb. 1):

Man kann leicht sehen, dass dieses Schema Morettis zweitem Distanzkonzept recht nahe kommt. Allerdings gehen wir nicht vom distant reading operationalisierungsfähiger Sekundärliteratur aus wie die Weltliteraturforschung, sondern von der Primärtextlektüre, die den „second hand criticism“ der Forschung orientiert. Unserer Erfahrung nach hilft die Sekundärliteratur sowohl bei der Formulierung der Forschungsfrage als auch bei deren Operationalisierung. Dazu gehört auch die Entscheidung, ob die quantitative Untersuchung der ausgewählten Textmerkmale am Einzeltext, einer kleinen Textgruppe oder an zu erstellenden Korpora durchgeführt werden soll. So können etwa die Ergebnisse einer quantitativen Einzeltextanalyse durch den Abgleich mit den Daten aus einem Referenzkorpus (z. B. einer bestimmten Gattung innerhalb derselben oder einer angrenzenden Epoche) zusätzliche Signifikanz erhalten.

Integratives Konzept für mixed methods-Ansätze: Scalable Reading

In einem letzten Schritt möchten wir die Kombination von hermeneutischen und statistischen Verfahren in unserem Schema zum Anlass nehmen, die Dichotomie von close und distant reading zu verabschieden. Sie hat ihr paradigmatisches Provokationspotenzial erschöpft und bildet inzwischen weder die Forschungsrichtungen innerhalb der Digitial Humanities noch die literaturwissenschaftlichen Ansätze, die entsprechende Methoden aufgreifen, angemessen ab. Beide verlangen nach integrativen Konzepten.

In der digitalen Literaturwissenschaft können wir momentan neben zahlreichen Annotationsprojekten im Spektrum zwischen hermeneutischem Protokoll und statistischer Auswertung und dem semantischen Topic Modeling als einem noch sehr jungen Bereich zwei bereits etablierte Ansätze erkennen: Stilometrie und Netzwerkmodellierung. Die digitale Stilometrie setzt mittels statistischer Rechenoperationen zwei oder mehrere Texte ins Verhältnis und ermittelt auf diese Weise auf Grundlage der Frequenz stilistischer Merkmale die relative Ähnlichkeit oder Differenz von Texten^{Footnote 50}. Die Ergebnisse der Stilometrie werden in Matrizen erfasst, die wiederum Grundlage für verschiedene Visualisierungsmöglichkeiten sind. Wichtig erscheint uns hier, dass ein solches Vorgehen zwar technisch sehr gut beschreibbar und nachvollziehbar ist, sich aber immer fragen lassen muss, ob die Interpretation der Ergebnisse nicht nachträglich plausibilisiert, was zuvor nicht nachgewiesen wurde. So bleibt Schöch zurecht skeptisch, wenn die Visualisierung bestimmter Wortartfrequenzen vermeintlich klar ‚zeigt‘, wie Autorschafts- und Gattungssignale entstehen und sich zueinander verhalten^{Footnote 51}. Die unvermeidlich verifikationsorientierte Methode der hermeneutischen Lektüre muss, wenn statistische Methoden einbezogen werden, um Verfahren der kritischen Datenauswertung ergänzt werden, die sich von diesem Denkstil unterscheiden. Wer Daten nur in das uns vertraute Streben nach Verifikation einbezieht, wird höchstens zufällig zu belastbaren Ergebnissen gelangen. Literatur verlangt „langsames Denken“^{Footnote 52}, was methodisch bedeutet, viele fruchtlose Anläufe in Kauf zu nehmen, Gegenhypothesen zu testen und die eigene These immer nur vorläufig für bewährt zu halten.

Der Stilometrie steht ein Umgang mit Texten gegenüber, der versucht, von der Ebene der linguistischen Textmerkmale zu abstrahieren, um literarische Texte nach strukturellen Merkmalen zu modellieren, die sich gleichfalls quantifizieren lassen. Ein prominentes Beispiel für solch ein Vorgehen ist die Modellierung der Figurenkonstellation in Dramentexten.^{Footnote 53} Dazu werden Auftritte von Figuren, gemeinsame Auftritte, direkte oder indirekte Verbindungen, deren Richtungssinn und andere mögliche Merkmale zunächst in Daten-Matrizen erfasst und dann visualisiert. In methodischer Hinsicht weicht dieses Vorgehen in entscheidender Hinsicht von den Verfahren der rein statistischen Textanalyse ab. Anstatt mit den Textmerkmalen selbst zu arbeiten, wird in einer solchen Herangehensweise der literarische Text in einer Modellierung als Erkenntnisobjekt rekonstituiert, sodass der Analysegegenstand nicht mehr identisch mit dem Text als Zeichenfolge ist. Erkenntnisse können dadurch gewonnen werden, dass man die Netzwerkmodelle, die sich aus den jeweils einbezogenen Merkmalen ergeben, ineinander umformt. Ein Modell, das nur die Verbindungen der Figuren darstellt, liefert andere Erkenntnisse als eines, das auch die Gewichtung der Verbindungen (Anzahl der gemeinsamen Auftritte, Redeanteile und Gerichtetheit der Rede) einbezieht. Je nachdem, ob die Forschungsfrage z. B. an Konnektivität oder an Zentralität interessiert ist, wird man die Modelle anreichern.

Zu einem Konzept, das nicht nur stilometrische Verfahren und Modellbildungen, sondern prinzipiell alle Akte des Lesens und Analysierens von Texten einbegreift, lässt sich der von Martin Mueller geprägte Begriff des „scalable reading“^{Footnote 54} ausbauen. So wie Barthes einst die „strukturalistische Tätigkeit“ als Herstellung und Analyse von „Simulacren“ des Textes bestimmte, die im Doppelschritt von Zerlegung in basale Einheiten und Remodellierung etwas zum Vorschein bringt, das „im natürlichen Objekt unsichtbar“^{Footnote 55} bliebe, so arbeitet das scalable reading mit „Surrogaten“ des Textes innerhalb einer weiten scale medialer Formen und analytischer Aufbereitungen. Das reicht vom analogen Textdruck über digitalisierte Textkorpora bis hin zu digitalen Surrogaten, die auf der Grundlage von Worthäufigkeitslisten z‑score-Matrizen und delta scores ermitteln oder den Fließtext in ein bag of words umwandeln, um ihn modellieren zu können. Die Vorstellung dieser weiten scale von Surrogaten kann davon ausgehen, dass uns so gut wie alle Texte, die uns als materielle Grundlage für verstehendes Lesen dienen, in anderer als der ursprünglichen Produktionsform vorliegen. Wer die Oxford-Klassiker-Ausgabe der Odyssee liest (so Muellers Beispiel), ist im Grunde bereits ein distant reader der Gesänge, die Homer zugeschrieben worden sind. Und gerade der distant reader im herkömmlichen Verständnis, der mit digitalen Analysen Daten und Visualisierungen erzeugt, muss diese verstehen und interpretieren. „Scalable Reading“ bedeutet indes nicht (nur), dass sich close und distant reading methodisch durchdringen (diese Analogie verführt womöglich dazu, die Unterschiede zwischen Text- und Daten-Interpretation zu unterschätzen), sie steht für ein integriertes Verständnis aller Akte des Lesens und der Analyse.

Wie jedes Konzept kann sich ‚Scalable Reading‘ nur in konkreten Forschungsvorhaben bewähren, wobei klar ist, welche Art von Projekt sich dafür zunächst anbietet. Es sind die mittelgroßen Korpora, an denen sich die je spezifischen Erkenntnismöglichkeiten (query potentials) der Textsurrogate in hermeneutischen Textlektüren, statistischen Einzeltext- und Korpusanalysen, in Netzwerksimulationen und anderen Modellbildungen auf ihre Synergien hin in Betrieb nehmen und beobachten lassen. In Frage kommen dafür z. B. in der Forschung bislang fast vollkommen ausgeblendete Textsammlungen wie die Novellenschätze des 19. Jahrhunderts, in denen viele kanonische Einzeltexte stecken, ohne dass die kanonisch wirkende Sammlung als solche je hätte mit den angemessenen Mitteln untersucht werden können. Ein grundsätzlicher systematischer Vorteil des scalable reading liegt darin, dass dort ein Kontinuum von qualitativen und quantitativen Methoden denkbar wird^{Footnote 56}, wo bislang das Verständnis von ‚traditioneller Hermeneutik‘ auf der einen und ‚neuen Analysetechniken‘ auf der anderen Seite allen gegenteiligen Beteuerungen zum Trotz an produktiven Verbindungen nicht wirklich interessiert gewesen ist.

Notes

Snow, C. P.: „The Two Cultures“, in: Ders.: The two Cultures and the scientific Revolution. New York 1961, S 1‑22, S. 4.
Es sei an dieser Stelle darauf hingewiesen, dass der Begriff der Digital Humanities neben statistischen Erhebungen in den Literaturwissenschaften eine Vielzahl weiterer Verwendungen computergestützter Verfahren in den Geisteswissenschaften bezeichnet. Vgl. dazu u. a. Schreibman, Susan/Siemens, Ray/Unsworth, John (Hg.): A Companion to Digital Humanities. Oxford 2004, http://digitalhumanities.org/companion/(21.10.2015) und Lauer, Gerhard: „Die Vermessung der Kultur. Geisteswissenschaften als Digital Humanities“, in: Heinrich Geiselberger/Tobias Moorstedt (Hg.): Big Data. Das neue Versprechen der Allwissenheit. Berlin 2013, S. 99–116.
Vgl. für eine Darstellung der Geschichte quantitativer Methoden in der Slawistik Kelih, Emmerich: Geschichte der Anwendung quantitativer Verfahren in der russischen Sprach- und Literaturwissenschaft, Hamburg 2008.
Moretti, Franco: Graphs, Maps, Trees. Abstract Models for Literary History. London/New York 2007, S. 4.
Vgl. ebd., S. 76.
Vgl. Jannidis, Fotis/Lauer, Gerhard/Rapp, Andrea: „Hohe Romane und blaue Bibliotheken. Zum Forschungsprogramm einer computergestützten Buch- und Narratologiegeschichte des Romans in Deutschland (1500–1900)“, in: Michael Stolz/Lucas Marco Gisi/Jan Loop (Hg.): Literatur und Literaturwissenschaft auf dem Weg zu den neuen Medien. Eine Standortbestimmung. Zürich 2007, S. 29–43.
Jockers, Matthew L.: Macroanalysis. Digital Methods and Literary History. Urbana/Chicago/Springfield 2013, S. 8.
Moretti, Franco: „Conjectures on World Literature”. In: New Left Review 1 (2000), S. 54–68, S. 61.
Ebd., S. 57.
Glesener, Jeanne: „On Small Literatures and their Location in World Literature: A Case of Study of Luxembourgish Literature“. In: Interlitteraria 17 (2012), S. 75–92, S. 82, Hervorhebung von uns, T.W./T.G./N.K.
Vgl. Jockers (wie Anm. 7), S. 19.
Vgl. Moretti, Franco: Operationalizing: or, the Function of Measurement in Modern Literary Theory. In: http://litlab.stanford.edu/LiteraryLabPamphlet6.pdf (21.10.2015).
Vgl. Baßler, Moritz: „Zeichen auf der Kippe. Aporien des Spätrealismus und die Routines der Frühen Moderne“, in: Ders. (Hg.): Entsagung und Routines. Aporien des Spätrealismus und die Verfahren der frühen Moderne. Berlin 2013, S. 3–21.
Vgl. Titzmann, Michael: „‚Grenzziehung’ vs. ‚Grenztilgung’. Zu einer fundamentalen Differenz der Literatursysteme ‚Realismus’ und ‚Frühe Moderne’“, in: Hans Krah/Claus-Michael Ort (Hg.): Weltentwürfe in Literatur und Medien. Phantastische Wirklichkeiten – Realistische Imaginationen. Kiel 2002, S. 181–209.
Vgl. Makropoulos, Michael: „Modernität als Kontingenzkultur. Konturen eines Konzepts“, in: Gerhart von Graevenitz/Odo Marquard (Hg.): Kontingenz. München 1998, S. 55–79.
Moretti, Franco: Network Theory, Plot Analysis. In: http://litlab.stanford.edu/LiteraryLabPamphlet2.pdf. (21.10.2015).
Tally, Robert T.: „Review of Franco Moretti’s Graphs, Maps, Trees: Abstract Models for a Literary History“. In: MLQ 68.1 (2007), S. 132–135, S. 132.
Moretti (wie Anm. 8), S. 61.
Moretti (wie Anm. 16), S. 5.
Vgl. Granovetter, Mark S.: „The Strength of Weak Ties: A Network Theory Revisited“. In: Sociological Theory 1 (1983), S. 201–233, und Granovetter, Mark S.: „The Strength of Weak Ties“. In: American Journal of Sociology 78 (1973), S. 1360–1380.
Schöch, Christof: „Corneille, Molière et les autres. Stilometrische Analysen zu Autorschaft und Gattungszugehörigkeit im französischen Theater der Klassik“, in: Christof Schöch/Lars Schneider (Hg.): Literaturwissenschaft im digitalen Medienwandel, Philologie im Netz, Beiheft 7 (2014), S. 130–157, http://web.fu-berlin.de/phin/beiheft7/b7t08.pdf (21.10.2015), S. 130.
Vgl. Jockers (wie Anm. 7).
Christof Schöch weist in seiner Arbeit zu Recht darauf hin, dass Überlegungen zu einer quantitativen Stilanalyse bereits vor der Einführung des Computers nachweisbar sind.
Schöch (wie Anm. 21), S 133.
Vgl. ebd. sowie Kestemont, Mike/Moens, Sara/Deploige, Jeroen: „Collaborative Authorship in the Twelfth Century. A Stylometric Study of Hildegard of Bingen and Guibert of Gembloux“. In: Digital Scholarship in the Humanities 30 (2015), S. 199–224, und Koppel, Moshe/Schler, Jonathan/Argamon, Shlomo: „Computational methods in authorship attribution“. In: JASIST 60.1 (2009), S. 9–26.
Stilometrische Analysen verwenden heute meist das nach John Burrow benannte Burrows’ Delta. Hierbei wird für ein Textkorpus eine Häufigkeitstabelle angelegt, wobei dann für die häufigsten Wörter (Burrows untersucht die 30 häufigsten Wörter) die relative Häufigkeit in den Texten des Korpus ermittelt wird. Ausgehend von dieser relativen Häufigkeit wird der sogenannte z-score gebildet. Die z-scores zweier Texte werden über den sogenannten delta score miteinander verglichen, um Ähnlichkeit beziehungsweise Verschiedenheit zwischen ihnen zu untersuchen. Vgl. Burrows, J. F.: „’Delta’: A Measure of Stylistic Difference and a Guide to Likely Authorship“. In: LLC 17 (2002), S. 267–287, Jannidis, Fotis: „Der Autor ganz nah – Autorstil in Stilistik und Stilometrie“, in: Matthias Schaffrick/Marcus Willand (Hg.): Theorien und Praktiken der Autorschaft. Berlin 2014, S. 169–195, S. 184 f., und Jannidis, Fotis/Lauer, Gerhard: „Burrow’s Delta and its Use in German Literary History“, in: Matt Erlin/Lynne Tatlock (Hg.): Distant Reading. Topologies of German Culture in the Long Nineteenth Century. Rochester 2014, S. 29–54.
Koppel/Schler/Argamon (wie Anm. 25), S. 11.
Dimpel, Friedrich Michael: „Textstatistische Analysen an mittelhochdeutschen Texten“. In: Jahrbuch für Computerphilologie 6 (2004), http://www.computerphilologie.uni-muenchen.de/jg04/dimpel.html (21.10.2015).
Auch Fotis Jannidis spricht von „Wissensdefiziten in Bezug auf diesen Begriff [Begriff des (Autor-)Stils, T.W./T.G./N.K.] in der Stilometrie“ (vgl. Jannidis 2014 (wie Anm. 26), S. 172).
Millic, Louis T.: „Progress in Stylistics: Theory, Statistics, Computers“. In: CHum 25 (1991), S. 393–400, S. 393.
Ebd., S. 393.
Die metaphorische Verwendung des aus der Kriminalistik entnommen Begriffs des Fingerabdrucks ist in der Stilometrie weit verbreitet und eng mit dem Konzept der authorship attribution verknüpft – vgl. z. B. Keim, Daniel A./Oelke, Daniela: „Literature fingerprinting: A New Method for Visual Literary Analysis“. In: Proceedings of the IEEE Symposium on Visual Analytics, Science and Technology (2007), S. 115–122. –, wird inzwischen jedoch kritisiert (vgl. etwa Jannidis 2014 (wie Anm. 26), S. 183).
Fucks, Wilhelm: Nach allen Regeln der Kunst. Diagnosen über Literatur, Musik, bildende Kunst – die Werke, ihre Autoren und Schöpfer. Stuttgart 1968, S. 97.
Ebd., S. 97 f.
Jannidis 2014 (wie Anm. 26), S. 171 f.
Ebd., S. 180.
Ebd., S. 189.
Ebd., S. 182: „Auch wenn man nicht genau weiß, wieso Häufigkeitswörterlisten so gute Stellvertreter für Texte sind, insbesondere auch im Rahmen der Autorschaftsattribution, kann man festhalten, dass die positiven Resultate von stilometrischen Verfahren zu den Erfolgsgeschichten der Digital Humanities gehören.“ Außerdem Jannidis/Lauer 2014 (wie Anm. 26), S. 50: „It would be important to know more about the link between psychology, word use and stylometry“.
Jannidis 2014 (wie Anm. 26), S. 175.
Dimpel (wie Anm. 28) untersucht beispielsweise Wort-, Zeilen- und Satzlängen, Satzzeichen, Vokal- und Konsonantenverteilung, Funktionswörter, Alliterationen, Assonanzen, Enjambements, Wortendungen, Wortwiederholungen, lexikalischen Variation, Modalverben sowie Worthäufigkeiten. Keim/Oelke (wie Anm. 31) konzentrieren sich ‚lediglich’ auf Funktionswörter, Satzlänge, Hapex legomena und dislegomena sowie den Simpson-Index zur Analyse von Diversität.
Jannidis 2014 (wie Anm. 26), S. 175.
Jannidis 2014 (wie Anm. 26), S. 176 unterscheidet in diesem Zusammenhang zwischen a) einer durchführbaren Stilanalyse im Sinne einer authorship attribution, deren Ziel es ist, Ähnlichkeit zwischen einem Text mit ungewisser Autorschaft und Texten eines Autoren in Abgrenzung zu weiteren Autoren festzustellen, und b) einer nicht realisierbaren, umfassenden – d. h. vollständigen – und vergleichsunabhängigen beziehungsweise stabilen Autorstiluntersuchung.
Porsdam, Hellen: „Working at the Intersection of the Humanities, Law and Technology: Digital Humanities and the ‚Two Cultures’“. In: Pólemos 8.1 (2014), S. 71–93, S. 72.
Moretti (wie Anm. 13), S. 13.
Jannidis 2014 (wie Anm. 26), S. 190.
Goethe, Johann Wolfgang von: „Einfache Nachahmung der Natur, Manier, Styl“. In: Ders.: Sämtliche Werke nach Epochen seines Schaffens. Münchner Ausgabe, Hg. Hans J. Becker u. a. München 1990, Bd. 3.2, S. 101–166, S. 189.
Simmel, Georg: „Stil des Lebens“. In: Ders.: Philosophie des Geldes. In: Ders.: Gesamtausgabe. Hg. David P. Frisby/Klaus Christian Köhnke. Frankfurt a. M. 1989, Bd. 6, S. 591–716.
Bourdieu, Pierre: Die feinen Unterschiede. Eine Kritik der gesellschaftlichen Urteilskraft, Frankfurt a. M. 1982.
Moretti (wie Anm. 13), S. 13.
Ebd., S. 9.
Diese Form der Stilometrie nutzt als Grundlage für ihre Textstatistiken die Oberflächenstruktur des Texts selbst. Obwohl das weitverbreitete package „stylo“, das innerhalb der Entwicklungsumgebung von R das Durchführen mehrerer stilometrischer Operationen ermöglicht, allein auf Basis von Wortlisten (most frequent words) arbeitet, steht es dem Literaturwissenschaftler prinzipiell offen, welche stilistischen features zum Vergleich ausgewählt werden sollen. Entsprechend annotierte Korpora ermöglichen neben der Berücksichtigung von Wortfrequenzen auch den Vergleich von Texten hinsichtlich der Frequenz von grammatikalischen Kategorien (Vgl. Schöch (wie Anm. 21), S. 134 f.). Auch Annotationen nach grammatikalischen Kategorien sind insofern zur Textoberfläche zu zählen, als durch sie nur Informationen des Wortes und der Satzstruktur selbst maschinenlesbar gemacht werden.
Vgl. Schöch (wie Anm. 21), S. 148 f.
Vgl. Kahnemann, Daniel: Schnelles Denken, langsames Denken. München 2011, und Weitin, Thomas: „Heuristik des Wartens. Literatur lesen unter dem Eindruck von big data”, in: Julia Kerscher/Xenia Wotschal/Daniel Kazmaier (Hg.): Warten als Kulturmuster. Würzburg 2015.
Vgl. insb. Peer Trilckes Vorschlag der literaturwissenschaftlichen Netzwerkanalyse („liNa”), die verschiedene Kennzahlen zur quantitativen Erfassung der Struktureigenschaften von Netzwerken berücksichtigt, Trilcke, Peer (2013): „Social Network Analysis (SNA) als Methode einer textempirischen Literaturwissenschaft“. In: Philip Ajouri/Katja Mellmann/Christoph Rauen (Hg.): Empirie in der Literaturwissenschaft. Münster 2013, S. 201–247.
Vgl. Mueller, Martin: Morgenstern’s Spectacles or the Importance of Not-Reading. In: https://scalablereading.northwestern.edu/2013/01/21/morgensterns-spectacles-or-the-importance-of-not-reading/ (21.10.2015).
Barthes, Roland: „Die strukturalistische Tätigkeit“. In: Kursbuch 5 (1966), S. 190–196, S. 191.
Vgl. Jannidis/Lauer 2014 (wie Anm. 26), S. 31.

Author information

Authors and Affiliations

Fachbereich Sprach- und Literaturwissenschaft, Technische Universität Darmstadt, Darmstadt, Deutschland
Thomas Weitin, Thomas Gilli & Nico Kunkel

Authors

Thomas Weitin
View author publications
You can also search for this author in PubMed Google Scholar
Thomas Gilli
View author publications
You can also search for this author in PubMed Google Scholar
Nico Kunkel
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Thomas Weitin.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Weitin, T., Gilli, T. & Kunkel, N. Auslegen und Ausrechnen. LiLi 46, 103–115 (2016). https://doi.org/10.1007/s41244-016-0004-8

Download citation

Published: 06 April 2016
Issue Date: March 2016
DOI: https://doi.org/10.1007/s41244-016-0004-8

Schlüsselwörter

Keywords