Oh, those are mathematicians! We never talk to them.Footnote 1

Die seit einigen Jahren in den Literaturwissenschaften unter dem Stichwort der Digital Humanities Footnote 2 zu beobachtende Renaissance quantitativer VerfahrenFootnote 3 zur Textanalyse, Literaturgeschichtsschreibung oder ‚Stilmessung‘ wirft eine Reihe methodischer Fragen auf und nötigt nicht nur diese Geisteswissenschaft, sich systematisch mit den Berührungspunkten zwischen Hermeneutik und Statistik auseinanderzusetzen. Texte werden heute nach linguistischen und literaturwissenschaftlichen Gesichtspunkten annotiert, Textelemente statistisch erfasst und visualisiert, Autor- oder Gattungsstil durch die Erfassung von Worthäufigkeiten in einem Text in Relation zu anderen Texten gemessen. Entsprechende Studien operieren mit unterschiedlichen Neigungen innerhalb eines methodischen Spektrums zwischen Texthermeneutik und Statistik, die dadurch auf vielfältige Weise in Beziehung treten.

Unsere Untersuchung nimmt dieses Verhältnis zwischen hermeneutischen und quantitativen Verfahren in den Literaturwissenschaften in den Blick und eruiert mögliche Synergien. Uns interessiert die Frage nach einem mixed methods-Verfahren hermeneutisch-statistischer Textanalyse, weshalb im Anschluss an die methodologische Erörterung verschiedener Studien ein Vorschlag in diese Richtung formuliert werden soll.

From a Distance: Literaturgeschichte als Analyse zweiter Ordnung

Der im Kontext der Digital Humanities zum geflügelten Wort für quantitative Analysen gewordene Begriff des distant reading ist von seinem Schöpfer Franco Moretti (den Missverständnissen zum Trotz, die er durch manche polemische Überreizung erzeugt hat) als Ergänzung zu den close readings hermeneutischer Einzeltextlektüren geprägt worden, wobei er vor allem die als traditionell anzusehende Frage im Sinn hatte, wie sich einzelne Lektürebefunde literaturgeschichtlich verallgemeinern lassen. Der globale Boom bei der Digitalisierung literarischer Texte hat the big unread auf den Schirm systematischer Überlegungen gebracht und im Falle Morettis zum leidenschaftlichen Plädoyer für eine „more rational literary history“Footnote 4 geführt, die Texte zwar weiterhin als die Grundelemente der Literatur, nicht aber als die eigentlichen Objekte der Literaturgeschichte verstehen willFootnote 5. Der provokante Leitbegriff des distant reading wendet sich gegen die Kanonisierungseffekte einer kleinen Zahl von Texten, die im akademischen close reading als Vertreter einer Epoche, einer Gattung oder ihrer leichten Verträglichkeit mit bestimmten Theorien wegen hermeneutisch strapaziert werden. Er kritisiert die oft unbedachte Formulierung weitreichender Thesen aus einzelnen Lektüren heraus, die sich nicht einmal bewusst ist, wie viele ungelesene Texte sie mit ihrer Fokussierung ausblendet. Anstelle der bloßen Lektüre kanonischer Werke plädiert Moretti für Untersuchungen auf der Basis des verfügbaren Buchangebots des jeweiligen Zeitraums, das sich nur quantitativ verarbeiten lässt. Anstatt nur durch immer neue Beobachtungen an denselben altbekannten Texten originell zu sein, setzt diese Herangehensweise die Arbeit mit statistisch hinreichenden Korpora voraus, um zu belast- und überprüfbaren Aussagen und Argumenten zu gelangenFootnote 6.

Dieses Verfahren, das bislang in den weitaus meisten Studien bereits Bekanntes konsolidiert und mithin als Methode, nicht aber im Ergebnis originell ist, steht quer zur großen Mehrheit der qualitativen Denkstile in der Literaturwissenschaft; und womöglich deshalb operiert die Moretti-Schule mit methodischen Kampfbegriffen, die diese Denkstile auf eine Weise diskreditieren, die ebenso originell und unscharf ist wie der wissenschaftliche Habitus, den sie aufs Korn nimmt. Wer nicht aufpasst, der wird dadurch in die Irre geführt. Wenn etwa Matthew Jockers mit euphorischer big data-Rhetorik die close reading-Tradition für ihre „anecdotal evidence“Footnote 7 bloßzustellen versucht, täuscht er zumindest teilweise über die tatsächlichen Grundlagen und den Bezugspunkt von Morettis distant reading hinweg. Moretti fordert keineswegs die glatte Abkehr vom close reading als Methode der Textanalyse, sondern die Einführung des distant reading in die Literaturgeschichtsschreibung gerade auf der Basis der professionellen Lektüren anderer. Gegenstände der Literaturgeschichtsschreibung im Sinne des distant reading sollen literaturwissenschaftliche Studien sein: Distant reading ist „‚second-hand‘ criticism“Footnote 8, also eine Literaturanalyse zweiter Ordnung, und in dieser Form „a patchwork of other people’s research, without a single direct textual reading“Footnote 9.

Moretti steht also nicht „for a method of distant reading (as opposed to close reading) and for abandoning detailed microreadingFootnote 10, sondern er hat die Verbindung von Einzeltextlektüren und statistischen Methoden im Blick, wobei unter der „Distanz“ des distant reading im Laufe der Entwicklung ganz unterschiedliche Perspektiven und Techniken verstanden werden, so als bewege sich Moretti seinen Kritikern gegenüber als moving target. Nach unserem Verständnis lassen sich (bislang) drei Distanz-Konzepte unterscheiden: Die Analyse von „Weltliteratur“ verlangt schon aus Gründen beschränkter Sprachkompetenz den Rückgriff auf die Studien anderer zu bestimmten regionalen, nationalen oder kontinentalen Literaturen, um etwa Migrationsbewegungen von Gattungen in globaler Perspektive zu verfolgen (1). Die Distanz des ‚second hand criticisms‘ hat hier ihren systematischen Ort, an dem sich das too big to read-Argument, das gern für die quantitative Analyse großer Korpora ins Feld geführt wirdFootnote 11, in multiplizierter Form anlagert. Davon zu unterscheiden ist die Nutzung einschlägiger Sekundärliteratur zur „Operationalisierung“Footnote 12 von Fragestellungen für eine quantitative Analyse (2). Strukturale Textanalysen eignen sich dafür in der Regel gutFootnote 13, Hinweise auf sprachliche Epochen-, Gattungs- oder Stilmerkmale ebenso. Doch auch bestimmte literaturgeschichtlicheFootnote 14 und kulturtheoretischeFootnote 15 Studien zu Epochengrenzen oder Einzeltextanalysen zu strukturellen Gattungsfragen wie Figuren-Netzwerken im DramaFootnote 16 lassen sich so operationalisieren, dass ein distant reading aus dem close reading bzw. einer qualitativen literaturhistorischen Argumentation der Sekundärliteratur oder aus systematischen Überlegungen der Literaturtheorie hervorgeht. Dieses zweistufige Verfahren macht zwar nicht ohne Weiteres „extensive use of secondary sources to obtain data“Footnote 17, entnimmt aber der Forschung anderer Operationalisierungsideen, um dann computergestützt aus Texten Daten zu gewinnen, die wiederum der Interpretation bedürfen. Im Falle einer erfolgreichen Operationalisierung lassen sich mit diesem Distanzverfahren die entsprechenden Hypothesen der Sekundärliteratur natürlich auch testen – ohne dass man eine andere Lesart des Primärtextes dagegenhält:

This kind of ‘reading’, however, no longer produces interpretations but merely tests them: it’s not the beginning of the critical enterprise, but its appendix. And then, here you don’t really read the text anymore, but rather through the text, looking for your unit of analysis. The task is constrained from the start; it’s a reading without freedom.Footnote 18

Anhand von Netzwerktheorien hat Moretti Einsichten in eine aus der strukturalen Textanalyse bestens bekannte heuristische Distanzfunktion erneuert, die die Einsicht in die Funktion von Modellen betrifft (3). So führt er in einer einzeltextbasierten Hamlet-Analyse den Vorteil von Textmodellen gegenüber dem verstehenden Lesen vor. Indem die Modellierung den hermeneutischen Gehalt eines Textes fast vollkommen ausblendet, kann sie zeigen, was man als Leser im Text nicht realisieren kann. „[O]ne can intervene on a model; make experiments“Footnote 19. Niemand käme auf die Idee, sich Shakespeares Hamlet beim Lesen ohne Hamlet vorzustellen. Eine Netzwerksimulation hingegen kann dadurch die unterschiedliche Konnektivität innerhalb eines Figurennetzwerks ermitteln und an den weak und strong ties Footnote 20 ablesen, was die hermeneutische Unterscheidung von Haupt- und Nebenfiguren nicht lesbar machen kann. Die Rekonzeptualisierung solcher oft unreflektierter Zentralbegriffe kann eine willkommene literaturtheoretische Folge der Distanzbetrachtung sein.

Stilometrie – Methode ohne Theorie?

Als „‚distant reading’ strategy“Footnote 21 oder „Macroanalysis“Footnote 22 am weitesten verselbständigt haben sich bislang stilometrische Analysen, die methodisch scheinbar ohne eine hermeneutische Textlektüre auskommen, da sie Texte rein statistisch erfassen und ihr Verhältnis zueinander aufgrund von Textmerkmalen berechnen. Die Stilometrie setzt den Stil eines Textes, einer Gattung oder eines Autors als (relativ) messbare Größe voraus. Innerhalb der scientific community der Digital Humanities umfasst sie „computergestützteFootnote 23 Verfahren der Erhebung stilistischer Merkmale und ihrer Häufigkeiten in Texten, sowie der Nutzung dieser Merkmale und Häufigkeiten für die Klassifikation von Texten“Footnote 24.

Ein mögliches und in der Stilometrie häufig untersuchtes TextmerkmalFootnote 25 sind Funktionswörter beziehungsweise ihre Häufigkeit in einem Text im Vergleich zu den Häufigkeiten in anderen TextenFootnote 26. Dieses Vorgehen basiert auf der Annahme, dass sich Funktionswörter aufgrund zweier charakteristischer Eigenschaften besonders für eine Stilmessung eignen:

The reason for using FWs [function words; T.W./T.G./N.K.] in preference to others is that we do not expect their frequencies to vary greatly with the topic of the text, and hence, we may hope to recognize texts by the same author on different topics. It also is unlikely that the frequency of FW use can be consciously controlledFootnote 27.

Wie Friedrich Michael Dimpel jedoch unter Rückgriff auf eine Arbeit von Louis T. Milic bemerkt, leidet die Stilometrie unter ihren „unzureichenden theoretischen Grundlagen“Footnote 28. Notwendig wäre eine „intellectual structure that relates its phenomena to each other and explains the significance of data“Footnote 29. Dafür freilich müsste zunächst eine ganze Reihe präliminarischer Fragen geklärt werden: „is there such a thing as style and where is it located? Does an individual have a unique style which is different from that of others? Is this acquired by practice, by will, or by some other circumstance? If it is unique, does it stay that way or does it change?“Footnote 30

Schon in den 1960er-Jahren hat Wilhelm Fucks auf das theoretische Defizit der Stilometrie hingewiesen. Mit seinem Vorgehen bei der Messung von Textmerkmalen kann er als Vorläufer der modernen Stilometrie gelten. Fucks suchte nach einem Fingerabdruck literarischer AutorenFootnote 31 und musste erkennen, „daß man in den Texten nicht so leicht etwas findet, das die Rolle des Fingerabdrucks in der Kriminalistik spielen könnte.“Footnote 32. Er formuliert drei Voraussetzungen, die erfüllt sein müssten, um von einem Fingerabdruck beziehungsweise von einem Autorsignal sprechen zu können:

Erstens müßten sie während des ganzen Lebens eines Autors so unveränderlich sein wie beim Menschen der Fingerabdruck; zweitens müßte sich der literarische Fingerabdruck jedes Autor von dem jedes anderen Autors unmißverständlich unterscheiden; und drittens müßte er leicht bestimmbar sein.Footnote 33

Die leichte Bestimmbarkeit ist sicher ein zu relatives Kriterium, mit den beiden anderen Bedingungen sind dagegen Herausforderungen formuliert, zu denen sich die Stilometrie verhalten muss. Fotis Jannidis reagiert darauf, indem er systematisch zwischen einer starken und einer schwachen These des Autorstils unterscheidet: „In ihrer starken Variante würde sie lauten: Alle Texte eines Autors, also unabhängig von der Gattung, dem Alter des Autors und anderen Faktoren, weisen einen einheitlichen Stil auf. In ihrer schwächeren Variante würde sie lauten: Mehrere Texte eines Autors weisen einen einheitlichen Stil auf.“Footnote 34

Der „größere Teil der stilometrischen Forschung“ arbeitet mit diesem schwachen Begriff von Autorstil und kontrolliert den „zentrale[n] Einfluss anderer Variablen, insbesondere der Gattung, aber auch der Lebenszeit auf die Verteilung der linguistischen Merkmale“ durch „eine sorgsame Auswahl der Vergleichstexte“Footnote 35.

Die Einmaligkeit suggerierende Vorstellung eines literarischen Fingerabdrucks ist literaturtheoretisch diskussionswürdig. Methodisch bringt sie unerfüllbare Anforderungen mit sich, weshalb sich die Stilometrie von der Idee des Autorstils als absoluter Größe, die durch die statistische Textanalyse zu ermitteln ist, verabschiedet hat. Inzwischen arbeitet man stattdessen mit dem Konzept eines relativ ermittelbaren Autorsignals, das „sich nicht exklusiv auf spezifische Merkmale zurückführen lässt, sondern nur in spezifischen Textkonstellationen aufgrund von spezifischen Merkmalskonstellationen in der Unterscheidung aufscheint.“Footnote 36

Doch auch bei der relativen Bestimmung des Autorstils stellt sich die Frage nach dem Verhältnis von beobachteten Merkmalen beziehungsweise ihren Verteilungen und der Idee eines für einen Autor spezifischen Stils. Es ist bisher noch keine Theorie bekannt, die den Zusammenhang zwischen hochfrequenten (Funktions-)Wörtern und Autorstil sowie die in der Stilometrie angenommene unbewusste Verwendung dieser Wörter durch den Autor erklären kannFootnote 37. Diese theoretische Leerstelle zwingt die Literaturwissenschaft zwar nicht zur Abkehr von den in vielen Einzelstudien mit vielversprechendem Ergebnis angewandten Methoden der Stilometrie, sie sollte jedoch gefüllt werden, um den Ergebnissen Gewicht zu verleihen.

Zieht man auf der Suche nach einer Theorie des Autorstils hermeneutische Verfahren der Stilbestimmung zu Rate, findet sich in der Stilistik das Konzept von Stil als „Gestaltphänomen“Footnote 38, welches impliziert, dass eine ganzheitliche Analyse des Autorstils nicht durch die Untersuchung verschiedener Merkmale oder Stilebenen beziehungsweise durch die Summe dieser Einzeluntersuchungen möglich ist. Das sich daraus ergebende Problem – die Frage einer geeigneten Methode zur Stilanalyse – besteht jedoch nicht nur in der hermeneutischen Stilistik, sondern auch in der quantitativen Stilometrie: Selbst Arbeiten, die Stil quantitativ untersuchen und dabei als multivariantes Phänomen begreifenFootnote 39, können nicht von sich behaupten, eine ganzheitliche Stiluntersuchung im Sinne eines gestalthaften holistischen Autorstils zu leisten. Beide Forschungstraditionen – Stilistik und Stilometrie – sehen sich deshalb mit derselben Fragestellung konfrontiert: „Wie analysiert man Stil, wenn nicht über die einzelnen stilistischen Merkmale? Und wenn man ihn mittels einzelner Merkmale analysiert, wie gelangt man dann zu dem die Bausteine übersteigenden Ganzen?“Footnote 40

Die Antwortet auf diese Frage scheint so simpel wie folgenschwer: gar nichtFootnote 41. Um die Untersuchung von Stil – durch hermeneutische oder quantitative Verfahren  – realisierbar zu machen, muss man sich auf bestimmte Textmerkmale als Einheiten von Stilebenen konzentrieren und die Idee eines gestalthaften Stils zugunsten eines weniger ambitionierten, dafür aber operationalisierbaren Stilbegriffs aufgeben.

In solcher Lage wird deutlich, dass der „methodological moment“, den die Digital Humanities der Literaturwissenschaft bescheren, keineswegs ein „post-theoretical age“Footnote 42 einläutet. Die durch die Notwendigkeiten der Operationalisierung strengen Methodenfragen stellen auch theoretische Herausforderungen dar, die nicht in jedem Fall begriffliche Rekonzeptualisierung im Sinne Morettis verlangenFootnote 43, aber doch dazu nötigen, die Theoriebestände des Fachs neu zu sichten. Ist „im Kontext der Stilometrie erst deutlich geworden, was wir nicht wissen“Footnote 44, lassen methodische Entscheidungen wie die, den literarischen Fingerabdruck als Leitvorstellung zu verwerfen, zugleich deutlich werden, wo auf dem Feld auch der historischen Stiltheorie Anknüpfungspunkte zu finden sind. Bereits am Beginn der modernen Idee von Stil im Singular im 18. Jahrhundert, die sich von der rhetorischen Vorstellung des erlernbaren Verfügens über eine bestimmte Anzahl klar umgrenzter Stile zugunsten von Stil als eigentümlicher Signatur abkehrt, wird Stil auf Merkmale zurückgeführt, in denen sich Individuelles und Allgemeines kreuzen. Goethe stellt „Styl“ als (erstrebenswerte) mittlere Haltung zwischen einfache „Nachahmung“ und subjektivistische „Manier“ und geht davon aus, „daß eine in die andere sich zart verlaufen kann“Footnote 45. Simmels „Stil des Lebens“Footnote 46 und Bourdieus „Habitus“Footnote 47 bezeichnen das Zusammenspiel von Mimesis und Distinktion in einer modernen Welt, in der individueller Stil nie nur die Signatur des Individuums trägt. Auf den Autorstil angewandt plausibilisiert das die Idee vom Autorsignal als charakteristischer Funktionswörterfrequenz und zeigt zugleich, wie man sie weiterdenken könnte: in Richtung auf eine je spezifische Interferenz von und mit Signalen der Gattung, der Epoche, des Zyklus (z. B. von Textsammlungen oder Periodika) usw.

Solche Überlegungen verdeutlichen, dass die unbedingt zu realisierende Verschiedenheit hermeneutischer und statistischer Methoden in der Praxis von Untersuchungen innerhalb der Literaturwissenschaft vor dem Hintergrund nicht einfach gemeinsamer, aber doch vermittelbarer systematischer Probleme steht, die es wiederum lohnenswert erscheinen lassen, auch die Methoden wohlüberlegt zu kombinieren, wozu wir im Folgenden einen Vorschlag formulieren wollen.

Operationalisierung

Wir greifen dazu zunächst noch einmal auf Moretti zurück, der mit Thomas Kuhn unter dem Stichwort „Operationalisierung“ den systematischen Ort quantitativer Methoden bestimmt. Eine Fragestellung zu operationalisieren heißt, eine Brücke zu bauen von einem Konzept zu einem Messvorgang. Bezogen auf die Textanalyse führt die Quantifizierung dabei nicht vom Text über Daten zur Konstruktion von Theorien, sondern, wenn es denn klappt, geht der Weg der Untersuchung umgekehrt aus von Theorien und läuft über die aus deren Operationalisierung geschöpften Daten zurück zum Textproblem, das sich dadurch möglicherweise anders darstellt, als vor der Operationalisierung erwartet. In diesem Sinne jedenfalls betont Moretti (vielleicht etwas zu emphatisch und verallgemeinernd) den rekonzeptualisierenden Effekt quantitativer Untersuchungen, die zur kritischen Rückbesinnung auf das Tun und Lassen der Literaturwissenschaft überhaupt beitragen (sollen):

What I will say is that the leap from measurement to reconceptualization demonstrates how the unprecedented empirical power of digital tools and archives offers a unique chance to rethink the categories of literary study. Digital humanities may not yet have changed the territory of the literary historian or the reading of individual texts; but operationalizing has certainly changed, and radicalized, our relationship to concepts [...], because, if the data revolt against their creator, then the concept is really in trouble.Footnote 48

Quantitative Verfahren stellen literaturwissenschaftliche Kategorien und Konzepte auf den Prüfstand, die, dessen ist sich Moretti bewusst, nicht für solche Verfahren entwickelt worden sind: „The trouble is, most literary concepts are emphatically not designed to be quantified; and the question then arises of what to do with them.“Footnote 49 Auf die Frage, was tun in dieser Situation, gibt es zwei, möglicherweise aber nicht notwendig in die gleiche Richtung weisende Antworten. Die für quantitative Verfahren erforderliche Exaktheit mag man grundsätzlich begrüßen, es ist aber gerade den in quantitativer Philologie Kundigen klar, dass die methodischen Zwänge, die solche Verfahren ohne Zweifel implizieren, nicht zum invarianten Paradigma taugen. Dies anzunehmen hieße vor allem, die rekonzeptualisierenden Effekte sowohl ‚erfolgreicher‘ als auch ‚misslingender‘ Operationalisierungen zu unterschätzen. So wenig man einerseits ein Konzept unverändert lassen muss, wenn die Ergebnisse quantitativer Erhebungen dauerhaft eine Modifikation nahelegen, so wenig kann man sich andererseits sicher sein, dass die Fehlerhaftigkeit des Konzepts die Ursache für die errechneten Daten darstellt. Dies gilt natürlich auch, wenn man meint, die Daten konsolidierten ein Konzept. Gerade traditionell rein verifikationsorientierte Hermeneutiker, die es gewohnt sind, für ihre Thesen Belege zu finden (und damit unweigerlich einem confirmation bias unterliegen, der nicht Passendes ausblendet), neigen dazu, zu beiden Seiten hin, ihre Ergebnisse zu überschätzen, insbesondere wenn die Visualisierung von Daten etwas zu ‚zeigen‘ scheint.

Was not tut, ist also nicht die Ablösung qualitativer durch quantitative Forschung in der Literaturwissenschaft, sondern ein je an der konkreten Fragestellung orientierter mixed methods-Ansatz, der sich bewusst darüber ist, welche Verfahren aus beiden Bereichen er einsetzt. Das klingt viel leichter, als es getan ist. Wie zum Trost können die Literaturwissenschaftler einen Blick auf andere Disziplinen riskieren, wo, etwa in der Politikwissenschaft oder Soziologie, oft ein lautes Schweigen zwischen den qualitativen und quantitativen Vertreterinnen des Fachs herrscht. Wenn es der Literaturwissenschaft gelingt, hier möglichst eine Vielzahl von Ansätzen zu entwickeln, wäre das nicht unbedingt eine Pionierleistung, aber doch ein sinnvoller Beitrag zu einem transdisziplinären methodischen Megaproblem.

Alle notwendige Skepsis in Rechnung gestellt, sind wir der Auffassung, dass sich dafür das folgende Basis-Schema bewähren kann (vgl. Abb. 1):

Abb. 1
figure 1

Schema eines hermeneutisch-statistischen mixed methods-Verfahrens

Man kann leicht sehen, dass dieses Schema Morettis zweitem Distanzkonzept recht nahe kommt. Allerdings gehen wir nicht vom distant reading operationalisierungsfähiger Sekundärliteratur aus wie die Weltliteraturforschung, sondern von der Primärtextlektüre, die den „second hand criticism“ der Forschung orientiert. Unserer Erfahrung nach hilft die Sekundärliteratur sowohl bei der Formulierung der Forschungsfrage als auch bei deren Operationalisierung. Dazu gehört auch die Entscheidung, ob die quantitative Untersuchung der ausgewählten Textmerkmale am Einzeltext, einer kleinen Textgruppe oder an zu erstellenden Korpora durchgeführt werden soll. So können etwa die Ergebnisse einer quantitativen Einzeltextanalyse durch den Abgleich mit den Daten aus einem Referenzkorpus (z. B. einer bestimmten Gattung innerhalb derselben oder einer angrenzenden Epoche) zusätzliche Signifikanz erhalten.

Integratives Konzept für mixed methods-Ansätze: Scalable Reading

In einem letzten Schritt möchten wir die Kombination von hermeneutischen und statistischen Verfahren in unserem Schema zum Anlass nehmen, die Dichotomie von close und distant reading zu verabschieden. Sie hat ihr paradigmatisches Provokationspotenzial erschöpft und bildet inzwischen weder die Forschungsrichtungen innerhalb der Digitial Humanities noch die literaturwissenschaftlichen Ansätze, die entsprechende Methoden aufgreifen, angemessen ab. Beide verlangen nach integrativen Konzepten.

In der digitalen Literaturwissenschaft können wir momentan neben zahlreichen Annotationsprojekten im Spektrum zwischen hermeneutischem Protokoll und statistischer Auswertung und dem semantischen Topic Modeling als einem noch sehr jungen Bereich zwei bereits etablierte Ansätze erkennen: Stilometrie und Netzwerkmodellierung. Die digitale Stilometrie setzt mittels statistischer Rechenoperationen zwei oder mehrere Texte ins Verhältnis und ermittelt auf diese Weise auf Grundlage der Frequenz stilistischer Merkmale die relative Ähnlichkeit oder Differenz von TextenFootnote 50. Die Ergebnisse der Stilometrie werden in Matrizen erfasst, die wiederum Grundlage für verschiedene Visualisierungsmöglichkeiten sind. Wichtig erscheint uns hier, dass ein solches Vorgehen zwar technisch sehr gut beschreibbar und nachvollziehbar ist, sich aber immer fragen lassen muss, ob die Interpretation der Ergebnisse nicht nachträglich plausibilisiert, was zuvor nicht nachgewiesen wurde. So bleibt Schöch zurecht skeptisch, wenn die Visualisierung bestimmter Wortartfrequenzen vermeintlich klar ‚zeigt‘, wie Autorschafts- und Gattungssignale entstehen und sich zueinander verhaltenFootnote 51. Die unvermeidlich verifikationsorientierte Methode der hermeneutischen Lektüre muss, wenn statistische Methoden einbezogen werden, um Verfahren der kritischen Datenauswertung ergänzt werden, die sich von diesem Denkstil unterscheiden. Wer Daten nur in das uns vertraute Streben nach Verifikation einbezieht, wird höchstens zufällig zu belastbaren Ergebnissen gelangen. Literatur verlangt „langsames Denken“Footnote 52, was methodisch bedeutet, viele fruchtlose Anläufe in Kauf zu nehmen, Gegenhypothesen zu testen und die eigene These immer nur vorläufig für bewährt zu halten.

Der Stilometrie steht ein Umgang mit Texten gegenüber, der versucht, von der Ebene der linguistischen Textmerkmale zu abstrahieren, um literarische Texte nach strukturellen Merkmalen zu modellieren, die sich gleichfalls quantifizieren lassen. Ein prominentes Beispiel für solch ein Vorgehen ist die Modellierung der Figurenkonstellation in Dramentexten.Footnote 53 Dazu werden Auftritte von Figuren, gemeinsame Auftritte, direkte oder indirekte Verbindungen, deren Richtungssinn und andere mögliche Merkmale zunächst in Daten-Matrizen erfasst und dann visualisiert. In methodischer Hinsicht weicht dieses Vorgehen in entscheidender Hinsicht von den Verfahren der rein statistischen Textanalyse ab. Anstatt mit den Textmerkmalen selbst zu arbeiten, wird in einer solchen Herangehensweise der literarische Text in einer Modellierung als Erkenntnisobjekt rekonstituiert, sodass der Analysegegenstand nicht mehr identisch mit dem Text als Zeichenfolge ist. Erkenntnisse können dadurch gewonnen werden, dass man die Netzwerkmodelle, die sich aus den jeweils einbezogenen Merkmalen ergeben, ineinander umformt. Ein Modell, das nur die Verbindungen der Figuren darstellt, liefert andere Erkenntnisse als eines, das auch die Gewichtung der Verbindungen (Anzahl der gemeinsamen Auftritte, Redeanteile und Gerichtetheit der Rede) einbezieht. Je nachdem, ob die Forschungsfrage z. B. an Konnektivität oder an Zentralität interessiert ist, wird man die Modelle anreichern.

Zu einem Konzept, das nicht nur stilometrische Verfahren und Modellbildungen, sondern prinzipiell alle Akte des Lesens und Analysierens von Texten einbegreift, lässt sich der von Martin Mueller geprägte Begriff des „scalable reading“Footnote 54 ausbauen. So wie Barthes einst die „strukturalistische Tätigkeit“ als Herstellung und Analyse von „Simulacren“ des Textes bestimmte, die im Doppelschritt von Zerlegung in basale Einheiten und Remodellierung etwas zum Vorschein bringt, das „im natürlichen Objekt unsichtbar“Footnote 55 bliebe, so arbeitet das scalable reading mit „Surrogaten“ des Textes innerhalb einer weiten scale medialer Formen und analytischer Aufbereitungen. Das reicht vom analogen Textdruck über digitalisierte Textkorpora bis hin zu digitalen Surrogaten, die auf der Grundlage von Worthäufigkeitslisten z‑score-Matrizen und delta scores ermitteln oder den Fließtext in ein bag of words umwandeln, um ihn modellieren zu können. Die Vorstellung dieser weiten scale von Surrogaten kann davon ausgehen, dass uns so gut wie alle Texte, die uns als materielle Grundlage für verstehendes Lesen dienen, in anderer als der ursprünglichen Produktionsform vorliegen. Wer die Oxford-Klassiker-Ausgabe der Odyssee liest (so Muellers Beispiel), ist im Grunde bereits ein distant reader der Gesänge, die Homer zugeschrieben worden sind. Und gerade der distant reader im herkömmlichen Verständnis, der mit digitalen Analysen Daten und Visualisierungen erzeugt, muss diese verstehen und interpretieren. „Scalable Reading“ bedeutet indes nicht (nur), dass sich close und distant reading methodisch durchdringen (diese Analogie verführt womöglich dazu, die Unterschiede zwischen Text- und Daten-Interpretation zu unterschätzen), sie steht für ein integriertes Verständnis aller Akte des Lesens und der Analyse.

Wie jedes Konzept kann sich ‚Scalable Reading‘ nur in konkreten Forschungsvorhaben bewähren, wobei klar ist, welche Art von Projekt sich dafür zunächst anbietet. Es sind die mittelgroßen Korpora, an denen sich die je spezifischen Erkenntnismöglichkeiten (query potentials) der Textsurrogate in hermeneutischen Textlektüren, statistischen Einzeltext- und Korpusanalysen, in Netzwerksimulationen und anderen Modellbildungen auf ihre Synergien hin in Betrieb nehmen und beobachten lassen. In Frage kommen dafür z. B. in der Forschung bislang fast vollkommen ausgeblendete Textsammlungen wie die Novellenschätze des 19. Jahrhunderts, in denen viele kanonische Einzeltexte stecken, ohne dass die kanonisch wirkende Sammlung als solche je hätte mit den angemessenen Mitteln untersucht werden können. Ein grundsätzlicher systematischer Vorteil des scalable reading liegt darin, dass dort ein Kontinuum von qualitativen und quantitativen Methoden denkbar wirdFootnote 56, wo bislang das Verständnis von ‚traditioneller Hermeneutik‘ auf der einen und ‚neuen Analysetechniken‘ auf der anderen Seite allen gegenteiligen Beteuerungen zum Trotz an produktiven Verbindungen nicht wirklich interessiert gewesen ist.