1 Hintergrund und Forschungsfrage

Um den Stellenwert einer Methode in einer wissenschaftlichen Disziplin zu bemessen, lassen sich zahlreiche Indikatoren heranziehen: Wie viele Lehrbücher sind zu einer Methode veröffentlicht? Welchen Anteil nimmt die Methode in der akademischen Ausbildung ein? Wie viele empirische Studien werden pro Jahr veröffentlicht, bei denen die Methode zum Einsatz kommt? Die Methode der Inhaltsanalyse ist seit vielen Jahrzehnten selbst Gegenstand der empirischen Forschung. Hierbei wird typischerweise mit einer Meta-Inhaltsanalyse die Publikations- und Dokumentationspraxis vermessen (vgl. Barcus 1959; Fink und Gantz 1996; Lauf 2001, 2006; Lombard et al. 2002; Merten und Grossmann 1996; Mochmann und Immer 1979; Riffe und Freitag 1997; Schrott und Lanoue 1994). Mit der vorliegenden Forschungsnotiz schreiben wir die Tradition dieser Meta-Inhaltsanalysen fort und möchten damit einen empirisch fundierten Beitrag zu einem Teilaspekt der Debatte über die Qualität von Inhaltsanalysen leisten. Diese Debatte speist sich im deutschsprachigen Raum zum einen aus den in Lehrbüchern zur Inhaltsanalyse empfohlenen Qualitäts- und Dokumentationsstandards (vgl. Früh 2011; Maurer und Reinemann 2006; Merten 1995; Raupp und Vogelgesang 2009; Rössler 2010) und zum anderen aus den in den letzten Jahren zahlreich erschienenen Monografien, Einzelbeiträgen oder Textsammlungen mit Bezug zur inhaltsanalytischen Methode (vgl. Gehrau et al. 2005; Kolb 2004; Loosen und Scholl 2012; Scharkow 2011, 2012; Wirth und Lauf 2001; Stark et al. 2012; Woelke et al. 2010).

Im Jahr 2001 hat Edmund Lauf in dieser Zeitschrift den Aufsatz „‚.96 nach Holsti‘. Zur Reliabilität von Inhaltsanalysen und deren Darstellung in kommunikationswissenschaftlichen Fachzeitschriften“ veröffentlicht. Der Nachweis der Reliabilität einer Inhaltsanalyse, so seine Argumentation, sei erst dann erbracht, wenn der Reliabilitätstest nicht nur sinnvoll konzipiert, sondern auch nachvollziehbar dokumentiert ist. Im Aufsatz wurde der empirischen Frage nachgegangen, „ob Reliabilitätstests überhaupt in Publikationen kommunikationswissenschaftlicher Fachzeitschriften angesprochen werden und – wenn ja – welche der zentralen Eckdaten der Untersuchungsanlage berichtet werden“ (Lauf 2001, S. 61). Um diese Frage zu beantworten, hat Lauf u. a. alle Beiträge der Zeitschriften Publizistik und Rundfunk & Fernsehen (heute: Medien & Kommunikationswissenschaft) der Jahre 1990 bis 1999 untersucht, „die quantitative Ergebnisse konventioneller Inhaltsanalysen erkennbar in Form von Tabellen oder Grafiken“ (Lauf 2001, S. 61) beinhalten. In den beiden Zeitschriften waren im Untersuchungszeitraum insgesamt 34 quantitative Inhaltsanalysen erschienen. 42 % der untersuchten Beiträge in der Publizistik und 30 % in Rundfunk & Fernsehen enthielten Hinweise zur Reliabilität. In der zweiten Hälfte der 1990er Jahre war „ein leichter Trend zur zunehmenden Thematisierung der Reliabilität festzustellen“ (Lauf 2001, S. 66). Im Fazit der Studie hieß es, dass in Fachzeitschriften die Dokumentation von Reliabilitätsprüfungen „eher eine Ausnahme“ (Lauf 2001, S. 66) sei. Deshalb empfahl Lauf (2001, S. 67) die Dokumentation folgender Informationen im Methodenteil oder in einer Fußnote künftiger Zeitschriftenaufsätze: „Codierertraining, Anzahl aller und getesteter Codierer, Zeitpunkt(e) der Durchführung der (des) Reliabilitätstests, Auswahl und Umfangs des im Reliabilitätstest codierten Materials und Koeffizienten für jede im Beitrag dargestellte Variable (ggf. mit Konfidenzintervall, wenn dadurch der Wert von 0,80 unterschritten wird).“

Edmund Lauf war natürlich nicht der erste Autor, der sich in der Publizistik in spezieller Weise mit Reliabilitätsfragen bei Inhaltsanalysen auseinandersetzte. Bereits Kurt Schatz hatte sich mit dem Problem der Identifikationsreliabilität befasst und dabei angemahnt (1974, S. 301): „Mit dem Forschungsinstrument steht und fällt die Zuverlässigkeit der Analyse.“ In der gleichen Ausgabe der Publizistik kritisierten Koch et al. (1974) zudem das Fehlen von Reliabilitätskontrollen bei der Inhaltsanalyse von Publikumszeitschriften.

Wir setzen voraus, dass es seit der sozialwissenschaftlichen Wende im Fach (vgl. Löblich 2010) unstrittig sein sollte, bei einer Inhaltsanalyse die Reliabilität von Untersuchungsinstrument und Codierung sicherzustellen. Lauf (2001) hat mit seiner Reliabilitätsstudie jedoch vor Augen geführt, dass es eine Diskrepanz zwischen den Dokumentationsempfehlungen in der Lehrbuchliteratur und der Dokumentationspraxis in deutschen Fachzeitschriften gibt. Zielsetzung unseres Forschungsvorhabens ist es, zehn Jahre nach Veröffentlichung der Studie von Lauf empirisch zu rekonstruieren, ob sich der positive Trend der zweiten Hälfte der 1990er Jahre bei der Dokumentation der Ergebnisse von Reliabilitätstests in den deutschen Fachzeitschriften fortgesetzt hat.

Forscher führen Reliabilitätstests durch, um erstens empirisch begründete Aussagen darüber treffen zu können, wie erfolgreich die Codebuchentwicklung und die Codiererschulung war (vgl. Früh 2011, S. 188–195). Anhand der Ergebnisse von Reliabilitätstests kann systematisch bestimmt werden, ob und welche qualitätssichernden Maßnahmen für die Durchführung der Inhaltsanalyse ergriffen werden sollten, z. B. Vereinfachung von Variablen, Präzisierung von Codeerläuterungen oder eine Nachschulung einzelner oder aller Codierer (vgl. Raupp und Vogelgesang 2009, S. 177–178). Ob die ergriffenen Maßnahmen dann letztlich erfolgreich waren, sollte wiederum mithilfe eines Reliabilitätstests überprüft werden (vgl. Rössler 2010, S. 197). Die Ergebnisse eines Reliabilitätstests und eine entsprechende Dokumentation seiner Untersuchungsanlage geben zweitens Auskunft, wie vielversprechend der Versuch einer Replikation von Inhaltsanalysen ist (vgl. Kolb 2004). Voraussetzung für eine erfolgreiche Replikation ist die ausführliche Dokumentation der Ergebnisse des Reliabilitätstests, denn sie ermöglicht intersubjektive Nachvollziehbarkeit. Drittens dienen die Angaben zur Reliabilität auch dazu, die empirischen Ergebnisse einer Inhaltsanalyse interpretieren und bewerten zu können. Es dürfte unstrittig sein, dass Ergebnisse von Inhaltsanalysen, die auf weniger zuverlässigen Variablen basieren, weniger starken Evidenzcharakter haben und damit vorsichtiger interpretiert werden sollten. Dies gilt umso mehr, je folgenreicher die inhaltsanalytischen Ergebnisse sind (vgl. Krippendorff 2004a, S. 242).

Vor dem Hintergrund der Autorenhinweise in Publizistik und M&K, in denen „im Sinne der Förderung des wissenschaftlichen Diskurses und der kumulativen Forschung“ von den Autoren empirischer Beiträge gefordert wird, dass sie die „Art und Weise der Datenerhebung [...] ausreichend dokumentieren“ und „größtmögliche Transparenz“ herstellen, um auf diese Weise „die Voraussetzungen für Sekundäranalysen und Replikationen zu schaffen“, haben folgende Forschungsfragen unsere Untersuchung der Reliabilitätsdokumentation in beiden Fachzeitschriften geleitet:

  1. 1.

    Wird Reliabilität überhaupt thematisiert?

  2. 2.

    Welche Formen der Reliabilitätsprüfung werden thematisiert?

  3. 3.

    Werden Details zur Stichprobe und zur Durchführung des Reliabiliätstests angegeben?

  4. 4.

    Welche Koeffizienten werden in welchem Umfang berichtet?

  5. 5.

    Werden die Ergebnisse des Reliabilitätstests bewertet bzw. daraus Konsequenzen gezogen?

2 Methode

Für die nachfolgende Untersuchung wurden alle wissenschaftlichen Aufsätze in der Publizistik und in M & K der Jahrgänge 2001 bis 2010 analysiert, die wenigstens in Teilen empirische Ergebnisse einer standardisierten Inhaltsanalyse (inklusive Sekundäranalysen) enthalten.Footnote 1 Unserer Untersuchung liegt ein weites Begriffsverständnis der standardisierten (= systematischen) Inhaltsanalyse zugrunde: Eingeschlossen in die Analyse wurden alle Varianten dieser Form der Inhaltsanalyse mit allen möglichen Untersuchungsgegenständen (wie z. B. Pressetexte, Fernsehbeiträge usw.). Nicht einbezogen wurden Studien, die ausschließlich Ergebnisse nicht-standardisierter Inhaltsanalysen, Dokumenten- oder Filmanalysen enthielten, weil bei diesen zum Teil andere Indikatoren für die Gütebeurteilung von Bedeutung sind und weil diese anderen Indikatoren mit dem von Lauf (2001) entwickelten Untersuchungsinstrument nicht abgebildet werden können. Von den insgesamt 156 in der Publizistik und 231 in M&K im Untersuchungszeitraum veröffentlichten wissenschaftlichen Aufsätzen erfüllten 88 das Aufgriffskriterium. Dies entspricht einer Quote von 23 %. Um die Zuverlässigkeit der Identifikation relevanter Aufsätze zu überprüfen, wurden vor der eigentlichen Codierung die ersten Ausgaben jedes Jahrgangs beider Zeitschriften (n = 20) von zwei Codierern durchgesehen und das Vorkommen untersuchungsrelevanter Aufsätze erfasst.Footnote 2 Die prozentuale Übereinstimmung bei der Identifikation der Untersuchungseinheiten betrug 0,96 nach Holsti (Krippendorff’s a = 0,80) und war damit sehr zufriedenstellend.

Bei der Entwicklung des Codeplans haben wir uns an den Kategorien von Lauf (2001, S. 62) orientiert und diese durch eigene Kategorien ergänzt. Im Anschluss an Krippendorff (2004a) definieren wir Reliabilität als die Gleichförmigkeit einer Messung, die die Reproduzierbarkeit empirischer Ergebnisse sicherstellt. Wir haben diese Definition gewählt, weil sie sowohl dem messtheoretischen als auch dem konstruktivistischen Reliabilitätskonzept genügt (vgl. Krippendorff 2004a). Beim messtheoretischen Reliabilitätskonzept geht man davon aus, dass die zu codierenden Inhalte aufgrund der Messvorschrift von allen Codierern gleich decodiert werden und sich jedes empirische Datum aus dem wahren Wert und einem Zufallsfehler zusammensetzt. Das konstruktivistische Reliabilitätskonzept basiert hingegen auf der Annahme, dass vor der Codierung eine Verständigung der Codierer im Sinne konsensuellen Lesens erfolgen muss. Krippendorff (2004a, S. 212) argumentiert, dass unabhängig von diesen beiden Reliabilitätskonzepten eine Prüfung der Reliabilität erfolgen muss: „In either case, researchers need to demonstrate the trustworthiness of their data by measuring their reliability. If the results of reliability testing are compelling, researchers may proceed with the analysis of their data. If not, doubts as what these data may mean prevail, and their analysis is hard to justify.“ Folgende Untersuchungsdimensionen waren maßgeblich für unsere Kategorienbildung: Thematisierung der Reliabilität, Formen der Reliabilitätsprüfung, Untersuchungsanlage des Reliabilitätstests und der Umgang mit Reliabilitätskoeffizienten. Die für die nachfolgende Ergebnisberichterstattung zentralen Variablen sowie deren Reliabilitätskoeffizienten sind in Tab. 1 dargestellt. Bis auf eine Ausnahme sind alle Variablen dichotom skaliert (die Variable zur Messung des Anteils an Variablen, für die jeweils Reliabilitätswerte angegeben werden, ist ordinal skaliert: 1 = unspezifisch, z. B. Mittelwert über alle Variablen oder Minimum/Maximum; 2 = für einen Teil der Variablen; 3 = für alle Variablen).

Tab. 1 Reliabilität der Codierung (zwei Codierer, n = 16)

Alle Codierungen führten die zwei bereits erwähnten studentischen Mitarbeiter durch, wobei die Identifikation relevanter Aufsätze unabhängig von der eigentlichen Codierung erfolgte. Für die Bestimmung der Reliabilität codierten beide Mitarbeiter nach erfolgter Schulung je acht Beiträge aus jeder Fachzeitschrift. Die 16 Beiträge umfassende Stichprobe des Reliabilitätstests machen rund 18% des insgesamt zu codierenden Materials aus. Um die Qualität unserer Ergebnisse mit denen von Lauf (2001) vergleichen zu können, sind nachfolgend für jede im Ergebnisteil thematisierte Variable sowohl die einfache Prozentübereinstimmung (Holsti) als auch Krippendorff’s a dokumentiert. Der a-Wert berücksichtigt u. a. die Anzahl der Ausprägungen sowie deren Verteilung, so dass zufällige Übereinstimmungen nicht in die Berechnung der Reliabilität einfließen (vgl. Krippendorff 2004a). Da sowohl die einfache Prozentübereinstimmung als auch die zufallskorrigierte Reliabilität nach Krippendorff durchgängig über 0,85 liegen, gehen wir von einer zuverlässigen Codierung aus (vgl. Tab. 1).

In Tab. 1 zeigt sich ein Problem, das bei Reliabilitätstests mit relativ kleinen Fallzahlen und schief verteilten Variablen häufig auftritt: Für vier Variablen kann streng genommen keine Reliabilität angegeben werden, da diese in der Stichprobe des Reliabilitätstests keine Varianz aufwiesen (vgl. Krippendorff 2004a, S. 236). Um die Variabilität der Variablen kenntlich zu machen, ist in Tab. 1 der Häufigkeitsanteil dokumentiert. Wenn in der entsprechenden Spalte der Anteil bei 0 % bzw. der Holsti-Wert bei 1 liegt, bedeutet dies: Die Codierer stimmten beim Reliabilitätstest unabhängig voneinander immer darin überein, dass dieses Merkmal nicht im untersuchten Aufsatz vorkommt. Umgekehrt bedeutet dies jedoch auch, dass nicht geprüft worden ist, ob das Vorkommen dieses Merkmals zuverlässig codiert werden kann, da dieser Fall im Material des Reliabilitätstests nicht enthalten war. Tabelle 1 veranschaulicht, dass fehlende Varianz in den Variablen sich im Wert von Krippendorffs a niederschlägt, aber nicht im Holsti-Wert. Wir nehmen an, dass jede Auswahlentscheidung von Codierern (z. B. auch die vermeintlich einfache Codierung einer Stadt aus einer Liste aller deutscher Städte) potenziell fehlerbehaftet ist und deswegen ein zufallsbereinigter Reliabilitätskoeffizient wie Krippendorffs a immer aussagekräftiger ist als die Prozentübereinstimmung.Footnote 3 Im Gegensatz zum Holsti-Koeffizienten kann Krippendorffs a unabhängig von der Zahl der möglichen oder tatsächlichen Ausprägungen einer Variable interpretiert werden (vgl. Krippendorff 2004b). Ignoriert man die mangelnde Variabilität der erwähnten vier Variablen im Rahmen unseres Reliabilitätstests und zieht man zur Reliabilitätsbemessung einzig und allein den Holsti-Wert heran, könnte man irrtümlich zu dem Schluss kommen, dass die Codierung der vier Variablen perfekt reliabel erfolgt ist. Genau aus diesem Grund empfiehlt Krippendorff (2004a, S. 236), bei der Planung von Reliabilitätstests das Problem fehlender Variabilität in den Daten zu berücksichtigen, indem man z. B. zu testendes Material gezielt unter Varianzgesichtspunkten auswählt. Dies ist natürlich mitunter mit einigem Aufwand verbunden, gerade wenn dieser Fall selten auftritt. Um diese methodische Schwäche unserer Studie zu kompensieren, haben wir uns dafür entschieden, die eigentliche Codierung dahin gehend ex post zu prüfen, ob wir der Entscheidung, dass eines der Merkmale der vier besagten Variablen vorkommt, zustimmten. Hierbei zeigte sich, dass wir im Sinne der Forscher-Codierer-Reliabilität mit den Entscheidungen der Codierer übereinstimmten, so dass wir trotz fehlgeschlagenem Reliabilitätstest von einer zuverlässigen Codierung dieser Variablen ausgehen können.

3 Ergebnisse

Im Vergleich zu den 1990er Jahren sind in Publizistik und M&K zwischen den Jahren 2001 bis 2010 sehr viel mehr wissenschaftliche Aufsätze veröffentlicht worden, die Ergebnisse standardisierter Inhaltsanalysen beinhalteten. Während Laufs (2001, S. 65) Untersuchung von Publizistik (n = 24) und Rundfunk und Fernsehen (n = 10) auf 34 inhaltsanalytischen Aufsätzen beruhte, umfasste unsere Vollerhebung insgesamt 88 Aufsätze. In 60 % dieser Aufsätze wurden Reliabilitätsaspekte thematisiert (vgl. Tab. 2). Zwischen 1990 und 1999 lag der Thematisierungsanteil im Durchschnitt noch bei 38 %, wobei sich in der zweiten Hälfte der 1990er Jahre ein positiver Trend hin zu einer verstärkten Thematisierung von Reliabilität abgezeichnet hatte (vgl. Lauf 2001, S. 65). Dieser positive Trend setzte sich in unserem Untersuchungszeitraum fort: Zwischen 2001 und 2005 lag der Thematisierungsanteil bei 53 %, zwischen 2006 und 2010 bereits bei 67 %. Vergleicht man die Anteilswerte je Zeitschrift, zeigt sich ein deutlicher Unterschied: In der Zeitschrift M&K wurden Reliabilitätsaspekte in 73 % aller untersuchten Beiträge thematisiert, in der Publizistik betrug dieser Anteil 53 %. In der Analyse von Lauf (2001, S. 65) war dieses Anteilsverhältnis noch umgekehrt (Publizistik: 42 %, Rundfunk und Fernsehen: 30 %).

Tab. 2 Reliabilitätsberichterstattung in der Publizistik und in Medien & Kommunikationswissenschaft zwischen 2001 und 2010 (Angaben in Prozent)

Nur 13 % der Aufsätze enthielten Angaben darüber, mit welcher Zuverlässigkeit die Untersuchungseinheiten der jeweiligen Inhaltsanalyse identifiziert worden sind. Rössler (2010, S. 201) schreibt, dass die Identifikationsreliabilität im Vergleich zur Codierreliabilität „mitunter die brisantere Information enthält – denn welche Aussagekraft hat eine in der Codierung sauber durchgeführte Inhaltsanalyse, wenn das ihr zugrunde liegende Material nur sehr unzuverlässig aus dem Medienangebot herausgefiltert wurde?“ Scheufele et al. (2011, S. 69) gehen sogar noch einen Schritt weiter und berechnen die „Gesamtreliabilität“ als das Produkt aus Identifikationsreliabilität und Codierreliabilität, weil, so ihr Argument, die Codierreliabilität konditional abhängig von der Identifikationsreliabilität zu interpretieren ist. Eine Berechnung der Gesamtreliabilität der Variablen in den untersuchten wissenschaftlichen Aufsätzen nach diesem Vorbild ist angesichts der seltenen Dokumentation der Identifikationsreliabilität leider nicht möglich.

Wenn in den Aufsätzen quantitative Angaben zur Reliabilität gemacht wurden, bezogen sich diese hauptsächlich auf die Intercoderreliabilität: 51 % Prozent der Aufsätze enthielten Angaben darüber, wie übereinstimmend mehrere Codierer gearbeitet hatten. Wie bei Lauf (2001, S. 62) spielte die Dokumentation der Intracoderreliabilität in den inhaltsanalytischen Veröffentlichungen mit einem Anteil von 10 % so gut wie keine Rolle. Die Intracoderreliabilität bezeichnet Krippendorff (2004a, S. 215) als „Stabilität“; sie gilt ihm zufolge als schwächste Form des Reliabilitätsnachweises. Der geringe Anteil könnte damit zu erklären sein, dass in vielen quantitativen Inhaltsanalyse mehrere Codierer zum Einsatz kommen, weshalb nicht die Stabilität sondern die „Reproduzierbarkeit“ (Krippendorff 2004a, S. 215) im Mittelpunkt der Reliabilitätsprüfung (= Intercoderreliabilitätstest) steht. Eine Bestimmung der Intracoderreliabilität bei mehreren Codierern wäre eigentlich nur dann angezeigt, wenn Forscher die begründete Vermutung haben, dass die Codiererleistung während des Untersuchungszeitraums variiert (vgl. Früh 2011, S. 188). Noch seltener wurden in den untersuchten Aufsätzen quantitative Angaben zur Forscher-Codierer-Reliabilität gemacht. Die Forscher-Codierer-Reliabilität gilt nach Krippendorff (2004a, S. 215) als eine Komponente der strengsten Form der Reliabilitätsprüfung. Im Gegensatz zu Krippendorff verstehen wir im Anschluss an Früh (2011) die Forscher-Codierer-Reliabilität jedoch weniger als Reliabilitäts-, sondern vielmehr als Validitätskriterium. Wenn in den untersuchten inhaltsanalytischen Aufsätzen so gut wie nie die Forscher-Codierer-Reliabilität berichtet wird, kann dies bedeuten, dass die Forscher kein Interesse hatten, am Reliabilitätstest teilzunehmen und es folglich auch nichts zu dokumentieren gibt oder dass die Forscher-Codierer-Reliabilität zwar bestimmt, aber nicht dokumentiert worden ist.

Die Leser der in der Publizistik und M&K zwischen 2001 und 2010 veröffentlichten Inhaltsanalysen erfuhren nur wenig Details darüber, wie die Reliabilitätskennziffern zustande gekommen waren. Zieht man die von Lauf (2001, S. 67) formulierten „Mindestanforderungen an die Dokumentation“ von Reliabilitätstests als Maßstab heran, zeigt sich in unserer Analyse folgendes Bild: Ein Drittel der Aufsätze enthielt Angaben über die Zahl der getesteten Codierer, 22 % über die Stichprobengröße, 17 % über den Zeitpunkt und 15 % über die Zusammensetzung der Stichprobe des Reliabilitätstests. Das Fehlen dieser Angaben in inhaltsanalytischen Aufsätzen führt dazu, dass die Objektivität der Inhaltsanalysen in Frage gestellt ist, weil man im Sinne von Früh (2011, S. 7) „die Logik des zugrunde liegenden Forschungsprozesses“ nur teilweise nachvollziehen kann und somit das Kriterium der intersubjektiven Nachvollziehbarkeit nur unzureichend erfüllt ist.

In 56 % der untersuchten Aufsätze haben die Autoren quantitative Angaben zur Reliabilität gemacht. Die Forderung von Rössler (2010, S. 201), Reliabilitätswerte „detailliert zu dokumentieren“, bleibt vorerst so gut wie unerfüllt: In 36 % der Fälle war es nicht möglich, die Reliabilitätsangaben einzelnen Variablen zuzuordnen. Nur in 3 % der untersuchten Beiträge wurde für jede Variable eine Reliabilitätsangabe gemacht. Die Kürze eines wissenschaftlichen Aufsatzes hat oft zur Folge, dass Autoren sich bei der Reliabilitätsdokumentation kurz fassen und nur Minimalwerte angeben (z. B. „Die Überprüfung der Intercoder-Reliabilität in Bezug auf alle Kategorien ergab bei acht von neun Codierern eine Übereinstimmung von über 0,8 [...]“). Diese Art der Dokumentationspraxis spart einerseits zwar Platz, andererseits macht es unserer Ansicht nach aus Replikationsperspektive durchaus einen Unterschied, ob eine einzelne Variable einen Reliabilitätskoeffizienten von 0,80 oder 0,98 aufweist.

Nur für wenige Aufsätze ließ sich bestimmen, wie die Reliabilitätswerte berechnet worden waren: 33 % der Aufsätze enthielten Werte gemäß der Holsti-Formel, in 6 % der Aufsätze wurden zufallsbereinigte Reliabilitätswerte berichtet. Der bereits erwähnte positive Dokumentationstrend setzt sich hier – ausgehend von sehr niedrigen Ausgangswerten – ebenfalls fort: Im Verlauf des Untersuchungszeitraums hat sowohl die Nennung einzelner nicht näher definierter Reliabilitätswerte (z. B. „Die Intercoder-Reliabilität lag bei mindestens 0,8.“) als auch die Dokumentation einfacher und zufallsbereinigter Reliabilitätswerte zugenommen.

Nur in knapp einem Drittel aller untersuchten Aufsätze nahmen die Autoren eine Bewertung ihrer eigenen Reliabilitätsergebnisse vor. Die Autoren der in M&K veröffentlichten inhaltsanalytischen Studien bewerteten die Ergebnisse ihrer Reliabiliätstests beinahe doppelt so häufig (47 %) wie die Autoren der Publizistik (24 %). Die aus den Ergebnissen der Reliabilitätstests möglicherweise gezogenen Konsequenzen wurden dagegen selten thematisiert: In 9 % der inhaltsanalytischen Studien wurden Konsequenzen wie z. B. Codebuchüberarbeitungen, die Streichung von Variablen oder Modifikationen der ursprünglichen Auswertungsstrategie genannt.

4 Diskussion und Empfehlungen

Die Thematisierung von Reliabilitätsaspekten in Aufsätzen der Publizistik und M&K, in denen empirische Ergebnisse einer quantitativen Inhaltsanalyse berichtet werden, ist nicht mehr – wie noch bei Lauf (2001, S. 66) – „eher die Ausnahme“, aber auch noch lange keine Selbstverständlichkeit. Die Zahlen unserer Meta-Inhaltsanalyse belegen, dass die Dokumentationspraxis sich mehr und mehr den Veröffentlichungsstandards annähert, die in der einschlägigen Literatur zur Inhaltsanalyse empfohlen werden. Es wird unserer Ansicht nach allerdings noch eine weitere Forschergeneration dauern, bis allein die Thematisierung von Reliabilitätsaspekten eine Selbstverständlichkeit bei der Veröffentlichung inhaltsanalytischer Zeitschriftenbeiträge ist.

Die Ergebnisse unserer Inhaltsanalyse machen deutlich, dass die Thematisierung von Reliabilitätsaspekten nicht mit einer ausführlichen Dokumentationspraxis gleichgesetzt werden darf. Offenbar führt die in den Autorenhinweisen beider Zeitschriften geforderte „größtmögliche Transparenz hinsichtlich der verwendeten Daten“ und die angemahnte Selbstverpflichtung von Autoren, „ausreichend“ zu dokumentieren, nicht automatisch zu einem wünschenswerten Veröffentlichungsstandard. Wie aber sollte dieser Standard aussehen?

Wir stimmen mit Lauf (2001, S. 67) darin überein, dass eine ausreichende Dokumentation die „wesentlichen Eckdaten“ eines Reliabilitätstests umfassen sollte. Hierzu gehören: Anzahl der eingesetzten Codierer beim Reliabilitätstests und bei der Codierung, Umfang und Zusammensetzung der Stichprobe des Reliabilitätstests sowie Reliabilitätskoeffizienten für alle dargestellten Variablen. Bei der Verwendung der einfachen Prozentübereinstimmung als Reliabilitätsmaß sollte darauf geachtet werden, dass Anzahl und Verteilung der Variablenausprägungen dokumentiert sind, um den jeweiligen Koeffizienten sinnvoll interpretieren zu können. Auf Mittelwerten basierende Reliabilitätsangaben oder Spannweiten sind unserer Ansicht nach nicht hilfreich, weil die Leser die Zuverlässigkeit der Codierung nicht variablenspezifisch beurteilen können. Wir halten eine variablenspezifische Reliabilitätsdokumentation jedoch für unabdingbar, weil die Entscheidung, ob und wann eine Variable ausreichend zuverlässig codiert worden ist, letztlich vom Leser bzw. von der wissenschaftlichen Gemeinschaft getroffen werden muss. Im Sinne einer fortwährenden Qualitätsdebatte über inhaltsanalytische Studienergebnisse kann man von Forschern erwarten, dass sie die Güte der eigenen Codierung bewerten und dem Leser gegebenenfalls mitteilen, welche Konsequenzen diese Bewertung nach sich zog (z. B. Nachschulung von Codierern, Präzisierung von Codebüchern, Ausschluss von Variablen aus der Analyse, Zusammenfassung von Einzel- zu Oberkategorien) oder wie diese Bewertung bei der Interpretation der Ergebnisse zu berücksichtigen ist.

Da es trotz der Autorenhinweise offenbar keine einheitliche Praxis der Reliabilitätsdokumentation in Publizistik und M&K gibt, stellt sich die Frage, ob es nicht konkreterer Mindestanforderungen bedarf. Präzise Qualitätskriterien für die laut Brosius et al. (2009, S. 139) am weitesten verbreitete Erhebungsmethode im Fach zu formulieren und deren Dokumentation einzuforder, obläge in diesem Fall den Zeitschriftenherausgebern. Vorbild könnten dabei die Dokumentationsrichtlinien für Befragungen der American Association for Public Opinion Research (AAPOR) sein, die in vielen kommunikationswissenschaftlichen Fachzeitschriften bereits Publikationsstandard sind.

Der besondere Stellenwert der Inhaltsanalyse als Methode im Fach war – wie eingangs erwähnt – seit jeher Anlass für Meta-Inhaltsanalysen. Wirth (2001, S. 353) spricht mit Blick auf die Inhaltsanalyse von „der zentralen Methode der Kommunikations- und Medienwissenschaft“. Früh (2011, S. 15) bezeichnet die Inhaltsanalyse sogar als „die Methode der Kommunikations- und Medienwissenschaft“, weil sich in „diesem Fach ihre spezifische Fortentwicklung und Ausdifferenzierung vollzog“. Das Genre der Meta-Inhaltsanalyse lässt sich speziellen Forschungsaktivitäten im Fach zurechnen, die Gerhard Vowe auf der DGPuK-Jahrestagung 2012 in Berlin mit dem Begriff der „Selbstbeforschung“ charakterisiert hat. Die wissenschaftlichen Zugänge der Selbstbeforschung reichen von empirischen Studien (z. B. Brosius 1994, 1998; Brosius und Haas 2009; Donsbach et al. 2005; Hohlfeld und Neuberger 1998; Huber 2010; Löblich 2010; Wirth 2001), über fachhistorische Arbeiten (z. B. Meyen und Löblich 2004; Meyen und Wendelin 2008; Wilke 2005, 2010) bis hin zu Interviewsammlungen (z. B. Meyen und Löblich 2007; Riesmeyer und Huber 2012; Vogelgesang 2012). Gemein ist diesen Texten, dass in ihnen das Selbstverständnis von Kommunikationswissenschaftlern zum Ausdruck kommt. Die Einhaltung von Qualitätsstandards empirischer Forschung und ihre Dokumentation machen unserer Ansicht nach einen Teil dieses Selbstverständnisses aus. So gesehen verstehen wir unsere Forschungsnotiz in erster Linie als die Dokumentation eines Ausschnitts inhaltsanalytischer Forschungspraxis. Die Meta-Inhaltsanalyse zeigt, dass trotz einer grundsätzlich positiven Entwicklung in diesem Bereich die bisherige Dokumentationspraxis der Reliabilitätsprüfung teilweise im Widerspruch zu den Empfehlungen der Lehrbuchliteratur steht. Deshalb sind wir der Ansicht, dass es nach gut zehn Jahren Debatte über die Qualität von Inhaltsanalysen im deutschsprachigen Raum, deren Beginn wir auf die Veröffentlichung des Sammelbands „Inhaltsanalyse“ (vgl. Wirth und Lauf 2001) datieren, endlich an der Zeit ist, sich nach dem Vorbild der DFG-Denkschrift „Qualitätskriterien der Umfrageforschung“ (vgl. Kaase 1999) aus der Mitte des Fachs heraus über Qualitätskriterien der Inhaltsanalyse zu verständigen. Auf dem Weg zu dieser Verständigung könnte dann auch systematisch nach den Gründen der uneinheitlichen Dokumentationspraxis der Reliabilitätsprüfung gefragt werden, über die wir an dieser Stelle nur spekulieren könnten.