1 Einleitung

Lesen als Fähigkeit geschriebene Texte zu verstehen und zu nutzen gilt als eine Schlüsselkompetenz moderner Gesellschaften (Rychen und Salganik 2003). Dabei ist Lesekompetenz nicht nur fächerübergreifend wichtig für eine erfolgreiche Schullaufbahn (Härtig et al. 2015), sondern darüber hinaus wesentlich für die Teilhabe an gesellschaftlich-kultureller Praxis. So gilt Lesen nach Barker und Escarpit (1973) als effektives Mittel für die Aneignung, Organisation und Anwendung von Wissen. Die Bedeutung dieser Kulturtechnik als unverzichtbare Kompetenz im Berufsalltag zeigt sich auch darin, dass Lesen zu einer der am häufigsten genannten Arbeitsanforderungen über verschiedenste Berufsfelder gehört (Klaukien et al. 2013). Dabei ist es wichtig zu erwähnen, dass – obwohl die grundlegende Vermittlung der Lesekompetenz im Grundschulalter erfolgt – die Förderung der Lesekompetenz auch zu den zentralen Aufgaben von Schule in der Sekundarstufe gehört (vgl. Artelt et al. 2001). Die Relevanz von Leseförderung auch jenseits der Grundschule wird durch die in Deutschland wiederholt gefundenen hohen Anteile sehr leistungsschwacher Schülerinnen und Schüler in den PISA-Studien (zusammenfassend Hohn et al. 2013) sowie vergleichbare Anteile im Erwachsenenalter (Zabal et al. 2013) deutlich.

Es gibt inzwischen einige Studien, die sich mit Lesekompetenz bzw. spezifischeren Lesefähigkeiten in der Sekundarstufe I beschäftigen. Längsschnitte zur Modellierung von Leistungszuwächsen bleiben in dieser Altersklasse aber eine Ausnahme. Zudem fokussierten die vorhandenen Studien eher den Zeitraum zu Beginn der Sekundarstufe I – Entwicklungen nach der sechsten Klassenstufe wurden unseres Wissens bislang kaum untersucht (für Ausnahmen siehe z. B. Cameron et al. 2015; Gailberger und Willenberg 2008). So ist weitgehend ungeklärt, ob die Lesekompetenzentwicklung gegen Ende der Sekundarstufe I stagniert oder ob noch substanzielle Lernzuwächse zu verzeichnen sind. Zudem stellt sich die Frage, ob sich auch in dieser Altersgruppe Leistungsunterschiede zwischen Schülerinnen und Schülern in Abhängigkeit von Schulform, Geschlecht, Zuwanderungshintergrund sowie soziokulturellem Hintergrund noch weiter vergrößern, ob sie stabil sind, oder ob sie sogar geringer werden. Bisher existieren auch zur Relevanz dieser Prädiktoren in der hier relevanten Altersgruppe nur wenige Arbeiten (siehe für Ausnahmen z. B. Cameron et al. 2015; Gailberger und Willenberg 2008; Nikolova 2011; Robinson und Lubienski 2011). Im vorliegenden Beitrag wurde die Entwicklung der Lesekompetenz im letzten Abschnitt der Sekundarstufe I (Klassenstufe 9 bis 10) an einer großen Stichprobe im Rahmen des PISA-Längsschnitts 2012/2013 untersucht, der eine Messwiederholung nach einem Schuljahr umfasst.

Im Fokus des Beitrags stehen sowohl inhaltliche Fragestellungen zur Kompetenzentwicklung (s. oben), als auch methodische Fragestellungen, die sich Einflüssen von längsschnittlichen Änderungen der Persistenz der Testbearbeitung widmen (z. B. deMars 2007), die mittels (Item-)Positionseffekten (Leary und Dorans 1985) operationalisiert wurden. Konkret gehen wir der Frage nach inwieweit die untersuchten Determinanten der Kompetenzentwicklung mit der Veränderung der Persistenz der Bearbeitung der Leistungstests assoziiert sind und somit zu „Scheineffekten“ hinsichtlich deren Vorhersageleistung für die Kompetenzentwicklung führen können (vgl. Nagy et al. 2017).

In den nachfolgenden Abschnitten fassen wir den aktuellen Stand der Forschung zur Kompetenzentwicklung im Bereich Lesen in der Sekundarstufe I zusammen. In diesem Zusammenhang diskutieren wir auch eine über die Zeit veränderliche Persistenz der Testbearbeitung als eine mögliche Störvariable, die sich auf die Ergebnisse von Längsschnittanalysen zur Kompetenzentwicklung auswirken kann. Anschließend präzisieren wir die Fragestellungen des Beitrags, präsentieren die Datengrundlage der Auswertungen und stellen ein längsschnittliches Analysemodell vor, dass die Erfassung der Effekte der untersuchten Kovariaten auf die Veränderung der Persistenz der Testbearbeitung erlaubt (vgl. Nagy et al. 2017; Nagy et al. 2016). Das Modell basiert auf der Item Respose Theorie (IRT) und basiert auf der Annahme, dass sich eine geringe Persistenz der Testbearbeitung in einer über den Testverlauf graduellen Abnahme der Lösungswahrscheinlichkeit der Testitems manifestiert, die mit sogenannten Positionseffekten kompatibel ist (Leary und Dorans 1985).

2 Entwicklung von Lesekompetenzen in der Sekundarstufe I

Die grundlegende Entwicklung von Lesefähigkeiten findet im Vor- und Grundschulalter statt. Dabei zeigt sich etwa in dem Modell von Lundberg (2002), dass diese Entwicklung eng mit dem allgemeinen Spracherwerb verbunden ist. Dass diese Entwicklung aber nicht mit Eintritt in die Sekundarstufe I abgeschlossen ist, wird deutlich, wenn man die Ergebnisse für Deutschland aus den PISA-Studien mit denen im Grundschulalter aus PIRLS (Progress in International Reading Literacy Study) vergleicht. Wenngleich dies mit einigen methodischen Herausforderungen verbunden ist, haben Artelt et al. (2008) einen vorsichtigen Vergleich der Ergebnisse beider Studien vorgenommen. Die vergleichsweise gute Ausgangsposition deutscher Schülerinnen und Schüler im Lesen, die in PIRLS gefunden wurde, konnte bei PISA nicht bestätigt werden. Entsprechend folgern Artelt et al., dass die Förderung der Lesekompetenz in der Sekundarstufe nicht optimal funktioniert.

Wie sich die Lesekompetenz im Verlauf der Sekundarstufe I – vor allem jenseits der sechsten Klassenstufe – entwickelt ist allerdings nach wie vor eher selten untersucht worden. In den wenigen längsschnittlichen Studien, die Erkenntnisse hierzu liefern, ist die Befundlage zudem recht heterogen. So zeigten sich etwa in den LAU- (Aspekte der Lernausgangslage und der Lernentwicklung; Lehmann et al. 2004) oder KESS-Studien (Kompetenzen und Einstellungen von Schülerinnen und Schülern; Nikolova 2011) in deskriptiven Analysen jeweils moderate bis hohe Zuwächse im Lesen, wobei die Zuwächse von Klasse 9 nach 11 größer waren als die Zuwächse von Klasse 7 nach 8 bzw. Klasse 8 nach 10. In anderen Arbeiten zeigte sich dagegen, dass Leistungszuwächse im Lesen im Verlauf der Sekundarstufe in höheren Klassenstufen eher geringer wurden (Bloom et al. 2008; Cameron et al. 2015; Retelsdorf et al. 2011) oder dass die Leseleistung zunächst anstieg, sich am Ende der Sekundarstufe aber sogar rückläufig entwickelte (van Gelderen et al. 2007). Auch in der Messwiederholung im Rahmen der DESI-Studie (Deutsch Englisch Schülerleistungen International) zeigten sich nur sehr kleine Leistungszuwächse vom Anfang bis zum Ende der 9. Klassenstufe (Gailberger und Willenberg 2008).

Zusammenfassend zeigte sich in bisherigen Studien also ein eher heterogenes Bild der Entwicklung der Lesekompetenz in der Sekundarstufe. In der Gesamtschau überwiegen aber Studien, die für das Ende der Sekundarstufe nur noch geringe Zuwächse oder eine Stagnation der Entwicklung der Lesekompetenz erwarten lassen. Neben dieser durchschnittlichen Entwicklung stellt sich die Frage nach differenziellen Entwicklungsverläufen in Abhängigkeit von institutionellen, familiären und individuellen Merkmalen. In diesem Beitrag haben wir uns auf die Merkmale Schulform, Geschlecht, Zuwanderungshintergrund und soziokultureller Hintergrund konzentriert, da diese häufig im Fokus von querschnittlich angelegten Large-Scale-Studien stehen (z. B. OECD 2016), jedoch bis heute vergleichsweise selten im Kontext von Längsschnittstudien zur Entwicklung der Leseleistung am Ende der Sekundarstufe I betrachtet wurden. Von diesen Merkmalen ist bekannt, dass sie in enger Beziehung mit dem Stand der Leseleistungen stehen und zentral für eine Beschreibung leistungsschwacher Schülerinnen und Schüler in PISA sind (OECD 2016). Somit stellt sich die Frage nach deren Zusammenhang mit der Leistungsentwicklung in der letzten Phase der Sekundarstufe I. Dem Forschungsstand zur Bedeutung dieser Merkmale für die Lesekompetenz widmen wir uns im folgenden Abschnitt.

3 Differenzielle Entwicklungen in Abhängigkeit von Schulform, Geschlecht und Merkmalen des soziodemografischen Hintergrunds

Effekte der Schulform auf die Kompetenzentwicklung von Schülerinnen und Schülern wurden bereits häufig untersucht. Dabei zeigte sich für Mathematik das recht einheitliche Bild größer werdender Unterschiede zwischen Schülerinnen und Schülern an Gymnasien und anderen Schulformen zugunsten der Gymnasien (im Überblick s. Becker 2009). Im Bereich der Lesekompetenz ist die Befundlage zu solchen Schereneffekten deutlich heterogener. Hier zeigten sich unterschiedliche Ergebnisse zwischen Studien, aber auch innerhalb einzelner Studien in Abhängigkeit vom jeweils konkret betrachteten Aspekt der Lesekompetenz. So zeigte sich etwa bei Retelsdorf et al. (2012) im Verlauf von der fünften zur achten Klasse ein Schereneffekt für Dekodiergeschwindigkeit, allerdings nicht für das Textverstehen. Pfost et al. (2010) fanden andererseits einen Schereneffekt von der fünften bis zur sechsten Klasse im Leseverständnis, aber nicht im Wortschatz, während sich vor dem Übergang auf die weiterführenden Schulen in beiden Bereichen eine positivere Leistungsentwicklung der späteren Gymnasiastinnen und Gymnasiasten zeigte. In den bereits erwähnten Studien LAU und KESS wurden insgesamt inkonsistente Ergebnisse für Schereneffekte in der Lesekompetenz berichtet (Lehmann et al. 2004; Nikolova 2011). Während in LAU zum Teil sogar größere Leistungszuwächse an Nicht-Gymnasien gefunden wurden, zeigten sich in KESS eher parallele Entwicklungsverläufe für Gymnasien, Real- und Gesamtschulen – lediglich die Hauptschulen fielen leicht zurück. Zusammenfassend bleibt die Befundlage zu Schereneffekten im Lesen uneindeutig.

Bezogen auf Geschlechterunterschiede im Lesen schlussfolgerte Hyde (2014) in ihrem aktuellen Überblicksbeitrag, dass der Unterschied zwischen Jungen und Mädchen im Lesen eher klein ist. Im Gegensatz dazu findet sich in einer aktuellen Auswertung von PISA-Daten bei Reilly (2012) ein deutlicher Vorteil von Mädchen gegenüber Jungen über alle Länder hinweg (d = 0,44). Neben diesen widersprüchlichen Aussagen über Niveauunterschiede im Lesen finden sich in den existierenden längsschnittlichen Analysen zu Geschlechterunterschieden in der Sekundarstufe neben Differenzen im Ausgangswert allenfalls Hinweise auf kleine Effekte im Verlauf zugunsten der Mädchen (z. B. Gailberger und Willenberg 2008; Retelsdorf und Köller 2014; Retelsdorf et al. 2011). Diese Ergebnisse passen gut zu der Studie von Cameron et al. (2015), die einen größer werdenden Unterschied zugunsten der Mädchen etwa bis zur dritten oder vierten Klasse feststellten – im weiteren Verlauf bis zur achten Klasse blieb dieser weitgehend stabil. Robinson und Lubienski (2011) fanden im Mittel eher stabile Geschlechterunterschiede im Lesen vom Kindergarten bis zur achten Klasse. Bei Betrachtung der leistungsschwachen Schülerinnen und Schüler zeigte sich im Verlauf allerdings ein kleiner bis mittlerer Schereneffekt zugunsten der Mädchen. Schließlich zeigten sich in einer Studie von De Fraine et al. (2007), die ebenfalls nichtlineare Entwicklungsverläufe sprachlicher Fähigkeiten in Abhängigkeit des Geschlechts betrachteten, stetige Zuwächse für die Mädchen von der siebten bis zur 12. Klasse, während für die Jungen etwa bis zur achten Klasse zunächst ein Leistungsrückgang zu verzeichnen war, bevor sie in Klasse 12 fast das Niveau der Mädchen erreichten.

Niedrigere Werte in der Lesekompetenz wurden auch für Schülerinnen und Schüler mit Zuwanderungshintergrund im Vergleich zu denen ohne Zuwanderungshintergrund wiederholt festgestellt (z. B. Lesaux und Kieffer 2010; Marx und Stanat 2012). Allerdings zeigten sich auch hier in der Arbeit von Cameron et al. (2015) zunächst größer werdende Unterschiede bis zur vierten oder fünften Klasse, bevor diese bis zur achten Klasse etwa stabil blieben. Auch hierzu passen weitere längsschnittliche Studien, die Zusammenhänge des Zuwanderungshintergrunds mit dem Ausgangsniveau, nicht aber mit der weiteren Entwicklung fanden (z. B. Kigel et al. 2015; Retelsdorf und Köller 2014; Retelsdorf et al. 2011). Baumert et al. (2012) fanden sogar einen Kompensationseffekt für Schülerinnen und Schüler mit Zuwanderungshintergrund, der zur Folge hatte, dass die Unterschiede im Verlauf von der vierten zur sechsten Klasse geringer wurden.

Schließlich zeigte sich bei verschiedenen Aspekten des soziokulturellen Hintergrunds ein ähnliches Bild wie beim Geschlecht und dem Zuwanderungshintergrund. In der Grundschule lassen sich zunehmende Unterschiede zugunsten von Kindern aus besser gestellten Familien in der Lesekompetenz beobachten, die je nach Untersuchung bereits zu Beginn der Grundschulzeit (Aikens und Barbarin 2008) oder später ab der fünften Klasse (Cameron et al. 2015) stabil blieben. Entsprechend zeigten sich in längsschnittlichen Studien in der Sekundarstufe vor allem Zusammenhänge des soziokulturellen Hintergrunds mit dem Ausgansniveau und keine oder nur sehr kleine Effekte auf die längsschnittliche Kompetenzentwicklung (z. B. Kigel et al. 2015; Retelsdorf und Köller 2014; Retelsdorf et al. 2011).

Zusammenfassend ist die Befundlage bei allen hier berücksichtigten Prädiktoren der Entwicklung der Lesekompetenz uneinheitlich. Es scheint aber in der Tendenz zu gelten, dass Unterschiede zwischen den jeweils relevanten Gruppen vor allem zu Beginn der Grundschulzeit größer werden und dass diese Unterschiede dann im weiteren Verlauf der Schulzeit auf einem stabilen Niveau bleiben.

4 Veränderung der Persistenz der Testbearbeitung im Längsschnitt als potentielle Störquelle

Zusätzlich zu den Ergebnissen früherer Untersuchungen zu differenziellen Entwicklungen der Lesekompetenz stellt sich die Frage, ob etwaige Unterschiede auf Aspekte der Testbearbeitung (z. B. Persistenz der Testbearbeitung) zurückzuführen sind. So erklären z. B. De Fraine et al. (2007) den oben berichteten zeitweiligen Rückgang sprachlicher Fähigkeiten bei Jungen mit einer möglichen niedrigen Testmotivation der Jungen in der achten Klasse. Diese Argumentation erscheint im Lichte der in diesem Band berichteten Befunde nicht unplausibel. Nagy et al. 2017 berichteten Testkontexteffekte, die in Überstimmung mit Effekten der Positionen der Items in den im PISA-Längsschnitt 2012/2013 eingesetzten Tests ausfielen. Die dort berichteten Ergebnisse dokumentieren einen Anstieg der Positionseffekte vom ersten zum zweiten Messzeitpunkt, wobei dieses Muster für den Bereich Lesen besonders stark ausgeprägt war.

(Item-)Positionseffekte führen in der Regel dazu, dass die Lösungswahrscheinlichkeit eines Items mit zunehmender Nähe zum Ende des Tests sinkt (z. B. Meyers et al. 2009). Diese Effekte werden als Indikatoren einer suboptimalen Persistenz der Testbearbeitung diskutiert und können somit als eine Facette der Motivation der Testbearbeitung verstanden werden (Debeer et al. 2014). Dementsprechend ist die Stärke von Positionseffekten prinzipiell variabel und kann sich somit zwischen Gruppen und/oder Messzeitpunkten unterscheiden (Debeer et al. 2014; DeMars 2007; Hartig und Buchholz 2012).

Wie Nagy et al. (2017) gezeigt haben, können Positionseffekte und deren längsschnittliche Veränderung mit individuellen und kontextuellen Merkmalen interagieren. In solchen Situationen kann die Nichtberücksichtigung von Positionseffekten zu falschen Schlussfolgerungen über individuelle und kontextuelle Prädiktoren der Kompetenzveränderung führen. Eine Abnahme der Persistenz der Testbearbeitung über die betrachteten Messzeitpunkte impliziert eine Abnahme der mittleren Lösungswahrscheinlichkeit der bearbeiteten Testitems. Insofern die Abnahme der Lösungswahrscheinlichkeiten, die sich infolge von Positionseffekten (d. h. der geringer werdenden Persistenz der Testbearbeitung) ergibt, nicht kontrolliert wird, wird diese irrtümlich einer Abnahme des Kompetenzniveaus zugeschrieben (vgl., Nagy et al. 2016). Ändert sich die Persistenz der Testbearbeitung im Längsschnitt in Abhängigkeit einer Kovariate (z. B. stärkere längsschnittliche Abnahme bei männlichen Schülern), könnte dieser Zusammenhang irrtümlich einem Effekt der Kovariate auf die Kompetenzentwicklung zugeschrieben werden, sofern die entsprechenden Zusammenhänge der Kovariate mit Positionseffekten unberücksichtigt bleiben. Nagy et al. (2017) haben diesen Effekt am Beispiel von Schulformunterschieden illustriert. Im Prinzip können sich jedoch derartige Verzerrungen für jede der in diesem Beitrag betrachteten Erklärungsvariablen ergeben. Aus diesem Grund haben wir im vorliegenden Beitrag die Effekte der betrachteten Kovariaten auf die Persistenz der Testbearbeitung (Operationalisiert durch Effekte der Position von Itemblöcken bzw. Itemclustern) explizit berücksichtigt.

5 Die vorliegende Studie

Längsschnittliche Untersuchungen zur Entwicklung der Lesekompetenz am Ende der Sekundarstufe sind rar. Auch in der ersten Messwiederholung im Rahmen von PISA 2003 (PISA-I-Plus; Prenzel et al. 2006) wurde die Lesekompetenz nicht berücksichtigt. Vor diesem und dem eingangs referierten Hintergrund sollte in der vorliegenden Studie mehreren Forschungsfragen nachgegangen werden. Erstens wollten wir prüfen, ob gegen Ende der Pflichtschulzeit überhaupt noch Zuwächse in der Lesekompetenz zu verzeichnen sind. Gerade vor dem Hintergrund der Arbeiten, die eine sich über die Schullaufbahn verlangsamende Kompetenzentwicklung zeigen (Bloom et al. 2008; Cameron et al. 2015), sind dabei nicht unbedingt weitere Zuwächse zu erwarten.

Zweitens sollten differenzielle Leistungsentwicklungen in Abhängigkeit von Schulform, Geschlecht, Zuwanderungshintergrund und soziokulturellem Hintergrund untersucht werden. Für alle vier Merkmale lassen sich aus der Literatur keine eindeutigen Erwartungen ableiten – erwartbar wären auf Grundlage früherer Studien am ehesten sich leicht öffnende Leistungsscheren oder parallele Entwicklungsverläufe. Allerdings sind auch kompensatorische Entwicklungen denkbar, bei denen eine vormals benachteiligte Gruppe zu den übrigen Schülerinnen und Schülern aufschließt (vgl. etwa Baumert et al. 2012).

Schließlich sollte drittens untersucht werden, inwieweit die hier untersuchten Prädiktoren der Leistungsentwicklung mit Positionseffekten und deren längsschnittlicher Veränderung interagieren. Diese Analysen sind auf zweierlei Weise bedeutsam. Zunächst liefern sie Hinweise für Assoziationen der Testbearbeitungspersistenz (operationalisiert durch Positionseffekte) und deren Veränderung mit den untersuchten Prädiktorvariablen. Insofern derartige Assoziationen vorliegen, werden Effekte der Hintergrundvariablen auf die Leistungsentwicklung unter Kontrolle der Bearbeitungspersistenz zudem realistischer geschätzt.

Die Berücksichtigung von Positionseffekten als Indikatoren der Bearbeitungspersistenz erscheint gerade im Kontext der Entwicklung der Leseleistung in der letzten Phase der Sekundarstufe I wichtig. Wie zuvor ausgeführt, lassen sich auf Ebene der Gesamtstichprobe eher kleine Leistungszuwächse erwarten. Geht man ferner davon aus, dass (reale) Kompetenzverluste unplausibel sind, folgen daraus geringe Effekte der Prädiktorvariablen auf die Leistungsentwicklung, da sich die mittleren Zuwächse einzelner Teilgruppen (z. B. Geschlechtergruppen) zu einem relativ geringen Gesamtzuwachs addieren müssen. In solchen Datenkonstellationen können bereits relativ schwache Verzerrungen der Effektschätzungen zu falschen Rückschlüssen über die Leistungsentwicklung führen (vgl. Nagy und Neumann 2010). Hinzu kommt, dass die Ergebnisse von Nagy et al. (2017) darauf hindeuten, dass der Bereich Lesen im PISA-Längsschnitt 2012/2013 besonders stark von Positionseffekten betroffen ist, sodass sich diese besonders stark auf die Ergebnisse von Zuwachsschätzungen auswirken können.

6 Methode

6.1 Stichprobe

Grundlage der vorliegenden Auswertung ist eine Teilstichprobe des von Heine et al. (2017) beschriebenen Samples. Konkret haben wir uns auf diejenigen Schülerinnen und Schüler (n = 4954) konzentriert, die zumindest an einem der beiden Messzeitpunkte des PISA-Längsschnitts 2012/2013 Items zur Erfassung der Lesekompetenz bearbeitet haben. Das analysierte Sample kann als eine Zufallsauswahl der Ausgangsstichprobe (N = 6584) verstanden werden, da sie eine Funktion der bearbeiteten Testbooklets ist, auf die die Schülerinnen und Schüler zufällig verteilt wurden. Die Eingrenzung der Stichprobe ist eine Folge der Entscheidung die Leistungsentwicklung im Bereich Lesen mittels IRT-Modellen auszuwerten, die zumindest einen Teilmenge valider Itemantworten voraussetzen. Aufgrund der designbedingten „Zufallsauswahl“ des Analysesamples, ist nicht mit systematischen Verzerrungen der Befunde gegenüber der Zielpopulation zu rechnen.

Die vorliegende Datenkonstellation bietet im Zusammenhang mit IRT basierten Analyseverfahren die Möglichkeit auch Angaben von Schülerinnen und Schüler zu verwenden, die den Lesetest zu nur einem Messzeitpunkt bearbeitet haben. Fehlende Werte zum ersten Messzeitpunkt können als „missing completely at random“ (Rubin 2004) verstanden werden, da sie sich ausschließlich in Folge der zufallsbedingten Zuordnung von Schülerinnen und Schülern zu Testbooklets ergeben. Fehlende Werte zum ersten Messzeitpunkt wirken sich somit nicht systematisch auf die Abschätzung der Verteilung der Lesekompetenz in Klassenstufe 9 aus. Fehlende Werte zum zweiten Messzeitpunkt ergaben sich demgegenüber als eine Folge der zufälligen Zuordnung zu Testbooklets und des selektiven Stichprobenausfalls, wobei letzterer maßgeblich vom Kompetenzniveau in Klassenstufe 9 gesteuert wurde (vgl. Heine et al. 2017). Die zum zweiten Messzeitpunkt vorliegenden fehlenden Werte können sich somit auf die Abschätzung der Kompetenzverteilung des zweiten Messzeitpunkts und somit auf die Kompetenzveränderung auswirken, sofern die zentralen Determinanten des Ausfallsprozesses unberücksichtigt bleiben (Rubin 2004). Aus diesem Grund haben wir uns für eine mehrdimensionale IRT-Modellierung entschieden, die beide Messzeitpunkte berücksichtigt. Diese Analysestrategie wirkt Verzerrungen der Analyseergebnisse entgegen, die sich bei einer Ausblendung der Determinanten des selektiven Stichprobenausfalls (d. h. den Ausgangsniveaus der Kompetenzen) einstellen würden.

6.2 Instrumente

6.2.1 Lesekompetenztests

Das zur Erfassung der Leseleistung verwendete Testdesign ist im Detail im Beitrag von Nagy et al. (2017; Tab. 1) dargestellt. Die Leseleistung wurde in der ersten Erhebungswelle mittels dreier Itemcluster (L1, L2 und L3) erhoben, die 14 (L1 und L3) bzw. 15 Einzelitems (L2) umfassten. In der zweiten Welle wurden nur zwei der drei ursprünglichen Itemcluster eingesetzt (L2 und L3). Das zur ersten Welle verwendete Bookletdesign war hinsichtlich der Position der Itemcluster ausbalanciert. Die drei Itemcluster verteilten sich auf insgesamt neun von 13 Booklets, wovon sechs Booklets ein Itemcluster und drei Booklets zwei Itemcluster enthielten.

Die Balance der Itemclusterpositionen wurde zur zweiten Welle nur approximativ erfüllt (für Details vgl. Nagy et al. 2017). Insgesamt sieben von 18 Booklets umfassten Items zur Lesekompetenz und nur ein Booklet umfasste ein Itemcluster (L3) an der ersten Position. Diese Datenkonstellation hatte zur Folge, dass die hinsichtlich der ersten Itemclusterposition definierten Zuwächse mit einer vergleichsweise geringen Präzision erfasst wurden. Zum zweiten Messzeitpunkt umfassten sechs Booklets jeweils ein Itemcluster und ein Booklet zwei Itemcluster zum Bereich Lesen.

6.2.2 Hintergrundvariablen

Die Schulform wurde als dichotome Variable erfasst mit den Ausprägungen Gymnasium (46 %) und Nicht-Gymnasium (54 %). Dabei setzte sich die Gruppe der Nicht-Gymnasiasten zusammen aus Schülerinnen und Schülern an Realschulen, Schulen mit mehreren Bildungsgängen und integrierten Gesamtschulen. Sonderschulen, Hauptschulen oder anderen Schulen mit voraussichtlichem Hauptschulabschluss wurden aus den Analysen ausgeschlossen, da sie nicht Bestandteil der in der im PISA-Längsschnitt 2012/2013 avisierten Zielpopulation sind (vgl. Heine et al. 2017).

Der Zuwanderungshintergrund wurde für unsere Analysen ebenfalls dichotom erfasst. In Übereinstimmung mit den internationalen PISA-Berichten (z. B., OECD 2014) wurde Schülerinnen und Schülern dann ein Zuwanderungshintergrund (12 %) zugeschrieben, wenn beide Elternteile, oder sie selbst und mindestens ein Elternteil, im Ausland geboren wurden. Schülerinnen und Schüler mit nur einem im Ausland geborenen Elternteil wurden nicht zur Gruppe der Schülerschaft mit Zuwanderungshintergrund gezählt. Wir haben uns bewusst für eine dichotome Kategorisierung entschieden, da die verwendeten Messmodelle vergleichsweise hoch parametrisiert sind und jede weiter Kategorie zu einer Vielzahl zusätzlicher Parameter geführt hätte, die auf Grundlage des relativ geringen Datenumfangs (vgl. Tab. 1 in Nagy et al. 2017) nicht akkurat hätten geschätzt werden können.

Zur Erfassung des soziokulturellen Hintergrunds wurde der im Rahmen der PISA-Studie erhobene „International Socio-Economic Index of Occupational Status“ (ISEI; Ganzeboom et al. 1992) verwendet. Der ISEI ist ein in der internationalen Schulleistungsforschung etabliertes Maß des mit der Ausübung eines Berufs assoziierten sozioökonomischen Status. Der ISEI wurde getrennt aus den Angaben der ausgeübten Berufe der Mütter und Väter berechnet und die höchste Ausprägung wurde zur Erfassung des sozioökonomischen familiären Hintergrunds herangezogen (HISEI). Da der HISEI-Index einen weiten Wertebereich aufweist, wurde er zur besseren Interpretierbarkeit der Analysen in der Gesamtstichprobe z-standardisiert (M = 0; SD = 1).

Insgesamt lagen auf den Indikatoren des Zuwanderungshintergrunds und des sozioökonomischen familiären Hintergrunds eine Reihe von fehlenden Werten vor (vgl. Heine et al. 2017). Um den Ausschluss von Personen mit fehlenden Angaben auf einer dieser Variablen zu vermeiden, wurden die Variablen im Vorfeld der Analysen in der verwendeten Teilstichprobe imputiert. Konkret haben wir die Methode der multiplen Imputation (Rubin 2004) verwendet, wobei wir eine Imputationsmethode herangezogen haben, die die kategoriale Natur einzelner Variablen und darüber hinaus eine Reihe weiterer Hintergrundvariablen berücksichtigte (Schulform, Geschlecht, Ausgangsleistungen in den PISA-Tests). Wir haben 25 Ersetzungen der fehlenden Werte vorgenommen und die Ergebnisse der 25 Imputationen wurden entsprechend der Regeln von Rubin zu einem Gesamtergebnis integriert.

7 Statistische Analysen

Die Auswertung der Daten erfolgte mittels IRT-Modellen. Wir haben uns gegen die Verwendung von Plausible Values entschieden, da die Analysen für den Bereich Lesen Hinweise auf starke längsschnittliche Varianzzunahmen erbrachten, die möglicherweise Positionseffekten geschuldet sein könnten (vgl. Nagy et al. 2017). Das in diesem Beitrag verwendete Modell berücksichtigt mögliche Interaktionen zwischen den untersuchten Prädiktoren der Leistungsentwicklung und Bookleteffekten. Das Verfahren ermöglicht es somit festzustellen, inwieweit etwaige Effekte auf die Leistungsentwicklung letztlich auf längsschnittliche Veränderungen von Positionseffekten zurückzuführen sind.

Im vorliegenden Modell wurde der Logit der Wahrscheinlichkeit einer korrekten Antwort auf einem (dichotomen) Item einer Person i auf Item j des Itemclusters c in Booklet b t zum Messzeitpunkt t, \(y_{ijcb_{t}t}\), dargestellt als

$$Log\left [\frac{P\left (y_{ijcb_{t}t}=1\right )}{P\left (y_{ijcb_{t}t}=0\right )}\right ]=\theta _{it}+\nu _{ict}-\beta _{j},$$
(1)

wobei \(\beta _{j}\) die Schwierigkeit des Items j (fixiert auf die Ergebnisse der Itemkalibrierung von Nagy et al. 2017) und \(\theta _{it}\) die Fähigkeitsausprägung der Person i zum Zeitpunkt t indiziert. \(\nu _{ict}\) ist eine Platzhaltervariable, deren Ausprägung vollständig von externen Variablen (Booklet-Indikatoren und Interaktionen mit den Prädiktoren der Leistungsentwicklung) determiniert wird. Der im PISA-Längsschnitt 2012/2013 eingesetzte Lesetest setzte sich zum ersten Messzeitpunkt (t = 1) aus drei und zum zweiten Messzeitpunkt (t = 2) aus zwei Itemclustern zusammen, sodass zum ersten Messzeitpunkt drei (\(\nu _{11}\), \(\nu _{21}\) und \(\nu _{31}\)) und zur zweiten Welle zwei Platzhaltervariablen (\(\nu _{22}\) und \(\nu _{32}\)) in das Modell aufgenommen wurden.

Positionseffekte wurden über Bookleteffekte approximiert (Nagy et al. 2017). Die Effekte wurden mittels dichotomer Bookletindikatoren ermittelt, wobei zu jedem Messzeitpunkt ein Booklet als Referenz diente. Die Fähigkeitsvariablen wurden mittels folgender Regressionsgleichung modelliert

$$\theta _{it}=\alpha _{t}+\delta _{t}x_{i}+\overset{B_{t}-1}{\underset{b_{t}=1}\sum }\left (\gamma _{0b_{t}t}d_{ib_{t}}+\gamma _{1b_{t}t}d_{ib_{t}}x_{i}\right )+\zeta _{it},$$
(2)

während die Ausprägungen der Platzhaltervariablen wie folgt modelliert wurden

$$\nu _{ict}=\overset{B_{t}-1}{\underset{b_{t}=1}\sum }\left (\gamma _{0cb_{t}t}d_{ib_{t}}+\gamma _{1cb_{t}t}d_{ib_{t}}x_{i}\right ).$$
(3)

In Gl. 2 steht \(\alpha _{t}\) für den zeitspezifischen Regressionsintercept und \(\delta _{t}\) indiziert das zeitspezifische Regressionsgewicht der Prädiktorvariablen x. \(\zeta _{it}\) ist ein Abweichungsterm mit einem Mittelwert von 0 (Residuum). In den Gln. 2 und 3 stehen die Variablen \(d_{ib_{t}}\) für die Bookletindikatoren der Person i zum Messzeitpunkt t, wobei zu jedem Messzeitpunkt B t – 1 Indikatoren gebildet wurden (mit \(b_{t}\) als Bookletvariable zum Messzeitpunkt t). Dementsprechend stehen die \(\gamma _{0b_{t}t}\)- und \(\gamma _{0cb_{t}t}\)-Parameter für zeitspezifische Bookleteffekte auf die Fähigkeitsausprägungen und Platzhaltervariablen, während die Parameter \(\gamma _{1b_{t}t}\) und \(\gamma _{1cb_{t}t}\) die Interaktion zwischen Booklets und x erfassen.

Die in Gl. 2 ausgewiesenen Booklet- und Interaktionseffekte wurden frei geschätzt. Demgegenüber wurde der Großteil der in Gl. 3 ausgewiesenen Effekte auf die Platzhaltervariablen auf 0 restringiert. Diese Restriktionen ergaben sich aus Gründen der Modellidentifikation und stellten sicher, dass die ermittelten Bookleteffekte Auskunft über Positionseffekte liefern. Die konkrete Parametrisierung des Modells ist in Tab. 1 anhand der Zerlegung der querschnittlichen Effekte einer Kovariaten x auf die positions- und clusterspezifische Testleistung dargestellt. Die dort definierten Parameter \(\omega _{pct}\) stehen für den Effekt einer Kovariaten x auf die Leistungen in Cluster c an Position p (p = 1, 2, 3, 4) zum Messzeitpunkt t.

Tab. 1 Darstellung der Zerlegung der Effekte einer Kovariate x auf die positions- und clusterspezifischen Testleistungen ( \(\omega _{pct}\) )

Aus der dortigen Darstellung geht hervor, dass zum ersten Messzeitpunkt der Effekt der Kovariate x auf das Itemcluster L3, das in Booklet 3 an der ersten Position vorgelegt wurde, als Referenz zur Bestimmung des Effekts diente (d. h. \(\omega _{1,3,1}=\delta _{1}\)).Footnote 1 Die Effekte der Kovariate auf die Itemcluster L2 und L1 an der ersten Position wurden in Referenz dazu bestimmt, wobei die entsprechenden \(\gamma\)-Parameter den Unterschied des Effekts der Kovariate auf die Itemcluster relativ zum Itemcluster L3 darstellen (d. h. Interaktionseffekt der Kovariate mit Itemcluster L2 und L3). Die Effekte der Kovariate auf Itemcluster, die an späteren Positionen vorgelegt wurden (d. h. p > 1) wurden ebenso relativ zum Referenzeffekt \(\delta _{1}\) ausgedrückt. Beispielsweise indiziert der Effekt \(\gamma _{1,3,2,1}\) den Unterschied des Effekts der Kovariate x auf das Itemcluster L3, das in Booklet 2 zum ersten Messzeitpunkt dargeboten wurde, relativ zum Effekt \(\delta _{1}\).

Um die Schätzung des Modells zu beschleunigen wurden die Effekte der Kovariaten x in Booklets, die zwei Itemcluster zum Bereich Lesen umfassten, auf die zuletzt dargebotenen Cluster mittels eines bookletspezifischen Abweichungsterms dargestellt. Der Parameter \(\gamma _{1c\left (b_{t}=h\right )t}^{*}\) ist definiert als die Differenz der Interaktionsterme des zuletzt in der Sequenz dargebotenen Clusters zum davor bearbeiteten Cluster in Booklet b t  = h. Beispielsweise entspricht der Interaktionseffekt \(\gamma _{1,2,2,1}\) (der Effekt von x auf Cluster c = 2 in Booklet b t  = 2 zum Zeitpunkt t = 1; vgl. Gl. 2) in der vorgenommen Parametrisierung (Tab. 1) der Summe \(\gamma _{1,2,2,1}=\gamma _{1,3,2,1}+\gamma _{1,2,2,1}^{*}\).

Die so ermittelten \(\omega\)-Parameter können über Itemcluster gemittelt werden, wobei \(\omega _{p\cdot t}\) dann für den über Itemcluster gemittelten Effekt von x zum Messzeitpunkt t an Position p steht. Der Vergleich der \(\omega _{p\cdot t}\)-Parameter ist insofern informativ, als dass er Hinweise für die Interaktion von Positionseffekten mit der Kovariate x liefert. Über die Positionen invariate \(\omega _{p\cdot t}\)-Parameter sind ein Indiz dafür, dass die Kovariate nicht mit den Positionseffekten interagiert, sodass der mittlere Parameter \(\omega _{\cdot \cdot t}\) (d. h. Mittelwert der Effekte über Cluster und Positionen zur Welle t) eine adäquate Darstellung des querschnittlichen Effekts von x liefert.

Die so definierten \(\omega\)-Parameter können verwendet werden, um den Effekt von x auf die Leistungsveränderung abzuschätzen. So lassen sich die Leistungsveränderungen in Abhängigkeit von x getrennt nach Positionen bestimmen: \(\Updelta _{\omega _{p\cdot }}=\omega _{p\cdot 2}-\omega _{p\cdot 1}\).Footnote 2 Der über Positionen gemittelte Effekt auf die Leistungsänderung lässt sich zudem als \(\Updelta _{\omega _{\cdot \cdot }}=\omega _{\cdot \cdot 2}-\omega _{\cdot \cdot 1}\) berechnen. Eine Situation, in der sich die positionsspezifischen \(\Updelta _{\omega _{p\cdot }}\)-Werte deutlich voneinander unterscheiden, indiziert, dass die in Abhängigkeit von x ermittelten Leistungszuwächse auch zeitspezifischen Interaktionen zwischen x und den Positionseffekten geschuldet sind. Demgegenüber indiziert ein Ergebnismuster, das über Positionen konstante Effektschätzungen aufzeigt, dass die Änderung der Positionseffekte über die Zeit nicht von x abhängt und \(\Updelta _{\omega _{\cdot \cdot }}\) eine valide Abschätzung des Effekts von x auf die Leistungsveränderung ermöglicht. Diese Situation ist aus inferenzstatistischer Sicht von Vorteil, da die \(\Updelta _{\omega _{\cdot \cdot }}\)-Parameter mit einer größeren Genauigkeit geschätzt werden (d. h. geringere Standardfehler aufweisen), während die positionsspezifischen \(\Updelta _{\omega _{p\cdot }}\)-Parameter im vorliegenden Design vergleichsweise ungenau geschätzt werden.

Das hier skizzierte Modell lässt sich im Prinzip um eine Vielzahl von Erklärungsvariablen und deren Interaktionen mit Bookleteffekten erweitern. Aus Gründen der Sparsamkeit haben wir uns jedoch auf Modelle mit maximal zwei Kovariaten beschränkt. Alle Modelle wurden mittels der Statistiksoftware Mplus 7.4 (Muthén und Muthén 1998–2012) geschätzt.

8 Ergebnisse

Die Auswertung der Leistungsentwicklung erfolgte in drei Schritten. Erstens wurde die Entwicklung in der Gesamtgruppe ausgewertet, wobei die Höhe der Positionseffekte und deren längsschnittliche Zu- oder Abnahme berücksichtigt wurden. Dieses Modell lieferte eine Abschätzung der mittleren Zu- oder Abnahme der Leistungsstände, der Leistungsvariabilität zu beiden Messzeitpunkten sowie der Variabilität der Leistungsveränderung.

Zweitens wurde das Ausgangsmodell um die Schulform als Erklärungsvariable ergänzt. Hierbei wurden auch die Interaktionen zwischen Schulform- und Bookleteffekten zugelassen. Zwar berichten bereits Nagy et al. (2017) die entsprechenden Schulformeffekte, allerdings liefert der hier verwendete Modellierungsansatz zusätzlich eine Abschätzung der Leistungsvariabilität und der Variabilität der Leistungsänderung nach Kontrolle der Schulform und deren Interaktionen mit den Bookleteffekten. Die entsprechenden Ergebnisse wurden gemeinsam mit den im Ausgangsmodell ermittelten Varianztermen verwendet, um den Erklärungsbeitrag der Schulform und deren Interaktionen mit den Positionseffekten abzuschätzen. Parallel hierzu wurde das Ausgangsmodell auch jeweils separat für die anderen betrachteten Erklärungsvariablen (d. h. Geschlecht, Zuwanderungshintergrund und sozioökonomischer Hintergrund) erweitert.

Drittens wurden die um die einzelnen Erklärungsvariablen erweiterten Modelle im letzten Schritt um die Schulformvariable und deren Interaktionen mit den Bookleteffekten ergänzt. Wir haben dieses Modell spezifiziert, da der Zuwanderungshintergrund und der sozioökonomische Hintergrund stark mit der besuchten Schulform kovariieren und sich somit die Frage nach deren eigenständigem Erklärungsbeitrag stellt. Wir haben jedoch auf eine gemeinsame Modellierung aller Erklärungsvariablen verzichtet, da die vorliegenden Daten keine belastbare Grundlage für ein derart hoch parametrisiertes Modell bieten.

In allen Modellen lag ein robuster Effekt einer Kovariate auf Lernzuwächse vor, wenn ein von 0 abweichender Effekt auf die Leistungsentwicklung an der ersten Testheftposition vorlag (d. h. \(\Updelta _{\omega _{1\cdot }}\)-Parameter). Insofern sich der Parameter \(\Updelta _{\omega _{1\cdot }}\) statistisch signifikant von 0 unterscheidet, bietet er einen robusten Hinweis für den um Positionseffekte bereinigten Effekt einer Kovariate auf die Leistungsentwicklung. Da dieser Test aufgrund der eher fragilen Datenkonstellation jedoch eine geringe Teststärke aufweist, kann der Effekt einer Kovariate auf die Leistungsentwicklung bei einer Situation, in der die positionsspezifischen \(\Updelta _{\omega _{p\cdot }}\)-Parameter weitgehend invariant über Testpositionen ausfallen (d. h., wenn keine Hinwiese für das Vorliegen von Bookletinteraktionen mit der Kovariate vorliegen), auch anhand des über Positionen und Cluster gemittelten \(\Updelta _{\omega _{\cdot \cdot }}\)-Parameters inferenzstatistisch evaluiert werden.

9 Leistungsentwicklung in der Gesamtstichprobe und Effekte der besuchten Schulform

In Tab. 2 sind die mittleren Testleistungen zu beiden Zeitpunkten getrennt nach Testheftpositionen abgetragen. Die über Positionen hinweg abnehmenden Mittelwerte dokumentieren die Positionseffekte. Mit Ausnahme der dritten Position unterschieden sich die Leistungen nicht zwischen den Messzeitpunkten (\(\hat{\Updelta }_{\omega _{p\cdot }}\)-Parameter in Tab. 2). Dieses Befundmuster indiziert, dass mit Ausnahme der dritten Position die Höhe der Positionseffekte unverändert blieb und dass die mittlere Leistung im Gesamtsample unverändert ausfiel (\(\hat{\Updelta }_{\omega _{\cdot \cdot }}\)-Parameter). Allerdings lag im Gesamtsample ein deutlicher Anstieg der Leistungsvariabiliät vor, der sich in einer vergleichsweise hohen Variabilität der individuellen Leistungsänderungen niederschlug.

Tab. 2 Testleistungen und Leistungszuwächse in der Gesamtstichprobe (mittlere Testleistungen) und Effekte der Gymnasialzugehörigkeit auf Leistungsstände und Leistungszuwächse getrennt nach Testheftpositionen

Tab. 2 umfasst auch die Ergebnisse der Effekte der Gymnasialzugehörigkeit auf die Testleistungen. Die querschnittlichen Befunde indizierten eine Interaktion der Schulform mit den Positionseffekten. Die Leistungsvorteile der Gymnasiastinnen und Gymnasiasten nahmen über die Positionen hinweg zu, wobei das Muster zum zweiten Messzeitpunkt besonders prononciert war (\(\hat{\omega }_{p\cdot 1}\)- und \(\hat{\omega }_{p\cdot 2}\)-Parameter). Dementsprechend unterschieden sich Schulformunterschiede in den Zuwachsschätzungen zwischen Positionen (\(\hat{\Updelta }_{\omega _{p\cdot }}\)-Parameter). Die mittleren Zuwächse unterschieden sich an der ersten Position nicht zwischen den Schulformen, während für die Testheftpositionen zwei bis vier größere Leistungszuwächse in der Gymnasialgruppe ermittelt wurden. Dieses Muster führte dazu, dass die über Positionen gemittelten Leistungszuwächse statistisch signifikant zugunsten der Gymnasiasten ausfielen (\(\hat{\Updelta }_{\omega _{\cdot \cdot }}\)-Parameter). Aufgrund der Unterschiedlichkeit der Effekte auf den Leistungszuwachs in Abhängigkeit der Testheftpositionen ließ sich der \(\hat{\Updelta }_{\omega _{\cdot \cdot }}\)-Parameter nicht sinnvoll interpretieren. Im vorliegenden Fall ist davon auszugehen, dass die Gruppenunterschiede in den Leistungsänderungen eher Schulformunterschieden in der Veränderung von Positionseffekten als tatsächlichen Unterschieden in Lerngewinnen geschuldet waren. So unterschieden sich Leistungszuwächse an der ersten Testheftposition nicht zwischen Schulformen (\(\hat{\Updelta }_{\omega _{p1}}=0,01\); p = 0,965). Dieses Ergebnismuster wurde bereits von Nagy et al. (2017) berichtet und ist in kompakter Form in Abb. 1 wiedergebeben.

Abb. 1
figure 1

Mittlere Testleistungen in Welle 1 und 2 nach Testheftpositionen für unterschiedliche Ausprägungen der untersuchten Kovariaten

Nach Kontrolle der Schulform und deren Interaktion mit den Positionseffekten verringerten sich die Variabilität der querschnittlichen Leistungsstände und der Leistungsänderungen. Die Variabilität der Leseleistungen zur ersten und zweiten Welle nahm gegenüber dem ersten Modell um 34,4 % bzw. 35,4 % ab, während sich die Variabilität der Änderungsraten um 7,6 % verringerte. Dabei gilt zu berücksichtigen, dass die Abnahme der Streuung der Zuwachsschätzung nahezu vollständig auf die Kontrolle der Interaktionseffekte zwischen Bookleteffekten und der Schulform zurückgeführt werden konnte, da sich die Schulformen nicht in den mittleren Leistungsänderungen voneinander unterschieden.

10 Geschlechterunterschiede in der Leistungsentwicklung

Die Ergebnisse zu den quer- und längsschnittlichen Geschlechterunterschieden finden sich in Tab. 3. Zu beiden Messzeitpunkten fanden sich Leistungsvorteile zugunsten der Mädchen, wobei die Unterschiede zwischen den Positionen variierten. Wie aus Tab. 3 ersichtlich ist, lagen die größten Geschlechterunterschiede an den Positionen zwei und vier vor, wobei dieses Muster zum zweiten Messzeitpunkt stärker ausgeprägt war. Dieses Muster führte dazu, dass sich der Zusammenhang zwischen Geschlecht und Leistungsänderung zwischen den Positionen unterschied. Die Vorzeichen der \(\hat{\Updelta }_{\omega _{p\cdot }}\)-Parameter indizierten zwar durchweg höhere Lerngewinne für Mädchen, der Geschlechterunterschied im Zuwachs wurde jedoch nur für die vierte Testheftposition statistisch signifikant. Der über Positionen gemittelte Effekt indizierte jedoch einen statistisch signifikant größeren Leistungsgewinn für Mädchen. Demnach nahmen die Geschlechterunterschiede um \(\hat{\Updelta }_{\omega _{\cdot \cdot }}=\) 0,14 Einheiten auf der Logit-Metrik zu, was einer Vergrößerung der Geschlechterdifferenz gegenüber der über Positionen gemittelten Geschlechterdifferenz zum ersten Messzeitpunkt von \(\hat{\omega }_{\cdot \cdot 1}=\) 0,36 um rund 39 % entspricht.

Tab. 3 Effekte des Geschlechts, des Zuwanderungshintergrunds und des sozioökonomischen familiären Hintergrunds auf Leistungsstände und Leistungszuwächse getrennt nach Testheftpositionen

Eine genauere Betrachtung der geschlechterspezifischen Leistungsverläufe (Abb. 1) deutete jedoch an, dass die Geschlechterunterschiede aller Wahrscheinlichkeit nach mit Geschlechterunterschieden in der Änderung von Positionseffekten konfundiert waren. So nahmen in der Gruppe der Jungen die Positionseffekte von der ersten zur zweiten Welle deutlich zu, während sich die Positionseffekte in der Gruppe der Mädchen kaum zwischen den Wellen unterschieden. Berücksichtigt man zudem die Tatsache, dass die Leistungsänderungen zwischen den Geschlechtergruppen an der ersten Testheftposition geringer ausfielen (\(\hat{\Updelta }_{\omega _{p1}}\)= 0,10; p = 0,502), kann geschlossen werden, dass die Daten keine belastbaren Hinweise für geschlechterspezifische Lernzuwächse lieferten. Die Ergebnisse des um die Effekte der Schulform ausgebauten Modells (Tab. 3) unterstützten die Vermutung ausbleibender Geschlechterunterschiede in Lernzuwächsen, da sich die Geschlechterunterschiede in den mittleren Leistungsänderungen an der ersten Position nun noch stärker an 0 annäherten (\(\hat{\Updelta }_{\omega _{p1}}\)= 0,02; p = 0,872).

Das Geschlecht erklärte 3,5 % bzw. 5,0 % der Leistungsvariabilität zu den beiden Messzeitpunkten und 1,6 % der Variabilität in den Leistungsänderungen, wobei das letztgenannte Ergebnis nahezu ausschließlich der Interaktion der Erklärungsvariable mit den Positionseffekten geschuldet war. Die entsprechende Interaktion führte zudem dazu, dass das Geschlecht und die Schulform gemeinsam 9,7 % der Variabilität der Unterschiede in den Leistungsänderungen erklärten, wobei der Erklärungsbeitrag fast vollständig auf die Positionseffekte zurückging.

11 Zuwanderungshintergrund und Leistungsentwicklung

Wie die in Tab. 3 dargestellten Befunde zeigen, war der Zuwanderungshintergrund zu beiden Messzeitpunkten deutlich mit der Testleistung assoziiert. Die Leistungsunterschiede nahmen zu beiden Messzeitpunkten an den Positionen zwei und drei gegenüber der ersten Position ab, und befanden sich an der vierten Position auf dem Niveau der Ausgangsposition. Wie aus Abb. 1 hervorgeht, war dieser Befund auf die stärker ausgeprägten Positionseffekte bei Schülerinnen und Schülern ohne Zuwanderungshintergrund in der ersten Erhebung zurückzuführen.

Insgesamt lagen keine belastbaren Anzeichen dafür vor, dass sich die Leistungszuwächse zwischen Schülerinnen und Schülern mit und ohne Zuwanderungshintergrund unterschieden. Die Schätzungen der positionsspezifischen Effekte auf die Leistungsänderung fielen durchweg nahe 0 aus (\(\hat{\Updelta }_{\omega _{p\cdot }}\)-Parameter), was zu einer Gesamtschätzung von 0 führte. Der Zuwanderungshintergrund und dessen Interaktion mit den Positionseffekten erklärte insgesamt rund 2,8 % und 1,8 % der Leistungsvariabilität zu den beiden Messzeitpunkten, sowie 1,6 % der Variabilität in den Leistungszuwächsen. Die vergleichsweise geringe Varianzerklärung ist hauptsächlich darauf zurückzuführen, dass der Anteil von Schülerinnen und Schüler mit Zuwanderungshintergrund aufgrund der von uns gewählten dichotomen Kategorisierung nur relativ gering war.

Nach Kontrolle der besuchten Schulform verringerten sich die querschnittlichen Effekte des Zuwanderungshintergrunds (Tab. 3). Aufgrund des größeren Anteils fehlender Itemantworten zum zweiten Messzeitpunkt wurde ein Effekt nicht signifikant und zwei Effektschätzungen wurden nur auf dem Niveau von p ≤ 0,10 statistisch signifikant. Die Datenkonstellation hatte zur Folge, dass die Standardfehler der Effekte des Zuwanderungshintergrunds auf die Leistungsänderungen sehr groß ausfielen, sodass keine robusten Schlussfolgerungen über dessen Effekt auf den Leistungszuwachs gezogen werden konnten. Gemessen an der erklärten Varianz schienen die Effekte des Zuwanderungshintergrunds auf die Leistungsänderung bei Kontrolle der besuchten Schulform vernachlässigbar zu sein, da diese Variable zu keinem nennenswerten Anstieg der erklärten Varianz gegenüber der alleinigen Betrachtung der Schulform führte (8,4 % vs. 7,6 %).

12 Sozioökonomischer Hintergrund und Leistungsentwicklung

Der sozioökonomische familiäre Hintergrund war erwartungsgemäß zu beiden Messzeitpunkten mit den Leseleistungen assoziiert (Tab. 3). Während die Assoziationen zum ersten Messzeitpunkt kaum von den Positionen abhingen, zeigte sich zum zweiten Messzeitpunkt ein Anstieg des Zusammenhangs über Positionen. Dieses Ergebnismuster führte dazu, dass der Effekt des sozioökonomischen Hintergrunds auf die Leistungszuwächse zwischen Positionen variierte. Der Effekt war nur zur dritten Position positiv und auf dem Niveau von p ≤ 0,10 signifikant (\(\hat{\Updelta }_{\omega _{3\cdot }}\)= 0,11; p = 0,082). Diese inkonsistente Befundlage schien in erster Linie der Interaktion des sozioökonomischen Hintergrunds mit den Positionseffekten zum zweiten Messzeitpunkt geschuldet zu sein. Dieser Befund ist in Abb. 1 grafisch dargestellt, wobei stärkere Positionseffekte für Schülerinnen und Schüler mit geringerem sozioökonomischem Hintergrund erkenntlich sind. Zusammengenommen lieferten die Daten jedoch keine belastbaren Hinweise für einen Zusammenhang zwischen dem sozioökonomischen familiären Hintergrund und dem Kompetenzzuwachs. Tatsächlich schien der sozioökonomische Hintergrund eher im Querschnitt mit der Leseleistung (8,9 % und 8,2 % erklärte Varianz zu den Wellen eines und zwei), als mit der Leistungsänderung assoziiert zu sein (3,1 % erklärte Varianz).

Der Zusammenhang zwischen dem sozioökonomischen Hintergrund und den Testleistungen nahm nach Kontrolle der Schulform deutlich ab (Tab. 3). Die vom Betrag her geringen, aber statistisch signifikanten Effekte variierten zum ersten Messzeitpunkt kaum zwischen Positionen (\(\hat{\omega }_{p\cdot 1}\)-Parameter). Im Gegensatz dazu schienen die Zusammenhänge des sozioökonomischen Status mit der zur zweiten Welle gemessenen Leistung weitgehend Positionseffekten geschuldet zu sein. Die Effekte nahmen der Tendenz nach über Positionen zu (\(\hat{\omega }_{p\cdot 2}\)-Parameter), wobei sich nur ein einzelner Effekt als statistisch signifikant erwies. Nach Kontrolle der Schulform fiel der Effekt des sozioökonomischen Hintergrunds auf den Leistungszuwachs an der ersten Position negativ aus und war auf dem Niveau von p ≤ 0,10 (p = 0,095) signifikant. Dieser Effekt deutete einen disparitätsmindernden Leistungsverlauf an, der jedoch aufgrund der unpräzisen Effektschätzung mit großer Vorsicht interpretiert werden muss. Diese Interpretation wird auch durch den Prozentsatz der erklärten Varianz nahegelegt, der zum ersten und zweiten Messzeitpunkt 35,5 % und 36,5 % betrug, was den inkrementell zur Schulform geringen Erklärungsbeitrag des sozioökonomischen Hintergrunds verdeutlicht. Ein ähnliches Ergebnis ergab sich auch für die Leistungsänderung, wobei hier durch die Hinzunahme des Prädiktors die Erklärungsleistung der Schulform (7,6 %) auf immerhin 10,5 % gesteigert werden konnte.

13 Diskussion

Gegenstand des vorliegenden Beitrags war die Untersuchung ausgewählter Prädiktoren der Entwicklung der Lesekompetenz im letzten Abschnitt der Sekundarstufe I. Unser Augenmerk lag auf zentralen institutionellen (Schulform), familiären (Zuwanderungshintergrund und sozioökonomischer Hintergrund) und individuellen Merkmalen (Geschlecht), die im Zentrum vieler früherer Querschnittuntersuchungen standen, aber vergleichsweise selten im Kontext der Entwicklung der Leseleistung am Ende der Sekundarstufe I untersucht wurden. Zudem haben wir Effekte der Veränderung der Testbearbeitungspersistenz (Debeer et al. 2014) berücksichtigt, die mit tatsächlichen Lernzuwächsen konfundiert sein können. Zu diesem Zweck haben wir versucht die Effekte der Kovariaten auf die Leistungsentwicklung von deren Zusammenhängen mit der Veränderung der Positionseffekten zu separieren (vgl. Nagy et al. 2017). Wir haben uns für dieses Vorgehen entschieden, da der im PISA-Längsschnitt 2012/2013 verwendete Lesetest besonders stark von Positionseffekten betroffen war, die zudem deutlich zum zweiten Messzeitpunkt zunahmen (vgl. Nagy et al. 2017). Vor dem Hintergrund dieser Ergebnisse erschienen Zusammenhänge zwischen Änderungen in der Testbearbeitungspersistenz und anderen Kovariaten plausibel.

Insgesamt haben wir keine starken Zusammenhänge zwischen den untersuchten Kovariaten und der Lesekompetenzentwicklung erwartet. Wie an früherer Stelle erläutert, impliziert eine Situation, in der sich die Entwicklung der Leseleistung im Laufe der Sekundarstufe I deutlich verlangsamt oder eventuell sogar ganz abflacht (Baumert et al. 2012; Bloom et al. 2008) und größere (reale) Kompetenzverluste ausgeschlossen werden, maximal schwache Effekte von Kovariaten auf die Leistungsentwicklung. Tatsächlich indizieren unsere Ergebnisse, dass die mittleren Leistungszuwächse in der Gesamtgruppe nahe 0 ausfielen und dass keine der betrachteten Variablen robuste Zusammenhänge mit der Leseentwicklung aufwies. Allenfalls deutete sich an, dass Schülerinnen und Schüler mit einem geringeren sozioökonomischen familiären Hintergrund in der Tendenz höhere Lerngewinne aufwiesen und somit ihre Leistungsrückstände teilweise kompensierten (vgl., Baumert et al. 2012). Der Befund konnte jedoch nur für die erste Testheftposition nachgewiesen werden und war nur auf dem Niveau von p ≤ 0,10 signifikant. Es bedarf somit einer erneuten Prüfung, bevor belastbare Schlüsse über disparitätsmindernde Effekte der Beschulung am Ende der Sekundarstufe I gezogen werden können.

Insgesamt indizierten unsere Analysen, dass drei der vier untersuchten Kovariaten mit der Veränderung der Testbearbeitungspersistenz assoziiert waren. Dabei gilt zu berücksichtigen, dass das von uns verwendete IRT-Modell neben Positionseffekten auch andere Formen von Testkontexteffekten abbildet (Brennan 1992; Nagy et al. 2016). Gleichwohl lieferten unsere Ergebnisse deutliche Hinweise dafür, dass die ermittelten Effekte auf die Entwicklung der Lesekompetenz hauptsächlich Positionseffekten geschuldet waren (vgl. Nagy et al. 2017). Die stärksten Zusammenhänge mit der längsschnittlichen Veränderung der Bearbeitungspersistenz ergaben sich mit der Schulform (vgl. Nagy et al. 2017). Die Ausblendung von Schulformunterschieden im Anstieg der Positionseffekte führte dazu, dass ein Scheineffekt in Form eines Schulformunterschieds in (realen) Lerngewinnen auftrat (Nagy et al. 2017). Ein vergleichbarer Befund ergab sich hinsichtlich des Geschlechts. Wie wir in diesem Beitrag zeigen konnten, führte die Ausblendung von Positionseffekten zu einem Ergebnismuster, das einen höheren Lerngewinn bei Mädchen gegenüber Jungen nahelegte. Die vorgenommene differenzierte Analyse zeigte aber, dass an Positionen, die nicht von Positionseffekten betroffen sind, dieser Unterschied nicht repliziert werden konnte. Schließlich lieferten unsere Analysen auch Hinweise dafür, dass Kovariaten-Booklet-Interaktionen im Prinzip reale, aber gegenläufige Effekte auf die Leistungsentwicklung verdecken können. So trat der negative Effekt des sozioökonomischen Hintergrunds auf die Leistungsentwicklung erst nach Kontrolle von Positionseffekten in Erscheinung. Wie bereist aufgeführt, bedarf dieser Befund aufgrund der schwachen Datenlage einer erneuten Prüfung bevor definitivere Rückschlüsse gezogen werden können.

Unsere Ergebnisse lieferten zudem Hinweise dafür, dass die Effekte der Positionen der Itemcluster nicht notwendigerweise linear verlaufen (vgl. Abb. 1) und das sich die Form der Verläufe in Abhängigkeit der betrachteten Kovariaten unterscheiden kann. So ähnelte der Leistungsverlauf über Itemclusterpositionen bei weniger leistungsstarken Gruppen (nichtgymnasiale Schulformen, männliche Schüler und Schülerinnen und Schüler mit einem weniger leistungsförderlichen sozialen Hintergrund) einer Treppenfunktion. Dieses Muster könnte eine Auffrischung von motivationalen Ressourcen indizieren, die sich in Folge der Testpause einstellte, die in der Mitte der Tests gewährt wurde (ca. 15 min). Die Treppenfunktion war in den leistungsstärkeren Gruppen (Gymnasien, weibliche Schülerinnen und Schüler mit leistungsförderlichem familiären Hintergrund) nicht anzutreffen und die Testleistungen zeigten in der Tendenz einer geringere Abnahme über Itemclusterpositionen. Dieser Befund weist darauf hin, dass die Motivation für eine gewissenhafte Testbearbeitung in diesen Schülergruppen höher ausgeprägt ist, und diese Schülerinnen und Schüler resistenter gegenüber Impulsen für eine Reduktion der Anstrengung sind. Da wir mit den vorgenommenen Auswertungen Neuland betreten haben, bedarf es einer Replikation der Befunde in unabhängigen Stichproben, bevor eine belastbare Interpretation der Effektmuster vorgenommen werden kann.

Unabhängig von der Form der Muster der Effekte der Kovariaten über Itemclusterpositionen, liefern unsere Befunde jedoch deutliche Hinweise dafür, dass die hinsichtlich der ersten Itemclusterpositionen definierten Kompetenzausprägungen am wenigsten von einer suboptimalen Persistenz der Testbearbeitung betroffen waren und somit die bestmögliche Annährung an die tatsächlichen Kompetenzausprägungen und Kompetenzveränderungen liefern. Die in diesem Beitrag berichteten Effekte auf den Kompetenzzuwachs, fielen jedoch aufgrund der fragilen Datenkonstellation, die sich infolge der schwachen Verankerung der Kompetenzmetrik zum zweiten Messzeitpunkt einstellte, relativ unpräzise aus (d. h. vergleichsweise große Standardfehler). Nichtdestotrotz schätzen wir das Risiko für systematisch verzerrte Ergebnisse als sehr gering ein, da die von Nagy et al. (2017) berichteten Befunde zeigten, dass die Schwierigkeiten der Items des zur Verankerung verwendeten Clusters einen hohen Grad an Invarianz über Itemclusterpositionen und Schulformen aufwiesen. Aus diesen Gründen vermuten wir, dass die hier berichteten Ergebnisse sich in ähnlicher Weise auch bei günstiger gestalteten Testdesigns (s. unten) einstellen würden.

14 Theoretische und Praktische Implikationen

In der Gesamtschau indizieren die vorliegenden Befunde, dass alle untersuchten Variablen nicht, oder nur schwach (z. B. sozioökonomischer Status), mit den tatsächlichen Lerngewinnen von Schülerinnen und Schülern am Ende der Sekundarstufe I assoziiert sind. Dieses Ergebnismuster ist vor den Hintergrund früherer Untersuchungen plausibel (s. oben). Aus einer methodischen Perspektive geben die Ergebnisse aber deutliche Hinweise für das Risiko von Scheineffekten auf die Entwicklung der Leseleistung in späteren Phasen der Beschulung. Wie Bloom et al. (2008) darlegten, zeichnet sich die Leistungsentwicklung in dieser Phase durch geringe Lernraten aus, sodass auch vergleichsweise schwache Effekte auf die Leistungsentwicklung theoretisch und praktisch relevant sind. Unsere Befunde zeigen, dass zumindest die für den Bereich der Leseleistung ermittelten Ergebnisse hinsichtlich Positionseffekten, die als Indikatoren der Testbearbeitungspersistenz gelten (Debeer et al. 2014), verzerrt sein können. Diese Situation führen insofern zu einem Dilemma, da die zu erwartenden realen Effekte auf die Kompetenzentwicklung gering sind und mit (ebenfalls numerisch geringen) Artefakten des Testbearbeitungsverhaltens konfundiert sein können.

Ein möglicher Ausweg aus diesem Dilemma ist die explizite Analyse von Störeffekten. Ein solches Vorgehen setzt geeignete Testdesigns und Modellierungsansätze voraus. In diesem Beitrag haben wir das in den PISA-Erhebungen eingesetzte rotierte Bookletdesign genutzt, um Positionseffekte zu identifizieren (vgl. Nagy et al. 2017). Da Lesen in der PISA-Längsschnitterhebung 2012/2013 nicht die Hauptdomäne darstellte, wurde dieser Kompetenzbereich mit einer vergleichswiese geringen Itemanzahl erhoben. Eine Konsequenz dieser Datensituation ist eine geringe Teststärke des verwendeten statistischen Ansatzes. Dem Verlust der Teststärke ließe sich zum einen durch die Optimierung des Erhebungsdesigns (Weirich et al. 2014) und der Verwendung alternativer Indikatoren der Testbearbeitungsmotivation, wie beispielsweise Bearbeitungszeiten von Testitems (z. B. Goldhammer et al. 2014), begegnen. Letztere sind aber in der Haupterhebung des PISA-Längsschnitts 2012/2013 aufgrund der papierbasierten Erhebung nicht verfügbar.

15 Schlussfolgerungen und Ausblick

Die Frage nach der Verringerung oder Vergrößerung von schulformspezifischen Unterschieden in der Leseleistung, von herkunftsbedingten Disparitäten sowie von Geschlechterdisparitäten im Verlauf der Beschulung ist ein zentrales Thema der Schulleistungsforschung. Die hier vorgestellte Auswertung des PISA-Längsschnitts 2012/2013 liefert keine Hinweise auf einen Anstieg der entsprechenden Disparitäten. Vielmehr zeichnete sich ein Bild ab, wonach die zum Teil sehr hohen Leistungsunterschiede vom 9. bis zum 10. Schuljahr weitgehend konstant bleiben.

Bei der Interpretation der Befunde gilt jedoch zu berücksichtigen, dass wir die Leistungsentwicklung an Hauptschulen außer Acht lassen mussten (vgl. Heine et al. 2017). Somit ist nicht geklärt, inwieweit diese Schlussfolgerungen bei einer zusätzlichen Berücksichtigung dieser Schülergruppe Bestand haben. Zur Klärung der Frage bedarf es Längsschnittstudien, die auch einen früheren Zeitraum der Beschulung (z. B. ab Klassenstufe 8) berücksichtigen und ein Erhebungsdesign verwenden, das die Kontrolle der unerwünschten Störeffekte der Testbearbeitungspersistenz ermöglicht.

Ebenso haben wir in diesem Beitrag auf eine Auswertung von Kompetenzstufen (Watermann und Klieme 2002) verzichtet, die im Bereich von Large-Scale-Studien üblich ist. Obwohl dieser Ansatz durch seine Transparenz und einfache Kommunizierbarkeit besticht, setzt er hohe Anforderungen an die Belastbarkeit der Leistungsdaten. Da der Bereich Lesen im PISA-Längsschnitt 2012/2013 mit nur wenigen Items erhoben wurde, die zudem stark von Positionseffekten und deren Interaktion mit Hintergrundvariablen betroffen waren, haben wir von entsprechenden Auswertungen abgesehen. Diese sollten zukünftigen Studien, die auf einen breiteren Kranz von Items zurückgreifen können, vorbehalten werden.