Leistungsmessungen bei Schülerinnen und Schülern erfolgen üblicherweise in der Erwartung, aus den empirischen Daten nützliche Informationen für pädagogische und politische Entscheidungen ableiten zu können (Weinert 2001; Hartig et al. 2008). Sie bilden das Kernstück einer Output-orientierten und evidenzbasierten Steuerung im Bildungswesen (Fend 2011). Evidenzbasierte Praxis und Politik bedürfen allerdings der Entwicklung adäquater Messinstrumente als Grundlage für gültige Rückschlüsse über die Fähigkeiten von Schülerinnen und Schülern sowie die Qualität von Bildungseinrichtungen und -maßnahmen (Klieme und Leutner 2006). Gültige Rückschlüsse über individuelle Fähigkeiten von Schülerinnen und Schülern sowie über die Qualität von Bildungseinrichtungen und -maßnahmen erfordern jeweils spezifische empirische Evidenz (AERA et al. 2014).

Im schulischen Kontext spielt je nach Zweck der Leistungsmessung die Betrachtung des Zusammenhangs der Testinstrumente mit dem, was die Schülerinnen und Schüler im Unterricht lernen sollen (intendiertes Curriculum), und/oder dem, was tatsächlich im Unterricht vermittelt wird (implementiertes Curriculum), eine besondere Rolle (Pellegrino 2002). Testwerte können zum Beispiel hinsichtlich des Lernstands innerhalb eines Schulfaches oder bezüglich des Lernfortschritts aufgrund des Unterrichts interpretiert werden. Für solche Testwertinterpretationen stellt sich die Frage nach der Passung von (1) Test, (2) intendiertem sowie (3) implementiertem Curriculum (Porter 2002). Informationen zur Passung dieser drei Elemente dienen als empirische Evidenz zur Unterstützung der jeweiligen Testwertnutzung und -interpretation (Kane 2013).

Vor allem die Passung von Test und implementiertem Curriculum wird regelmäßig kontrovers diskutiert (Popham 2007). Insbesondere im US-amerikanischen Raum stellte sich mit der flächendeckenden Einführung von high-stakes Accountability-Systemen im Zuge des No Child Left Behind Acts und der damit einhergehenden Beurteilung des Erfolgs von Schule und Unterricht auf Basis der Schülerergebnisse in standardisierten Leistungstests die Frage, ob und in welchem Ausmaß Tests überhaupt dazu in der Lage sind, Effekte von Schule und Unterricht zu erfassen, also instruktionssensitiv sind (Polikoff 2010). Zwar wird die Instruktionssensitivität der Tests häufig implizit angenommen, jedoch nur selten empirisch überprüft (D’Agostino et al. 2007).

Im deutschsprachigen Raum ist die Bedeutung schulischen Wissens für den Erfolg in Leistungstests ebenfalls umstritten (z. B. Arnold 2005; Rindermann 2006; Baumert et al. 2007). Die Passung von Test und implementiertem Curriculum – und damit Instruktionssensitivität und deren empirischer Überprüfung – findet bislang allerdings kaum Beachtung. Ein möglicher Grund liegt in der vergleichsweise kurzen Tradition flächendeckender standardisierter Leistungsmessungen in Schulen, welche erst im Zuge des nur mittelmäßigen Abschneidens der deutschen Schülerinnen und Schüler bei TIMSS 1995 und PISA 2000 an Bedeutung gewann (Weinert 2001). Deutschland hatte sich bis zu den 90er Jahren weitgehend bei internationalen Vergleichsstudien enthalten (Drechsel et al. 2015). Die testdatenbasierte Schul- und Unterrichtsentwicklung ist daher noch vergleichsweise jung (Ramsteck und Maier 2015; Altrichter et al. 2016). Ein zweiter Grund ist in der unterschiedlichen Verwendung der Testwerte und den damit verbundenen Konsequenzen zu vermuten. Während in den USA oftmals high-stakes-Testing eingesetzt wird, sind Tests im deutschen Bildungssystem in der Regel nicht mit vergleichbaren Konsequenzen für Schulen und Lehrpersonen verbunden (Low-stakes-Testing; z. B. Grünkorn et al. 2018; Maag Merki 2016). Altrichter et al. (2016) sprechen im Zusammenhang von low-stakes-Testing von einem evidenzbasierten Steuerungssystem, das der Überwachung und Weiterentwicklung von Bildungssystem, Schule und Unterricht dient.

Vor diesem Hintergrund bilden die Testdaten der Schülerinnen und Schüler in Deutschland in erster Linie die Grundlage für eine empiriegestützte Qualitätsentwicklung im Sinne eines Systemmonitorings beziehungsweise einer Schulevaluation (Kultusministerkonferenz 2006; Grünkorn et al. 2018) oder sie dienen als abhängige Variablen innerhalb wissenschaftlicher Studien (z. B. Interventionen; Hascher und Schmitz 2010). Beispielsweise sollen die in Deutschland flächendeckend eingeführten Vergleichsarbeiten (VERA; Kultusministerkonferenz 2006) als ein Instrument des Bildungsmonitorings auf der Ebene der Schule und des Unterrichts ansetzen und sowohl der Bestandsaufnahme als auch der Vorbereitung pädagogischer und didaktischer Entscheidungen dienen, indem (a) Lehrpersonen Hinweise zur Unterrichtsreflexion und zu Handlungsbedarfen und (b) Schulen eine empirische Datenbasis für die Selbstevaluation erhalten (Spoden und Leutner 2011; Ramsteck und Maier 2015). In wissenschaftlichen Studien liegt der Fokus dagegen auf der Identifikation und Untersuchung von Merkmalen von Schule und Unterricht, die das Lernen der Kinder ermöglichen, fördern oder erschweren (Klieme 2008). Dementsprechend nehmen Studien der empirischen Schul- und Unterrichtsforschung regelmäßig die Rolle von Kontext‑, Bedingungs- und Prozessmerkmalen von Unterricht und ihre Wirkung auf den Lernertrag von Schülerinnen und Schülern in den Blick (z. B. Klieme et al. 2009). Auf ähnliche Weise beurteilen (quasi-)experimentelle Interventionsstudien im Unterricht für gewöhnlich die Wirkung ihrer Interventionsmaßnahmen auf das Lernen der Schülerinnen und Schüler anhand der erzielten Testwerte (z. B. Decristan et al. 2015). Das heißt sowohl Bildungspolitik als auch -wissenschaft erwarten, auf Basis der Testwerte empirisch fundierte Rückschlüsse über die von Schülerinnen und Schülern im Unterricht erworbenen Fähigkeiten und Kompetenzen ziehen zu können (vgl. Stanat und Pant 2016). Testwerte bilden damit einerseits die Grundlage einer Output-orientierten Steuerung des Bildungswesens in Deutschland, andererseits stellt die wissenschaftliche Erklärung von Leistungszuwächsen einen zentralen Baustein zur Effizienzsteigerung schulischer Maßnahmen dar (Klieme 2008). Auch diese Testwertinterpretationen setzen voraus, dass die eingesetzten Testinstrumente in der Lage sind, Unterrichtseffekte zu erfassen.

Dass Rückschlüsse über die Effektivität von Unterricht aufgrund von Testeigenschaften variieren können, zeigten Grossman et al. (2014) für den empirischen Zusammenhang zwischen Unterrichtsqualität und Schülerleistung, wenn Testwerte verschiedener Tests herangezogen werden. So hingen Unterrichtsqualität und Testwerte nur in bestimmten Tests positiv zusammen, während für andere Tests keine statistisch bedeutsamen Zusammenhänge erkennbar waren. Tests, die dasselbe Konstrukt abbilden sollen, können also unterschiedlich instruktionssensitiv sein – und damit zu unterschiedlichen Rückschlüssen über Unterricht führen.

Oft bleibt jedoch unklar, ob ein Test nicht instruktionssensitiv oder der Unterricht nicht effektiv war. In Deutschland gibt es beispielsweise eine Reihe von Leistungstests, mit denen entgegen der Erwartungen keine oder nur geringe Kompetenzzuwächse nachgewiesen werden konnten (z. B. Fischer et al. 2016; Lossen et al. 2016; Nagy et al. 2017). In diesen Fällen ist offen, ob die Schülerinnen und Schüler tatsächlich keinen Leistungszuwachs zu verzeichnen haben oder ob die eingesetzten Instrumente nicht in der Lage sind, Effekte von Unterricht auf die Schülerleistungen zu erfassen. Die Klärung dieser Frage erfordert die empirische Untersuchung der Instruktionssensitivität der eingesetzten Tests und Items, die hierzulande häufig ausbleibt.

Unsere Arbeit zielt daher darauf ab, das Konzept Instruktionssensitivität in den deutschsprachigen Diskurs über schulische Leistungsmessung einzubetten. Dazu werden im Folgenden drei Themenfelder behandelt:

  1. a)

    der theoretische Hintergrund des Konzepts Instruktionssensitivität

  2. b)

    die Messung von Instruktionssensitivität

  3. c)

    die Identifikation von weiteren Forschungsbedarfen

1 Theoretischer Hintergrund und Herkunft des Konzepts Instruktionssensitivität

Polikoff (2010) definiert Instruktionssensitivität als die psychometrische Eigenschaft eines Tests oder einzelnen Items, Effekte von Unterricht zu erfassen. Spezifisch geht es um die Sensitivität hinsichtlich der Unterrichtsqualität und der vermittelten Lerninhalte. Das Verständnis von Instruktionssensitivität war jedoch nicht immer einheitlich, sondern unterlag seit den 1960er Jahren maßgeblichen Veränderungen.

2 Herkunft des Konzepts Instruktionssensitivität

Erste Überlegungen zur Instruktionssensitivität kamen mit der wachsenden Bedeutung kriterienorientierter Tests ab der Mitte der 1960er Jahre auf (D’Agostino et al. 2007). Kriterienorientierte Tests zielen im Gegensatz zu normorientierten Tests auf den individuellen Stand einer Person hinsichtlich eines Lernziels ab (Millman 1970). Damit rückten auch die Frage nach der Wirkung des Unterrichts und die Messung seiner Effekte auf die kriterienbezogenen Lernfortschritte der Schülerinnen und Schüler stärker in den Vordergrund. Klassische Indizes zur Itemselektion wie Schwierigkeit und Trennschärfe sollten daher durch neue Sensitivitätsindizes ergänzt werden, die erfassen, inwiefern ein Item zwischen unterrichteten und nicht-unterrichteten Schülerinnen und Schülern differenzieren kann (Cox und Vargas 1966). Das Ausmaß dieser Itemeigenschaft definierte man als Instruktionssensitivität oder Itemsensitivität (Kosecoff und Klein 1974). Haladyna und Roid (1981) präzisierten diese Beschreibung und definierten Instruktionssensitivität als die Tendenz eines Items, in Abhängigkeit vom Unterricht in der Schwierigkeit zu variieren. Nach diesem Verständnis ist Instruktionssensitivität ein Konzept, das die Bedeutung von Unterricht für die Lösungswahrscheinlichkeit eines einzelnen Items hervorhebt. Allerdings berücksichtigt diese Definition nur einzelne Items, nicht gesamte Tests, und bezieht darüber hinaus keine Merkmale mit ein, welche die Quantität oder Qualität des Unterrichts abbilden.

Tests rückten erst ab den 1980er Jahren in den Fokus. Ausgangspunkt war eine gerichtliche Auseinandersetzung darüber, ob Schülerinnen und Schüler in Florida Unterricht in den für das Bestehen notwendigen Inhalten des bundesstaatlichen High-School-Abschlusstests erhielten (United States Court of Appeals 1981). Charakteristisch war die Frage nach Chancengleichheit und der Angemessenheit des implementierten Curriculums für das erfolgreiche Abschneiden in standardisierten Abschlussprüfungen (McClung 1979; Yoon und Resnick 1998). Anstelle der Itemselektion stand die Verknüpfung von Test und Unterricht stärker im Mittelpunkt, also die Instruktionsvalidität (Airasian und Madaus 1983). Instruktionsvalidität bezieht sich auf die Frage, ob und inwiefern Unterricht zur Testleistung in standardisierten Tests beiträgt (z. B. Mehrens und Philips 1987). Gleichzeitig stellte sich die Frage nach einem fairen Vergleich der Leistungen von Schülerinnen und Schülern, die einen unterschiedlichen Unterricht erfahren hatten (Muthén 1989). Zwar war die Instruktionssensitivität als eine psychometrische Eigenschaft der Testinstrumente in der Diskussion eher nachrangig (Polikoff 2010), doch wurde Instruktionsbias (Linn und Harnisch 1981) in Testaufgaben als eher vorteilhaft angesehen, wenn es um Rückschlüsse über Unterricht ging.

Spätere Arbeiten griffen Gedanken zur Itemsensitivität und zur Instruktionsvalidität auf und bildeten die Grundlage für das heutige Verständnis von Instruktionssensitivität. Besonders Burstein (1989) sowie Muthén et al. (1991) führten systematisch beide Denkrichtungen zusammen. Sie stellten einerseits den ursprünglichen Gedanken von Instruktionssensitivität als messbare Eigenschaft eines Tests beziehungsweise eines einzelnen Items wieder in den Mittelpunkt und verwiesen andererseits auf die Bedeutung von Instruktionssensitivität für die Interpretation des gemessenen Konstrukts vor dem Hintergrund schulischen Unterrichts. Instruktionssensitivität wurde in der Folge einerseits als Validitätshinweis für Rückschlüsse über Unterricht angesehen (z. B. Popham 2007), andererseits jedoch ebenso als Beeinträchtigung der Testfairness bei Rückschlüssen über individuelle Schülerleistungen (z. B. Geisinger und McCormick 2010).

Aktuelle Arbeiten stellen dagegen heraus, dass Instruktionssensitivität nicht notwendig die Verletzung von Testfairness oder anderer Annahmen von Messinvarianz erfordert (Naumann et al. 2017). Die Rolle von Instruktionssensitivität als ein essentielles Validitätsargument für gültige Rückschlüsse über Schule und Unterricht bleibt davon unberührt. Auf die Rolle von Instruktionssensitivität für die Testwertinterpretation wird im Folgenden näher eingegangen.

3 Bedeutung von Instruktionssensitivität für die Testwertinterpretation

Schulische Leistungsmessungen stehen in der Erwartung, gültige Rückschlüsse über individuelle Fähigkeiten von Schülerinnen und Schüler als auch über die Qualität von Schule und Unterricht zu erlauben. Beispielsweise kann eine Interpretation der Testwerte hinsichtlich (a) der Leistungsfähigkeit einer Schülerin oder eines Schülers, (b) des Lernstands innerhalb einer Domäne oder eines Schulfaches oder aber (c) des Lernfortschritts aufgrund der Qualität von Schule und Unterricht gewünscht werden. Die valide Nutzung und Interpretation von Testwerten aus schulischen Leistungsmessungen hinsichtlich der individuellen Fähigkeiten von Schülerinnen und Schülern einerseits oder der Qualität von Schule und Unterricht andererseits erfordern jedoch jeweils spezifische empirische Evidenz (AERA et al. 2014). Grundlage für eine gültige Testwertinterpretation ist demnach je nach Fragestellung der Grad der Passung von (1) Test, (2) intendiertem sowie (3) implementiertem Curriculum. Abb. 1 stellt das Verhältnis dieser drei Elemente graphisch in Form eines Dreiecks dar, wobei die Seiten des Dreiecks die Passung zwischen jeweils zwei Elementen beschreiben (adaptiert nach Anderson 2002; Pellegrino 2002).

Abb. 1
figure 1

Verhältnis von intendiertem Curriculum, Unterricht (implementiertes Curriculum) und Test adaptiert nach Anderson (2002) und Pellegrino (2002)

Sollen Testwerte den Grad widerspiegeln, in dem Schülerinnen und Schüler ein definiertes Lernziel erreicht haben, liefert die Passung von Test und intendiertem Curriculum Argumente für diese Interpretation (curriculare Validität; Hartig et al. 2012). Empirische Hinweise für curriculare Validität lassen sich beispielsweise durch den Abgleich von Testmaterial und formalen Dokumenten wie Lehrplänen ermitteln (AERA et al. 2014). Ein solcher Abgleich kann im Prinzip vor, während oder nach der eigentlichen Testung erfolgen.

Werden dagegen Interpretationen angestrebt, welche die Testwerte auf den von Schülerinnen und Schülern erhaltenen Unterricht zurückführen, zum Beispiel im Rahmen von Bildungsmonitoring oder Unterrichtsinterventionen, geht es um die Passung von Test und implementiertem Curriculum. Für solche Testwertinterpretationen sind empirische Maße zur Instruktionssensitivität als Validitätsevidenz besonders relevant (Yoon und Resnick 1998; Popham 2007). Nur wenn Tests instruktionssensitiv sind, ist sichergestellt, dass Unterrichtseffekte gültig interpretierbar sind. Bleibt beispielsweise ein erwarteter Unterrichtseffekt aus, ist andernfalls unklar, ob ein Unterricht ineffektiv oder der eingesetzte Test nicht sensitiv war (Naumann et al. 2016). Oftmals wird Instruktionssensitivität durch das Vorhandensein empirischer Belege für curriculare Validität implizit angenommen. Curriculare Validität bezieht sich allerdings auf das intendierte und damit nicht zwangsläufig implementierte Curriculum. Die curriculare Validität ist somit zwar eine notwendige, aber keine hinreichende Bedingung für Instruktionssensitivität. Instruktionssensitivität bezieht sich auf die Passung von Test und dem tatsächlich im Unterricht implementierten Curriculum. Das tatsächlich implementierte Curriculum und die Qualität dieser Implementation ist letztlich ausschlaggebend für den Beitrag des Unterrichts am Zustandekommen der Testwerte. Eine gültige Interpretation der Testwerte bezüglich der Effektivität von Schule und Unterricht wie im Bildungsmonitoring oder in empirischen Studien erfordert also die Messung von Instruktionssensitivität.

4 Die Messung von Instruktionssensitivität

Zentral für die Messung von Instruktionssensitivität ist die Beobachtung von Veränderung im Antwortverhalten von Schülerinnen und Schülern in Abhängigkeit vom erhaltenen Unterricht (Burstein 1989). Ansätze zur Messung von Instruktionssensitivität greifen auf drei Datenquellen zurück (Polikoff 2010): a) empirische Testdaten (Testwerte oder Itemantworten), b) empirische Maße über den Inhalt und die Qualität eines Unterrichts, sowie c) Expertenurteile. Auf dieser Basis findet entweder eine Beurteilung der Instruktionssensitivität eines gesamten Tests oder eines einzelnen Items statt.

5 Messung der Instruktionssensitivität von Tests und Items

Analysen der Instruktionssensitivität von Tests beziehen üblicherweise Testwerte und empirische Unterrichtsmaße als Datenquellen ein. Als Unterrichtsmaße dienen zum Beispiel die Abdeckung oder die Gewichtung von Lerninhalten (Greer 1995; D’Agostino et al. 2007) oder die Unterrichtsqualität (Grossman et al. 2014). Die Erwartung ist, dass die Testwerte mit mehr oder höherwertigem Unterricht ansteigen (Baker 1994). Die Prüfung dieser Annahme erfolgt in der Regel mittels hierarchisch linearer Modelle (Raudenbush und Bryk 2002) mit den Testwerten als abhängiger Variable und den Unterrichtsmerkmalen als Prädiktoren. Zeigen die Unterrichtsmerkmale einen statistisch bedeutsamen positiven Zusammenhang mit den Testwerten, so gilt der Test als instruktionssensitiv (z. B. Ing 2008).

Analysen der Instruktionssensitivität einzelner Items nutzen entweder die Itemantworten oder die Urteile geschulter Expertinnen und Experten. Expertenurteile zur Instruktionssensitivität eines Items können auf drei Arten erfolgen: a) global, das heißt anhand eines einzelnen Indikators (z. B. Chen 2012), b) anhand mehrerer Indikatoren, die zu einem Gesamturteil führen (z. B. Popham 2007; Popham und Ryan 2012), oder c) anhand mehrerer Indikatoren, die ein differenziertes Urteil erlauben (Musow et al. 2018). Beispielsweise schlägt Popham (2007) ein Gesamturteil über die Instruktionssensitivität eines Items mittels drei dichotomer Indikatoren vor: (1) der Einfluss des sozioökonomischen Status auf die Lösungswahrscheinlichkeit einer Aufgabe, (2) die Rolle der individuellen Begabung des Kindes, sowie (3) der Einfluss des Unterrichts auf die Lösungswahrscheinlichkeit. Ein Item wird dann als instruktionssensitiv angesehen, wenn die ersten beiden Indikatoren negativ beurteilt werden und dem dritten Indikator zugestimmt wird. Zwar betont Polikoff (2010) das Potential von Expertenurteilen, jedoch sind sie bisher kaum validiert und nur selten praktisch angewendet.

Auf Itemantworten basierende Ansätze bestimmen Instruktionssensitivität mittels Itemstatistiken. Seit Mitte der 1960er Jahre wurde eine Vielzahl von Maßen vorgeschlagen (für eine ausführliche Übersicht siehe Haladyna und Roid 1981; Polikoff 2010), die in der Regel auf der Trennschärfe oder der Itemschwierigkeit fußen (Haladyna 2004). Im Wesentlichen leiten sich diese itemstatistischen Ansätze aus einer von zwei Traditionen ab: a) der Entwicklung von Itemstatistiken, die ursprünglich im Kontext des kriterienorientierten Testens traditionelle Itemanalyseverfahren ersetzen oder ergänzen sollten (z. B. Kosecoff und Klein 1974), oder b) aus der Untersuchung von Differential Item Functioning (DIF; Holland und Wainer 1993) aufgrund des Lernkontextes der Schülerinnen und Schüler (z. B. Linn und Harnisch 1981; Clauser et al. 1996). DIF-Untersuchungen zur Instruktionssensitivität trugen maßgeblich dazu bei, die Verletzung von Messinvarianzannahmen als eine notwendige Voraussetzung für Instruktionssensitivität anzusehen (Naumann et al. 2014). Aus psychometrischer Sicht ist DIF jedoch keine Voraussetzung für Instruktionssensitivität (Naumann et al. 2017).

Allgemein werden Items dann als besonders instruktionssensitiv angenommen, wenn sich die Itemparameter stark über Messzeitpunkte verändern (z. B. Cox und Vargas 1966) oder über Lerngruppen hinweg variieren (z. B. Robitzsch 2009). Allerdings führt die gleichzeitige Anwendung dieser beiden Herangehensweisen zur Beurteilung der Instruktionssensitivität eines Items nicht zu konsistenten Ergebnissen, da sie sich, wie nachfolgend dargestellt, auf unterschiedliche Varianzquellen (Naumann et al. 2016) und Hypothesen bezüglich der Itemsensitivität (Naumann et al. 2017) beziehen.

6 Ein psychometrischer Rahmen zur Messung von Instruktionssensitivität

Die Vielzahl an Verfahren zur Operationalisierung von Instruktionssensitivität und deren inkonsistenten Ergebnisse lassen leicht den Eindruck einer Fragmentierung entstehen (vgl. Polikoff 2010). Zur Systematisierung der bisherigen Ansätze zur Messung von Instruktionssensitivität entwickelten Naumann et al. (2017) daher einen psychometrischen Rahmen (Abb. 2). Dieser Rahmen erlaubt die Kategorisierung bestehender Ansätze und stellt deren Gemeinsamkeiten und Unterschiede heraus.

Abb. 2
figure 2

Psychometrischer Rahmen zur Messung von Instruktionssensitivität nach Naumann et al. (2017)

Der Rahmen unterscheidet drei Perspektiven auf Instruktionssensitivität, die sich auf die unterschiedlichen Varianzquellen beziehen, welche üblicherweise als zentral zur Messung von Instruktionssensitivität angesehen werden (Naumann et al. 2016). Diese Varianzquellen sind a) die Zeitpunkte der Messung (vor oder nach einer Lerngelegenheit/Unterricht), b) die Zugehörigkeit zu Lerngruppen innerhalb einer Stichprobe (z. B. Klassen), sowie c) die Kombination aus den beiden vorher genannten Varianzquellen (Zeitpunkte × Gruppen). Die den Perspektiven zugehörigen Varianzquellen sind also ein erstes Unterscheidungsmerkmal der verschiedenen Ansätze zur Messung der Instruktionssensitivität von Tests und Items.

Ansätze aus der Zeitpunkte-Perspektive betrachten Veränderung oder Variation von Itemparametern beziehungsweise Testwerten über die Zeit. Meist werden Testdaten zu zwei Messzeitpunkten herangezogen. Beispielsweise misst der Pretest-Posttest-Difference Index (PPDI; Cox und Vargas 1966) die Instruktionssensitivität eines Items als die Differenz der Itemschwierigkeiten vor und nach dem Unterricht. Je größer diese Differenz ist, umso höher die Instruktionssensitivität des Items. Tab. 1A zeigt dies anhand eines Beispielitems mit drei Stufen (Naumann et al. 2016). Während das Item zum ersten Messzeitpunkt nur von vergleichsweise wenigen Kindern gelöst wird, erreichen zum zweiten Zeitpunkt mehr Kinder die mittlere beziehungsweise obere Antwortkategorie. Die Schwierigkeit der Aufgabe verringerte sich also über die Zeit, so dass das Item als sensitiv aus der Zeitpunkte-Perspektive angesehen werden kann.

Tab. 1 Relative Antworthäufigkeiten der Kategorien eines Items für eine Gesamtstichprobe zu zwei Zeitpunkten (A), für zwei Klassen A und B innerhalb der Stichprobe zu T2 (B) und für dieselben Klassen A und B zu zwei Zeitpunkten

Ansätze aus der Gruppen-Perspektive betrachten Unterschiede oder Variation von Itemparametern beziehungsweise Testwerten über Lerngruppen innerhalb einer Stichprobe. Grundlegend ist die Annahme, dass maßgebliche Unterschiede im erlebten Unterricht auf die Zugehörigkeit der Schülerinnen und Schüler zu einer bestimmten Lerngruppe wie beispielsweise einer Klasse oder Schule zurückgehen (z. B. Robitzsch 2009). Im Gegensatz zur Zeitpunkte-Perspektive handelt es sich bei Ansätzen aus der Gruppen-Perspektive um rein querschnittliche Ansätze, die auf Testdaten nach dem Unterricht basieren. Unterscheidet sich der Unterricht in den Gruppen, sollten einerseits instruktionssensitive Items für die Gruppen unterschiedlich schwierig sein und andererseits Lerngruppen mit höherwertigerem Unterricht höhere Testwerte in instruktionssensitiven Tests aufweisen. Tab. 1B zeigt Instruktionssensitivität aus der Gruppen-Perspektive anhand der unterschiedlichen Antworthäufigkeiten eines Items in zwei verschiedenen Klassen zum selben Zeitpunkt. Je stärker also Itemparameter oder Testwerte über Lerngruppen hinweg variieren, umso höher wird die Instruktionssensitivität angenommen. Auf Testebene wird üblicherweise die durch Unterrichtsmaße erklärte Varianz der Testwerte als Evidenz für Instruktionssensitivität angesehen (z. B. Grossman et al. 2014).

Ansätze aus der Gruppen × Zeitpunkte-Perspektive berücksichtigen sowohl die Lerngruppen innerhalb einer Stichprobe als auch die Messzeitpunkte als Varianzquellen in der Analyse der Instruktionssensitivität. Diese Verknüpfung ermöglicht die Ableitung von zwei Facetten der Sensitivität – globale und differentielle Sensitivität –, welche sowohl die zeitpunkt- als auch die gruppenbezogenen Sensitivitätsaspekte abbilden (Naumann et al. 2014). Die globale Sensitivität gibt an, inwiefern sich die Itemschwierigkeit oder die Testwerte über Lerngruppen innerhalb einer Stichprobe hinweg im Mittel über die Zeit verändern. Die differentielle Sensitivität gibt an, inwiefern diese Veränderung über Lerngruppen hinweg variiert. Mit Bezug zu Items empfehlen Naumann et al. (2014) beide Facetten zur Analyse der Instruktionssensitivität heranzuziehen, da die Beurteilung anderenfalls möglicherweise unvollständig oder irreführend ist. Tab. 1C zeigt die Antworthäufigkeiten eines global und differentiell sensitiven Items. Im Mittel über beide Klassen wird die Aufgabe über die Zeit leichter (globale Sensitivität), während die Schwierigkeitsveränderung über die Klassen variiert (differentielle Sensitivität). In der Messung der Instruktionssensitivität von Tests wird oft nur die differentielle Sensitivität im Sinne der durch Unterrichtsmerkmale erklärbaren Zwischen-Gruppen-Varianz betrachtet (z. B. Ing 2008), während die globale Sensitivität üblicherweise wenig Beachtung findet.

Innerhalb des psychometrischen Rahmens mit den drei genannten Perspektiven (Zeitpunkte‑, Gruppen- und Gruppen × Zeitpunkte-Perspektive) wird jeweils zwischen absoluten und relativen Maßen von Instruktionssensitivität unterschieden (Naumann et al. 2017). Absolute und relative Maße erlauben das Testen zweier unterschiedlicher Hypothesen bezüglich der Instruktionssensitivität eines Items, nämlich A) ob ein Item für sich betrachtet sensitiv ist oder B) ob die Sensitivität eines einzelnen Items von der Sensitivität des Gesamttests abweicht. Naumann et al. (2017) definieren dabei Testsensitivität als die Varianz der Testwerte, je nach Perspektive über die Zeit, über die Lerngruppen oder über beides. Während also die Prüfung von Hypothese A unabhängig von der Testzusammensetzung für jedes einzelne Item möglich ist, ändern sich die Resultate der Prüfung von Hypothese B für jedes Item in Abhängigkeit von der Zusammensetzung des Tests.

Absolute Sensitivitätsmaße beschreiben demnach die Gesamtsensitivität eines einzelnen Items unabhängig von der Sensitivität der übrigen Testitems. Das heißt, absolute Maße beschreiben das gesamte Ausmaß, in dem die Itemparameter über Zeitpunkte, über Lerngruppen oder beides variieren. Absolute Sensitivitätsmaße nehmen entsprechend den Wert Null an, wenn die Itemparameter konstant sind, sich also beispielsweise zwischen Zeitpunkten nicht verändern oder über Lerngruppen hinweg nicht unterscheiden. Sie nehmen Werte ungleich Null an, wenn die Itemparameter über die Zeit, über die Lerngruppen oder beides hinweg variieren. Dementsprechend zeigt Tab. 1 Beispiele für absolute Sensitivität aus den drei Perspektiven. Das bekannteste absolute Sensitivitätsmaß ist der PPDI.

DIF-Methoden sind dagegen ein prominentes Beispiel für relative Sensitivitätsmaße. Relative Sensitivitätsmaße beschreiben die Abweichung der Sensitivität eines einzelnen Items von der Testsensitivität. Das Ausmaß der relativen Sensitivität eines Items hängt damit von der absoluten Sensitivität der anderen Testitems ab. Relative Sensitivitätsmaße nehmen entsprechend den Wert Null an, wenn die absolute Sensitivität eines Items der Testsensitivität entspricht. Beträgt beispielsweise die absolute Sensitivität eines Items 0,5 und ist identisch mit der Testsensitivität, dann ist die relative Sensitivität dieses Items \(0,5-0,5=0\). Das heißt, das Item ist nicht relativ sensitiv, obwohl es absolut sensitiv ist. Die Itemsensitivität unterscheidet sich also nicht von der Testsensitivität. Weicht dagegen die absolute Sensitivität eines Items von der Testsensitivität ab, nehmen die relativen Sensitivitätsmaße für dieses Item einen Wert ungleich Null an. Dies ist beispielsweise dann der Fall, wenn sich ein Item in seiner Schwierigkeit über die Zeit weniger stark verändert als der Test (Zeitpunkte-Perspektive). Wie Naumann et al. (2017) herausstellen, kann ein Item jedoch auch dann relativ sensitiv sein, wenn es absolut insensitiv ist. Für sich genommen geben relative Maße also keine Auskunft darüber, ob ein Item dazu in der Lage ist, Effekte von Schule und Unterricht aufzufangen.

Zusammenfassend sind auf der Itemebene also insgesamt acht verschiedene Sensitivitätsmaße konzipierbar (letzte Spalte Abb. 2). Allerdings fanden bisher nicht alle dieser Varianten eine praktische Anwendung in empirischen Studien. Aus der Zeitpunkte-Perspektive werden regelmäßig sowohl absolute Maße wie zum Beispiel der PPDI als auch relative Maße wie das Ausmaß des Item Parameter Drifts (z. B. DeMars et al. 2004; French et al. 2016) zur Messung der Instruktionssensitivität von Items herangezogen. Aus der Gruppen-Perspektive dominieren dagegen die relativen Sensitivitätsmaße auf Basis von DIF-Methoden (z. B. Li et al. 2016; Deutscher und Winther 2017). Da absolute und relative Maße unterschiedliche Hypothesen prüfen, schlagen Naumann et al. (2017) vor, in einem ersten Schritt der Itemselektion die absolute Sensitivität zu prüfen und darauf aufbauend in einem zweiten Schritt der relativen Sensitivität der ausgewählten Items nachzugehen. Soll ein Testinstrument Rückschlüsse über Unterricht erlauben, sollte die absolute Sensitivität idealerweise möglichst hoch und die relative Sensitivität möglichst niedrig sein. Der Vorteil dieser Vorgehensweise besteht darin, zunächst Informationen über das Ausmaß zu erhalten, in dem jedes für einen Test infrage kommende Item Effekte des Unterrichts erfassen kann (absolute Sensitivität), und daran anknüpfend Erkenntnisse über die Konsequenzen der Testzusammenstellung zu erlangen. Konsequenzen der Testzusammenstellung können beispielsweise Verletzungen von Messinvarianzannahmen oder der Eindimensionalität sein, wenn einzelne oder mehrere Items von der Testsensitivität abweichen (relative Sensitivität).

7 Der Rahmen als Item-Response-Modell

Das psychometrische Framework lässt sich unmittelbar in ein längsschnittliches Mehrebenen-IRT-Modell übersetzen (LMLIRT Modell; Naumann et al. 2017). Im LMLIRT Modell ergibt sich die Wahrscheinlichkeit einer korrekten Antwort aus der mittleren Fähigkeit von Gruppe c, \(\theta _{tc}\), der individuellen Fähigkeit von Person i, \(\theta _{\mathrm{tci}}\), sowie der gruppen- und zeitpunktspezifischen Itemschwierigkeit \(\beta _{\mathrm{tck}}\). Für jeden Zeitpunkt t > 1 sind \(\theta _{tc}\) und \(\theta _{\mathrm{tci}}\) die Veränderung der gruppenspezifischen und individuellen Fähigkeiten vom vorhergehenden Zeitpunkt \(t-1\). Analog beschreibt \(\beta _{\mathrm{tck}}\) den Ausgangswert für die gruppenspezifische Schwierigkeit des Items k zu Zeitpunkt \(t=1\) und die gruppenspezifische Veränderung der Schwierigkeit zu jedem Zeitpunkt \(t>1\). Abb. 3 zeigt das LMLIRT Modell beispielhaft für fünf Items und zwei Messzeitpunkte.

Abb. 3
figure 3

LMLIRT Modell für fünf Items zu zwei Messzeitpunkten. Die Gruppenebene ist oberhalb der Linie dargestellt, die Individualebene unterhalb. Parameter \(\theta _{tc}\, \text{und}\)\(\theta _{\mathbf{tci}}\) beschreiben die Gruppen- und individuellen Fähigkeitskomponenten. Parameter \(\beta _{\mathbf{tck}}\) ist der gruppen- und zeitpunktspezifische Schwierigkeitsparameter von Item k. Mittelwert und Varianz von \(\beta _{\mathbf{tck}}\) dienen als Indikatoren für die globale und differentielle Sensitivität eines Items

Die Itemparameter \(\beta _{\mathrm{tck}}\) werden als multivariat normalverteilt angenommen mit Mittelwerten \(\beta _{tk}\) und itemspezifischen Kovarianzmatrizen \(\boldsymbol{\Phi }_{k}\). Die Verteilung der gruppenspezifischen Itemparameter \(\beta _{\mathrm{tck}}\) beinhaltet die Information zur globalen und differentiellen Sensitivität der Items. Während die in \(\beta _{tk}\) enthaltenen Mittelwerte die globale Sensitivität anzeigen, beschreiben die Diagonalelemente von \(\boldsymbol{\Phi }_{k}\), also die Varianzparameter \(\phi _{tk}^{2}\), die differentielle Sensitivität eines Items. Ist \(\beta _{tk}\) für ein Item ungleich null für einen Zeitpunkt \(t>1\), also die mittlere Veränderung der Itemschwierigkeit über Gruppen entweder positiv oder negativ, dann wird das Item als global sensitiv für diese Zeitspanne angesehen. Das heißt, anhand dieses Items wird ein Lerneffekt in der Stichprobe zwischen den Zeitpunkten sichtbar. In gleicher Weise wird ein Item als differentiell sensitiv angesehen, umso höher \(\phi _{tk}^{2}\) für \(t>1\) ist, also je stärker die Schwierigkeitsveränderung eines Items über Lerngruppen hinweg variiert. Das heißt, anhand dieses Items werden Unterschiede im Lernen zwischen Gruppen sichtbar. Je nach Vorgehen bei der Modellidentifikation erhält man absolute und relative Maße als statistische Indikatoren für die globale und differentielle Sensitivität (siehe Naumann et al. 2017).

Zusätzlich erlaubt das LMLIRT Modell, diese auf Itemantworten der Schülerinnen und Schüler basierenden statistischen Indikatoren für Instruktionssensitivität mit Unterrichtsmerkmalen und/oder mit Itemmerkmalen in Beziehung zu setzen. So kann die Verteilung der klassen- und zeitpunktspezifischen Itemschwierigkeitsparameter in Gl. 4 um Unterrichtsmerkmale als Prädiktoren ergänzt werden, um die differentielle Sensitivität zu erklären (z. B. Naumann et al. 2015). Ebenso lassen sich anstelle der itemspezifischen Parameter \(\beta _{\mathrm{tck}}\) aufgabenmerkmalspezifische Koeffizienten im Sinne eines Linear Logistischen Testmodells (LLTM; Fischer 1972) verwenden, um die globale Sensitivität von Aufgaben zu erklären (z. B. Hochweber et al. 2017).

8 Weiterer Forschungsbedarf

Mit dem vorgestellten psychometrischen Rahmen ist eine systematische Betrachtung der Instruktionssensitivität von Tests und Items möglich. Auf dem Weg zu Testinstrumenten, die zuverlässig Unterrichtseffekte erfassen können, lässt sich weiterer Forschungsbedarf in drei Bereichen identifizieren, nämlich bei (1) der Validierung von Aussagen über Instruktionssensitivität, (2) der Konstruktion instruktionssensitiver Items, sowie (3) der Bedeutung von Instruktionssensitivität für die Nutzung und Interpretation der Testwerte.

9 Validierung von Aussagen über Instruktionssensitivität

Die Gültigkeit von Expertenaussagen über Instruktionssensitivität ist bisher wenig untersucht. Expertenaussagen erscheinen in der Untersuchung von Instruktionssensitivität vorteilhaft, da sie im Vergleich zu auf Itemantworten basierenden Verfahren einen wesentlich geringeren Aufwand erfordern. Sie können ähnlich wie Untersuchungen zur curricularen Validität zu jedem beliebigen Zeitpunkt durchgeführt werden. Dagegen muss die Messung der Instruktionssensitivität eines Tests oder einzelner Items mittels Itemantworten von der Wirksamkeitsprüfung des Unterrichts getrennt erfolgen. Die Wirksamkeitsprüfung des Unterrichts und die Messung von Instruktionssensitivität verhalten sich in diesem Falle komplementär zueinander. Die Messung von Instruktionssensitivität erfolgt unter der Annahme, dass Unterricht effektiv ist, um die Sensitivität eines Tests oder Items zu bestimmen, während die Wirksamkeitsprüfung des Unterrichts die Annahme erfordert, dass ein Instrument sensitiv ist, um den Effekt des Unterrichts zu bestimmen (Naumann et al. 2016). Anhand derselben Testdaten sind Effektivität und Sensitivität also nicht trennbar. Bei Expertenaussagen gibt es diese Konfundierung nicht. Jedoch stellt sich die Frage, inwiefern Expertinnen und Experten dazu in der Lage sind, valide interpretierbare Aussagen zur Instruktionssensitivität von Tests und Items zu treffen (Polikoff 2010). Aktuell ist die Befundlage uneindeutig. So fand Chen (2012) zwar moderate Korrelationen (r > 0,30) zwischen einem globalen Expertenurteil zur Instruktionssensitivität von Items und deren gemessener relativen Sensitivität aus der Gruppen-Perspektive, sie folgerte aus diesem Befund jedoch, dass Expertenurteile nicht mit Itemstatistiken übereinstimmen. Für das Verhältnis zu anderen empirischen Sensitivitätsmaßen oder zu differenzierteren Expertenurteilen liegen zum jetzigen Zeitpunkt keine systematischen Untersuchungen vor.

Allerdings ist auch der Zusammenhang zwischen den meisten Itemstatistiken und den implementierten Unterrichtsinhalten sowie der Qualität der Implementation nach wie vor kaum empirisch untersucht. Bereits 1981 kritisierte van der Linden, dass Itemstatistiken nicht per se für Effekte des Unterrichts stehen. Einerseits ist die Variabilität in den Itemparametern eine notwendige Voraussetzung, andererseits ist sie kein hinreichender Beleg für die Instruktionssensitivität eines Items (Naumann et al. 2016). Die Variabilität kann ebenso von Merkmalen beeinflusst sein, die nicht unmittelbar mit dem Inhalt und der Qualität des Unterrichts im Zusammenhang stehen wie beispielsweise dem sozioökonomischen Status der Schülerinnen und Schüler. Tatsächlich berücksichtigen nur wenige Studien Merkmale des Unterrichts in ihren Itemanalysen (z. B. Muthén et al. 1991). Für Itemstatistiken bleibt entsprechend bislang häufig offen, welchen Anteil der Unterricht tatsächlich an der Variabilität in den Itemparametern hat. Der Einbezug von Unterrichtsmaßen und Kontrollvariablen in die Analyse der Itemsensitivität könnte daher eine validere Nutzung und Interpretation der Itemstatistiken erlauben.

Selbst wenn Unterrichtsmaße einbezogen werden, könnte die Validität von Aussagen zur Instruktionssensitivität weiter gestärkt werden. Studien zur Instruktionssensitivität von Tests berücksichtigen beispielsweise regelmäßig empirische Maße zu behandelten Unterrichtsinhalten oder zur Qualität der Implementation (Ruiz-Primo et al. 2012; Polikoff und Porter 2014). Die Auswahl der Unterrichtsmaße orientiert sich jedoch stark am Unterrichtsangebot. Bereits in der Literatur zur Instruktionssensitivität von Testitems lassen sich vereinzelt Hinweise finden, die auf eine Bedeutsamkeit des Einbezugs von Merkmalen der Schülerinnen und Schüler und der Klassenkomposition hindeuten (Muthén et al. 1991; Naumann et al. 2016). In Anbetracht theoretischer Modelle zur Erklärung des Zustandekommens von Schulleistungen wie den Angebots-Nutzungs-Modellen (Fend 2002; Helmke 2012; Brühwiler 2014) erscheint der Nicht-Einbezug von Schülermerkmalen und Klassenkomposition zu stark vereinfachend. Entsprechend könnte der systematische Einbezug von Merkmalen der Schülerinnen und Schüler sowie der Klassenzusammensetzung eine validere Interpretation von Instruktionssensitivitätsindikatoren unterstützen.

Schließlich fehlt es an einem Bezugsmaßstab zur Beurteilung des Ausmaßes der Instruktionssensitivität von Test und Items. Zwar gibt es Wege zur Prüfung der statistischen Bedeutsamkeit der Sensitivität, inwiefern in der Praxis von einer geringen oder hohen Sensitivität zu sprechen ist, bleibt derzeit jedoch offen.

10 Konstruktion instruktionssensitiver Items

Während Studien regelmäßig die Instruktionssensitivität bestehender Testverfahren untersuchen, gibt es bislang nur sehr wenig Wissen über deren zielgerichtete Konstruktion. Für die zielgerichtete Konstruktion instruktionssensitiver Items konnten Ruiz-Primo et al. (2012) in einem experimentellen Design zeigen, dass die globale Instruktionssensitivität eines Items mit dessen Nähe zu den Inhalten und den Aktivitäten des implementierten Curriculums ansteigt. Nähe zum implementierten Curriculum bedeutet beispielsweise, wie stark sich die Aufgabenstellung eines Items mit Fragestellungen im Unterricht überschneidet, in welchem Ausmaß Schülerinnen und Schüler in den itemrelevanten Inhalten unterrichtet wurden oder inwiefern im Unterricht vermittelte Strategien hilfreich zur korrekten Lösung des Items sind (Ruiz-Primo et al. 2002). Items nahe am implementierten Curriculum sollten also prinzipiell die zentralen Konzepte, Strategien und Erklärungsmodelle innerhalb einer Unterrichtseinheit, also des intendierten Curriculums, erfassen. Detailliertes Wissen über das intendierte Curriculum ist daher Voraussetzung für die Konstruktion instruktionssensitiver Items (Ruiz-Primo et al. 2012).

In der Praxis stellt nicht jeder Unterricht eine perfekte Realisation des intendierten Curriculums dar. Außerhalb eines experimentellen Designs, das implementiertes sowie intendiertes Curriculum stark aufeinander abstimmt, bietet sich demnach keine bestimmte Art von Unterricht als Referenzpunkt für die Itemkonstruktion an. Tatsächlich kann es eine Bandbreite möglicher Implementationen des Curriculums geben, die alle gleichermaßen dem intendierten Curriculum entsprechen. Bei Anwendungen wie beispielsweise der Testkonstruktion in Large Scale Assessments oder Unterrichtsstudien bleibt nach wie vor die Frage nach der zielgerichteten Konstruktion instruktionssensitiver Items offen, sofern die Testwerte hinsichtlich des aufgrund des Unterrichts erreichten Lernfortschritts interpretiert oder mit Merkmalen von Schule und Unterricht in Beziehung gesetzt werden sollen.

11 Bedeutung für die Nutzung und Interpretation der Testwerte

Das Verhältnis von Test- und Itemebene spielt eine zentrale Rolle in der Nutzung und Interpretation von Testwerten. Ungeklärt ist die Frage, wie die Selektion bestimmter Items aufgrund ihrer Instruktionssensitivität die Interpretation der Testwerte des daraus konstruierten Tests beeinflusst. Einerseits tangiert das die bereits zuvor beschriebene Frage, in welchem Maße ein Test instruktionssensitiv ist, der aus instruktionssensitiven Items besteht, und andererseits resultiert daraus die Frage, welche Konsequenzen für Rückschlüsse über Unterricht anhand der Testwerte sich aufgrund eines bestimmten Grades an Instruktionssensitivität der Items ergeben. Letztere Frage untersuchte van der Linden (1981) am Beispiel der Itemselektion rein anhand des PPDI und dessen Einflusses auf die Testwerte. Er entdeckte einerseits ein Ansteigen von Effektstärken, wenn Tests anhand eines möglichst hohen PPDI-Werts zusammengestellt werden. Andererseits sind diese Effektstärken nicht sinnvoll interpretierbar, da sie künstlich erzeugt und inhaltlich bedeutungslos scheinen. Im Hinblick auf die Zwischen-Gruppen-Varianzkomponente gibt es dazu bislang jedoch keine empirischen Befunde. Van der Linden (1981) folgend scheint die reine Maximierung der absoluten Sensitivität nur bedingt erstrebenswert. Stattdessen bedarf es weiterer Studien zum Verhältnis von Konstrukt, Iteminhalt und Itemsensitivität.

Auch ist bisher wenig Wissen über den Einfluss einer heterogenen Instruktionssensitivität von Items auf Veränderungsmessungen in schulischen Kontexten verfügbar. In Veränderungsmessungen führt eine über Items hinweg variierende globale Sensitivität vermutlich zu Verletzungen von Messinvarianzannahmen über die Zeit (vgl. Naumann et al. 2014). Das heißt, die Rangfolge der Itemschwierigkeiten könnte sich vor und nach einem Unterricht unterscheiden und damit ließe sich keine gemeinsame Skala über die Messzeitpunkte hinweg erstellen. Theoretisch wäre eine mögliche Ursache in den Anforderungen und Inhalten des Unterrichts zu finden. Bestimmte Unterrichtsinhalte sind oftmals leichter zu erlernen als andere. Items zeigen also möglicherweise allein schon aufgrund ihres Inhalts einen variierenden Grad an Instruktionssensitivität. Ein variierender Grad an globaler Instruktionssensitivität stellt daher theoretisch ein immanentes Problem für Veränderungsmessungen in schulischen Kontexten dar. Inwiefern Veränderungsmessungen in schulischen Kontexten in der Praxis mit diesem Problem konfrontiert sind, ist mangels empirischer Studien bislang weitgehend offen.

In ähnlicher Weise ist ein Einfluss eines variierenden Grades an differentieller Instruktionssensitivität von Items auf die Testwertinterpretation denkbar. Gibt es innerhalb eines Tests zwei oder mehr Sets von Items, die in unterschiedlicher Weise differentiell sensitiv sind, hat dies möglicherweise Implikationen für die Dimensionalität von Veränderungswerten auf der Gruppenebene. Kovariieren die klassenspezifischen Itemschwierigkeitsveränderungen für bestimmte Sets von Items untereinander stärker über die Zeit als für andere Itemsets, könnten die Veränderungswerte auf der Gruppenebene in der Folge mehrdimensional erscheinen. Im Gegensatz zu Fragebogenskalen wird die Mehrdimensionalität von Test- und Veränderungswerten auf der Gruppenebene in Item-Response-Modellen nur selten empirisch überprüft. In der Praxis könnte eine Mehrdimensionalität vorteilhaft sein, um beispielsweise eine detailliertere Rückmeldung über Lernfortschritte auf der Gruppenebene zu geben als es mit einem einzelnen Wert möglich wäre. Entsprechende Studien zur gültigen Interpretation und Nutzbarmachung des Konzepts der Instruktionssensitivität für die wissenschaftliche Praxis wären daher wünschenswert.

Nichtsdestotrotz lassen sich bereits auf Basis des aktuellen Kenntnisstandes zwei potentielle Wege benennen, um Instruktionssensitivität im Forschungsprozess sicherzustellen: (a) durch den Rückgriff auf bewährte Testinstrumente oder (b) mittels Pilotierungsstudien zur Untersuchung der Instruktionssensitivität neu erstellter Testinstrumente. Für bewährte Testinstrumente, die sich bereits in früheren Studien als instruktionssensitiv gezeigt haben, lässt sich auch für nachfolgende Studien vermuten, dass sie Effekte von Schule und Unterricht auffangen können. Gleichermaßen scheint diese Annahme ebenso für neu erstellte Testinstrumente plausibel, wenn diese sich in Pilotierungsstudien als instruktionssensitiv erweisen. Beide Vorgehensweisen setzen voraus, dass die vorherigen (Pilotierungs‑)Studien mit der geplanten neuen Studie weitgehend vergleichbar sind. Vergleichbar bedeutet, dass (a) sich die Evidenz für Instruktionssensitivität auf ähnliche Varianzquellen bezieht wie die für die neue Hauptstudie geplanten Analysen (vgl. Naumann et al. 2016) und (b) eine ähnliche Schülerstichprobe sowie (c) ein ähnlicher Unterricht zugrunde liegt. Ein Test, der sich beispielsweise in Anwendung in einer Jahrgangsstufe als instruktionssensitiv gezeigt hat, muss nicht notwendigerweise auch in einer anderen Jahrgangsstufe sensitiv sein, da sich die Fähigkeiten der Schülerinnen und Schüler sowie der Unterricht zwischen den Stufen mitunter stark unterscheiden. Insbesondere an Pilotierungen stellt dies enorm hohe Ansprüche, da sie im Idealfall (a) über ein zur Hauptstudie kompatibles Erhebungsdesign verfügen müssen mit (b) Stichproben von Schülerinnen und Schülern, die vergleichbare Lerngelegenheiten wie die Stichprobe der Hauptuntersuchung hatten, sowie (c) einer Bandbreite an Unterricht, die ähnlich der in der Hauptstudie zu erwartenden Variation ist. Offen bleibt daher, ob sich solch eine Art Pilotierung ökonomisch sinnvoll umsetzen lässt. Letzten Endes gilt es in beiden Vorgehensweisen zu beachten, dass ein Test, der für eine spezifische Facette von Unterrichtsqualität oder für einen spezifischen Unterrichtsinhalt sensitiv ist, nicht notwendigerweise auch sensitiv für andere Facetten von Unterrichtsqualität oder Unterrichtsinhalte sein muss (vgl. Polikoff 2016).

Schlussendlich muss Instruktionssensitivität immer dann sichergestellt sein, wenn Testergebnisse in Beschreibungs- oder Erklärungsmodellen als ein Erfolgskriterium für Schule und Unterricht herangezogen werden sollen (vgl. Klieme und Leutner 2006). Ihre Relevanz hängt also nicht damit zusammen, was (z. B. Wissen oder Kompetenzen), auf welche Art (z. B. Small-Scale oder Large-Scale) oder in welchem Kontext (Bildungsmonitoring oder -forschung) getestet wird, sondern zu welchem Zweck. Steht die Identifikation allgemeiner Fähigkeiten von Schülerinnen und Schülern oder ihres Lernstands im Vordergrund, ist Instruktionssensitivität nachrangig. Steht der Lernerfolg oder der Lernfortschritt aufgrund des Unterrichts im Vordergrund, ist Instruktionssensitivität zentral. Das heißt, um gültige Rückschlüsse zu ziehen ist es erforderlich, dass die eingesetzten Instrumente potentielle Effekte von Schule und Unterricht erfassen können. Entsprechend müssen Unterschiede und Veränderungen in den Inhalten und der Qualität des Unterrichts mit Veränderungen im Antwortverhalten und den Testwerten einhergehen (vgl. Burstein 1989). Nur wenn dieser Zusammenhang vorab geklärt ist, kann die gemessene Leistung als ein gültiges Kriterium für den Erfolg oder Misserfolg eines Unterrichts dienen. Instruktionssensitivität von Tests oder Testitems ist also insbesondere dann von zentraler Bedeutung, wenn auf Basis der Testwerte der Schülerinnen und Schüler a) Schul- und Unterrichtsentwicklung oder b) Schul- und Unterrichtseffektivitätsforschung betrieben wird.

Zu beachten ist, dass Instruktionssensitivität nicht bedeutet, die direkte Beobachtung von Unterricht durch die Messung von Leistung ersetzen zu können. Leistungstestwerte als Produkt eines Lernprozesses erlauben keinen Einblick darin, wie die gemessene Leistung zustande gekommen ist, also auf welche Weise der Unterricht stattgefunden hat (vgl. Helmke 2012). Dennoch ist es essentiell, Argumente für ihre valide Interpretation und Nutzung zu liefern (vgl. AERA et al. 2014). Für gültige Rückschlüsse über Schule und Unterricht heißt dies, die Instruktionssensitivität der Instrumente zu beachten.