1 Einleitung

Die Bildungsstandards für den mittleren Schulabschluss in Physik beschreiben seit nunmehr einer Dekade das intendierte Ziel des Physikunterrichts in der Sekundarstufe I (KMK 2003, 2005). Im Jahr 2012 wurde vom Institut zur Qualitätsentwicklung im Bildungswesen (IQB) ein repräsentativer Ländervergleich durchgeführt, der sowohl der Erfassung des Leistungsstandes der Lernenden als auch der empirischen Validierung der formulierten Standards diente (Pant et al. 2013). Die eingesetzten Aufgaben wurden basierend auf einem Kompetenzstrukturmodell von Lehrkräften sowie Vertreterinnen und Vertretern aus Ministerien beziehungsweise Landesinstituten aus den Bundesländern entwickelt. Fokus der Aufgaben sind die fachbezogenen Kompetenzen in Physik. Der Kompetenzbereich Fachwissen umfasst der Intention der Bildungsstandards folgend den aktiven Umgang mit dem Fachwissen zum Lösen fachlicher Probleme. Lernende sollen mit Hilfe einer strukturierten Wissensbasis Problemstellungen zu physikalischen Phänomenen, Begriffen oder Gesetzmäßigkeiten bewältigen können (KMK 2005). Allerdings lassen sich andere kognitive, motivationale und volitionale Personenmerkmale als Varianzanteile der Performanz im Rahmen der Testung nicht ausschließen.

Im Rahmen der Kompetenzdefinition von Weinert (2001) und der davon ausgehenden Operationalisierung innerhalb der Evaluation der Bildungsstandards wird dies mitunter bewusst berücksichtigt. Insbesondere beim Kompetenzbereich Fachwissen zeigt sich, dass über alle Schulformen und Bundesländer hinweg die Lehrpläne kaum gemeinsame Inhalte beschreiben. Daher wurde entschieden, benötigtes Vorwissen innerhalb der Testung jeweils im Stamm eines Items vorzugeben und damit auch im Sinne einer Kompetenzorientierung Umgang mit Fachwissen zu evaluieren (Pant et al. 2013). Dies impliziert allerdings, dass die Schülerinnen und Schüler in der Lage sind, die Informationen angemessen zu rezipieren. Damit ergibt sich vermutlich zumindest eine Überlagerung der physikbezogenen Kompetenzen und (schrift)sprachlichFootnote 1 rezeptiven Fähigkeiten für alle Aufgaben. Zusätzlich erfordern manche Aufgaben schriftliche Antworten, was unter Umständen zusätzlich sprachlich produktive Fähigkeiten erfordert. Während andere Personenmerkmale über die Items hinweg durch Variation der Itemcharakteristika in Teilen kontrolliert werden können (z. B. mathematische Kompetenzen oder konvergentes Denken), ist dies bei den sprachlichen Fähigkeiten nicht der Fall (vgl. Kauertz et al. 2010; Ropohl 2010).

Zusammengefasst wird vermutet, dass die schriftliche Modalität sprachlicher Fähigkeiten (vgl. Jude et al. 2008, S. 192) Einfluss auf die Performanz im Bereich Umgang mit Fachwissen in der Evaluation der Bildungsstandards hat. In dem vorliegenden Beitrag werden in einer Untersuchung daher die drei Bereiche Umgang mit Fachwissen Physik, sprachliche Fähigkeiten und Physik Fachwissen aufeinander bezogen.

2 Theoretischer Hintergrund

Es wird davon ausgegangen, dass sprachliche Fähigkeiten eine wesentliche Variable für akademischen Erfolg im Allgemeinen, aber auch speziell für das Lernen in den Naturwissenschaften sind (vgl. Härtig et al. 2015). Letzteres spiegelt sich unter anderem in hohen korrelativen Zusammenhängen zwischen sprachlichen Fähigkeiten und Leistungen in naturwissenschaftlichen Tests wider (O’Reilly und McNamara 2007; Cromley 2009). In der Forschung wurde dabei in der Vergangenheit vor allem das Lesen naturwissenschaftsbezogener Texte als Teil des Lernens empirisch untersucht, wobei schriftsprachlich rezeptive Fähigkeiten im Fokus stehen, zum Beispiel im Rahmen von Untersuchungen zum Textverständnis. Das Textverständnis ist ein komplexer Prozess, der im Sinne von van Dijk und Kintsch (1983) als Bildung mentaler Repräsentationen interpretiert werden kann. Die Lesenden nehmen den Inhalt auf der Basis ihres Vorwissens wahr, interpretieren ihn und bilden daraus neue Wissenselemente (Norris und Phillips 2003). Dies scheint zu Interaktionen zwischen Personen- und Textmerkmalen zu führen, wobei sich zum Beispiel Veränderungen bei der Text-Bild Interaktion sowohl lernförderlich als auch lernhinderlich auswirken können (Sumfleth und Tiemann 2000; Schmeck 2011). Im Fokus dieses Artikels steht die Sichtweise der psychologisch orientierten Textverständnisforschung und der Nomenklatur von Jude et al. (2008): Als Fähigkeiten der Schülerinnen und Schüler lassen sich unter anderem sprachliche und fachliche Fähigkeiten beschreiben. Die fachlichen Fähigkeiten werden in diesem Artikel als Fachwissen Physik bezeichnet. Die sprachlichen Fähigkeiten unterteilen sich in die auditive und die schriftliche Modalität, sowie die Prozesse Produktion und Rezeption, wobei im Folgenden nur die schriftliche Modalität als sprachliche Fähigkeiten berücksichtigt wird.

Die benötigten sprachlichen Fähigkeiten bei der Bearbeitung von Testitems reichen von der Identifikation von Buchstaben und Entschlüsselung einzelner Wortbedeutungen bis zur Herstellung von Beziehungen zwischen mehreren Sätzen (Francis et al. 2006; Perfetti 2007; Hall et al. 2015). Für den Verstehensprozess als Interaktion spielt neben dem Wissen über Wortbedeutungen, und dem Vermögen Schlussfolgerungen aus zu verknüpfenden Textteilen zu ziehen, auch das Vorwissen bezogen auf den Inhalt der Aufgaben eine wichtige Rolle (Perfetti 2007). Es ist davon auszugehen, dass die verschiedenen Teilaspekte individueller sprachlicher Fähigkeit (z. B. Wortschatz oder Strategiewissen) gemeinsam zum Einsatz kommen (vgl. Artelt et al. 2007).

Sprachlich rezeptive Fähigkeiten sind für die Bearbeitung der Aufgaben zur Evaluation der Bildungsstandards relevant, da wesentliche Teile der zur Lösung notwendigen Fachinformationen vorgegeben sind (vgl. Abb. 1). Diese müssen von den Probandinnen und Probanden zunächst angemessen verarbeitet werden, um tatsächlich hilfreich zu sein, da die Aufgaben letztlich als – wenn auch sehr kurze – Texte angesehen werden können. Darüber hinaus sind aber auch sprachlich produktive Fähigkeiten zumindest dann vonnöten, wenn die Testpersonen schriftsprachliche Antworten bei offenen Antwortformaten generieren sollen. Dies zeigt sich unter anderem bei vergleichenden Analysen von offenen und geschlossenen Antwortformaten (Härtig 2014a, b). Beide Aspekte, der Einfluss sprachlich rezeptiver Fähigkeiten auf Kompetenztests sowie der Einfluss des Antwortformats sollen zunächst theoretisch fundiert werden.

2.1 Einfluss sprachlicher Fähigkeiten auf Kompetenztests

Die PISA 2003 Studie bietet die Möglichkeit, zwischen sprachlichen Fähigkeiten (gemessen als Lesekompetenz), mathematischen und naturwissenschaftlichen Kompetenzen Beziehungen herzustellen. Sowohl in der internationalen Stichprobe als auch in der nationalen Gruppe für Deutschland zeigten sich hohe latente Korrelationen (r = 0,63 bis 0,87) zwischen den jeweiligen Konstrukten (Leutner et al. 2004). Diese hohen latenten Korrelationen bleiben auch bestehen, wenn kognitive Grundfähigkeiten als gemeinsamer Einflussfaktor auspartialisiert werden, wobei naturwissenschaftliche Kompetenz auch in einer nichtmetrischen multidimensionalen Skalierung in der Nähe der Lesekompetenz verortet werden kann (Leutner et al. 2004).

Diese Ergebnisse legen nahe, dass die Performanz in naturwissenschaftlichen Tests von sprachlichen Fähigkeiten beeinflusst werden könnte, wie es für das Fach Chemie gezeigt wurde (Ropohl et al. 2015). Dabei fallen die latenten Korrelationen zwischen sprachlich rezeptiven Fähigkeiten und naturwissenschaftlicher Kompetenz zwar niedriger aus (r = 0,54 bis 0,66). Eine höhere Korrelation zeigt sich aber insbesondere bei Aufgaben, bei denen zur Lösung relevante Informationen Teil des Itemstamms sind. Dieser Einfluss sprachlich rezeptiver Fähigkeiten lässt sich insbesondere vor dem Hintergrund der Textverständnisforschung interpretieren: Hintergrund hierfür ist die Anforderung, aus dem Text (d. h. dem Itemstamm) eine angemessene mentale Repräsentation zu bilden und diese an das Vorwissen anzuknüpfen (vgl. Schnotz 2006). Erst dann wäre eine Bearbeitung des Items möglich.

In verschiedenen Studien wurden die einzelnen Personenmerkmale (u. a. fachspezifisches Vorwissen und Facetten sprachlicher Fähigkeiten) zur Erklärung des Textverständnisses expositorischer Texte untersucht. Dabei fanden zum Beispiel Schaffner und Schiefele (2013) sowie Cromley et al. (2010) Evidenz für die Bedeutsamkeit von schlussfolgerndem Denken (bei einer erheblichen Differenz der verwendeten Maße), Strategiewissen und sprachlich rezeptiver Fähigkeiten, beziehungsweise Wortschatz und Worterkennung. Unterschiedlich fällt hingegen der Einfluss des fachspezifischen Vorwissens aus: Während sich in einem Strukturgleichungsmodell mit nur direkten Effekten bei Schaffner und Schiefele (2013) kein Einfluss zeigte, fanden Cromley et al. (2010) sowohl direkte wie mediierende Effekte. Ferner zeigten O’Reilly und McNamara (2007) einen Kompensationseffekt von sprachlichen Fähigkeiten auf das Vorwissen. Dabei waren Schülerinnen und Schüler in der Lage beim Lesen eines naturwissenschaftlichen Textes niedriges Vorwissen partiell mit hohen sprachlichen Fähigkeiten auszugleichen.

Mit Blick auf Schulleistungsstudien, wie auch die Evaluation der Bildungsstandards, sind große Teile dieser Befunde als relevant anzusehen. Die Testitems umfassen einen Aufgabenstamm, der Sachinformationen und meist eine kontextuelle Einbettung umfasst sowie die Handlungsanweisung (s. Abb. 1 für ein Beispielitem). Zudem müssen entweder Distraktoren gelesen oder aber schriftliche Antworten gegeben werden.

2.2 Einfluss des Antwortformats auf die Performanz

Im Rahmen der Evaluation der Bildungsstandards werden Aufgabentypen mit geschlossenen und offenen Antwortformaten eingesetzt, die unterschiedliche Anforderungen an die Testteilnehmenden stellen. Zur Bearbeitung von Multiple Choice Aufgaben können beispielsweise Strategien zum intelligenten Ausschließen von Antwortalternativen zum Tragen kommen (vgl. Klieme et al. 2000). Dabei müssen die Informationen des Aufgabenstamms mit den Antwortoptionen in Beziehung gesetzt werden, weshalb auch die Fähigkeit zum schlussfolgernden Denken vonnöten ist. Bei offenen Antwortformaten mit kurzer oder ausführlicher Antwort muss die Lösung eigenständig generiert und unter Umständen auch schriftlich begründet oder dargelegt werden, wobei dann sprachlich produktive Fähigkeiten relevant werden.

Generell führen offene Antwortformate zu niedrigeren Personenfähigkeiten als Multiple-Choice Items (DeMars 2000; Klieme et al. 2000; Leucht et al. 2012). Die Höhe dieses Unterschieds variiert allerdings auch aufgrund der nicht immer gegebenen Ähnlichkeit der Itemstämme (Rodriguez 2003). Härtig (2014a, b) verglich systematisch Physikaufgaben im Multiple-Choice Format mit Aufgaben im offenen Format. Dabei legte er Probandinnen und Probanden beide Varianten vor. Während sich bezogen auf das fachdidaktische Wissen Studierender für das Lehramt Physik nur sehr bedingt Effekte zeigten (Härtig 2014a), ließ sich der Einfluss des Antwortformats aber insbesondere bei einem reinen Fachtest bei Studierenden aller Fächer belegen, wobei die Testpersonen im Mittel in offenen Formaten schlechter abschnitten als in geschlossenen Formaten (Härtig 2014b).

Zusammenfassend kann festgehalten werden, dass Items mit geschlossenem Format eher Anforderungen an das Erkennen der korrekten Antwort stellen und solche mit offenem Format Anforderungen an das Generieren und Aufschreiben. Daher wird vermutet, dass sich bei allen Items rezeptive sprachliche Fähigkeiten auswirken, während offene Antwortformate zusätzlich produktive sprachliche Fähigkeiten erfordern. Insofern stellt sich die Frage, inwieweit das Antwortformat zusätzlich Auswirkungen auf die Performanz hat und wie diese im Zusammenhang mit sprachlichen Fähigkeiten stehen.

2.3 Ableitung der Forschungsfragen

Ausgehend von den Bildungsstandards wurde für deren Evaluation ein Kompetenzstrukturmodell entwickelt. Dieses beschreibt vier Kompetenzbereiche: Umgang mit Fachwissen, Erkenntnisgewinnung, Kommunikation und Bewertung (KMK 2005). Die Konzeption der Aufgaben zur Evaluation der Bildungsstandards sieht vor, zur Lösung relevante Fachinformationen zumindest in großen Teilen als Textfeld in den Itemstämmen vorzugeben (Kauertz et al. 2010; Sumfleth et al. 2013) (vgl. Abb. 1). Dieses bis dahin eher ungewöhnliche Itemformat führte innerhalb der Fachdidaktik zu kontroversen Diskussionen, ob die Aufgaben nicht zu stark sprachliche Fähigkeiten (mit) erfassen (Labudde et al. 2009). Exemplarisch wird dies hier für den Kompetenzbereich Umgang mit Fachwissen untersucht, da dieser sich einerseits von der Fähigkeit über Fachwissen zu verfügen, abgrenzt, andererseits aber darauf auch bezieht und daher gleichzeitig der Einfluss sprachlicher Fähigkeiten untersucht werden kann.

Da in den Aufgabenstämmen relevante Fachinformationen dargeboten werden, ist davon auszugehen, dass neben dem zugrunde liegenden Fachwissen sprachlich rezeptive Fähigkeiten die Performanz beeinflussen können. Begründen lässt sich dies unter anderem vor dem Hintergrund der Forschung zum Textverstehen. Daraus ergibt sich folgende Forschungsfrage:

(F.1) Inwieweit lässt sich die Leistung in den Items zur Messung des Umgangs mit Fachwissen Physik über Effekte des Fachwissens Physik durch sprachliche Fähigkeiten erklären?

Es ist nicht zwingend davon auszugehen, dass sich sprachliche Fähigkeiten gleichermaßen auf alle Aufgaben und bei allen Personen auswirken. Kauertz et al. (2010) vermuten, dass Personen mit niedrigen sprachlichen Fähigkeiten im Rahmen der Evaluation der Bildungsstandards benachteiligt werden. Dabei scheint sich das Antwortformat eines Items als kritische Größe herauszukristallisieren. So zeigte sich in früheren Arbeiten, dass bei Multiple-Choice Items andere konstruktirrelevante Merkmale von Testpersonen von Bedeutung sind als bei Items mit offenem Antwortformat (DeMars 2000; Rodriguez 2003). Bislang wurden in diesem Zusammenhang jedoch eher Merkmale aus den Bereichen Wissen oder Kompetenz untersucht – sprachliche Fähigkeiten wurden nicht betrachtet. Daraus ergeben sich zwei weitere Forschungsfragen:

(F.2) Zeigen sich bei Items zur Erfassung des Umgangs mit Fachwissen Physik Unterschiede in den Itemschwierigkeiten offener und geschlossener Antwortformate?

(F.3) Zeigen sich abhängig vom Aufgabenformat Unterschiede in der Relevanz sprachlicher Fähigkeiten für die Lösung von Items zur Erfassung des Umgangs mit Fachwissen Physik?

3 Methode

3.1 Stichprobe

Die Stichprobe mit N = 1961 Auszubildenden (23,3 % weiblich; Alter: M = 18,40, SD = 2,31) aus Berufen, in denen mathematisch-naturwissenschaftlichen Kompetenzen eine wichtige Rolle spielen (KFZ-Mechatroniker: 27,1 %, Elektroniker: 20,2 %, Industriemechaniker: 19,4 % und Industriekaufleute: 33,3 %), stammt aus der ersten Welle des Projekts ManKobE („Mathematisch-naturwissenschaftliche Kompetenzen in der beruflichen Erstausbildung“, vgl. Retelsdorf et al. 2013). Die Daten wurden Ende 2012/Anfang 2013 an 64 beruflichen Schulen in den Bundesländern Baden-Württemberg, Bayern und Hessen erhoben.

3.2 Beschreibung der Instrumente

Zur Untersuchung der Forschungsfragen wurden drei Instrumente benötigt, wodurch eines als Gegenstand der Untersuchung bereits festgelegt war: Ein Kompetenztest für den Kompetenzbereich Umgang mit Fachwissen Physik (UFP), ferner ein Instrument zur Erfassung des Fachwissen Physik (FP) sowie ein Instrument zur Erfassung der sprachlichen Fähigkeiten (SF).

UFP. Es konnte eine Auswahl von 40 Items der Testitems zur Evaluation der Bildungsstandards im Fach Physik genutzt werden, die in drei Aufgabenblöcken gebündelt waren. Die Testaufgaben wurden vom Institut zur Qualitätsentwicklung im Bildungswesen zur Verfügung gestellt. Alle Blöcke waren in Bezug auf verschiedene Itemcharakteristika wie das Antwortformat oder die Kompetenzteilbereiche gleichverteilt und repräsentativ für den Aufgabenpool der Bildungsstandards. Davon sind 27 Items im geschlossenen oder Kurzantwortformat (z. B. eine Zahl als Rechenergebnis oder ein einzelnes Wort), 13 Items erfordern längere schriftliche Antworten. Ein Beispiel ist in Abb. 1 dargestellt. Die EAP-Reliabilität betrug 0,71.

Abb. 1
figure 1

Beispielaufgabe zur Erfassung der Kompetenz Umgang mit Fachwissen Physik

Blöcke mit insgesamt 25 Items aus den Zwischen- beziehungsweise Abschlussprüfungen der Industrie- und Handelskammer (IHK) für technische Berufe ausgewählt, die ausschließlich mit den Physikunterrichtsinhalten der Sekundarstufe I lösbar sein sollten. Dabei wurden solche Aufgaben ausgewählt, die einerseits inhaltlich für die Stichprobe relevant sind (Mechanik und Elektrikzitätslehre) und andererseits auch für die Inhalte des Physikunterrichts der Sekundarstufe I repräsentativ. Im Gegensatz zu den UFP Items ist hier kein Vorwissen vorgegeben. Das zur Lösung benötigte Wissen (z. B. Formeln oder konzeptuelles Verständnis) müssen die Probandinnen und Probanden mitbringen, ansonsten ist eine Lösung eher unwahrscheinlich. Ein Beispiel findet sich in Abb. 2. Die EAP-Reliabilität betrug 0,59.Footnote 2

Abb. 2
figure 2

Beispielaufgabe zur Erfassung des physikbezogenen Wissens

SF. Jude et al. (2008) unterteilen sprachliche Fähigkeiten nach Prozessen und Modalitäten. Wie oben ausgeführt sind für die im Artikel behandelten Fragestellungen nur rezeptive und produktive Anteile schriftsprachlicher Fähigkeiten relevant. Es ist nicht Ziel der Untersuchung zwischen einzelnen Anteilen der sprachlichen Fähigkeiten zu differenzieren, vielmehr soll hier erste Evidenz für den prinzipiellen Einfluss sprachlicher Fähigkeiten gesammelt werden. Es wird daher ein Instrument benötigt, das möglichst breit und ökonomisch beide Prozesse sprachlicher Fähigkeiten erfasst.

Dazu wurden drei C-Tests eingesetzt, die allgemein als zuverlässige und praktikable Instrumente zur Erfassung allgemeiner Sprachfähigkeit gelten (z. B. Raatz und Klein-Braley 2002; Eckes und Grotjahn 2006). So kommt auch Asano (2014) zu der Schlussfolgerung, dass „C-Tests nicht nur die Lesekompetenz oder die Schreibkompetenz messen, sondern vornehmlich integrative Fähigkeiten“ (S. 50). C-Tests bestehen aus mehreren kurzen Lückentexten unterschiedlicher Thematik, in denen in mehreren Wörtern Teile des Wortes getilgt und sinngemäß rekonstruiert werden müssen. Sie können somit rezeptive und produktive Aspekte sprachlicher Fähigkeiten erfassen.

Bei der Auswertung von C-Tests, kann dabei entweder nur die inhaltliche Richtigkeit bewertet werden, oder es werden zusätzlich orthografische oder grammatikalische Fehler berücksichtigt. Da für die drei Fragestellungen sowohl rezeptive (Lesen von Itemstämmen und Items) als auch produktive (Produktion offener Antworten) Fähigkeiten relevant sind, wurden die Antworten der Auszubildenden unter Berücksichtigung orthografischer und grammatikalischer Fehler ausgewertet. Für diese Form der Auswertung werden zudem reliablere Testscores postuliert (vgl. Eckes und Grotjahn 2006).Footnote 3 In der vorliegenden Studie wurden Tests von Wockenfuß und Raatz (2006) eingesetzt, die insgesamt 58 Items umfassen. Die EAP-Reliabilität betrug 0,85.

4 Statistische Analysen

Zur Beantwortung der Fragestellungen wurde eine Folge von drei zweiparametrischen logistischen Modellen geschätzt, die sich in ihren Ladungen der Items zur Erfassung des Kompetenzbereichs UFP unterscheiden (s. Abb. 3). Für alle latenten Faktoren gilt θ = 0 und ψ = 1. Alle Items waren dichotom (richtig/falsch) kodiert. Die Analysen wurden in Mplus unter Verwendung eines robusten Maximum-Likelihood-Schätzers (MLR, Yuan und Bentler 2000) durchgeführt. Die Tests zum FP und zum UFP wurden in einem rotierten Testheftdesign administriert, bei dem jede Person je einen Testblock aus jedem Bereich zu bearbeiten hatte. Für beide Bereiche gab es dabei je drei Blöcke (UFP mit 13 bzw. 14 Items pro Block, FP mit je neun Items pro Block, wobei zwei Items im Zuge der Skalierungen für ManKobE aufgrund schlechter Kennwerte eliminiert wurden). In Modell 1 wurden die drei latenten Variablen Kompetenzbereich UFP, FP und SF, so spezifiziert, dass nur Ladungen der jeweils zugehörigen Items auf eine latente Variable zugelassen wurden. Alle möglichen Doppelladungen wurden auf Null fixiert. In Modell 2 wurden zusätzlich Ladungen aller UFP-Items auf den FP-Faktor zugelassen. In Modell 3 werden schließlich auch die Ladungen aller UFP-Items auf den SF-Faktor zugelassen. Die konkurrierenden Modelle wurden mittels Loglikelihood-Ratio-Test verglichen.

Zu beachten ist, dass die einzelnen Items in C-Tests nicht notwendig lokal stochastisch unabhängig sind (Harsch und Hartig 2010; Schroeders et al. 2014). Allerdings scheinen diese Abhängigkeiten zumeist eher klein zu sein und sich in erster Linie auf Itemschwierigkeiten und Reliabilitäten auszuwirken (Schroeders et al. 2014).Footnote 4

Abb. 3
figure 3

Sequenz der geschätzten faktorenanalytischen Modelle

5 Ergebnisse

5.1 Fragestellung 1

Im Folgenden werden die Vergleiche der drei oben genannten Modelle mit zusätzlichem Blick auf die Ladungsmuster der Items zur Erfassung des Kompetenzbereichs UFP beschrieben. In Tab. 1 sind die Ergebnisse der Modellvergleiche dargestellt. Zunächst zeigte sich, dass in Modell 1, dem Modell ohne Doppelladungen, alle Items zur Erfassung des Kompetenzbereichs UFP wie erwartet positiv, signifikant und substanziell auf den zugehörigen Faktor laden. Die Korrelationen zwischen den drei Faktoren betrugen r(UFP, FP) = 0,82, r(UFP, SF) = 0,58 und r(FP, SF) = 0,44. In Modell 2 wurden zusätzlich Doppelladungen der Items UFP auf den Faktor FP zugelassen. Dieses Modell passte signifikant besser auf die Daten als Modell 1. Zudem zeigte sich, dass der FP-Faktor erhebliche Anteile der Varianz in den Items zur Erfassung des Kompetenzbereichs UFP aufklärte. So luden von den 40 Items zur Erfassung des Kompetenzbereichs 37 signifikant und positiv auf den FP-Faktor, bei zwei weiteren Items wurden die Ladungen knapp nicht signifikant (p = 0,066 bzw. p = 0,073). Lediglich ein Item lud nicht signifikant auf den FP-Faktor (p = 0,326). Gleichzeitig zeigten sich nur noch für 6 der 40 Items signifikante Ladungen auf den UFP-Faktor, ein weiteres Item verpasste das Signifikanzniveau knapp (p = 0,064). Der Großteil der Items zeigte in Modell 2 keine signifikanten Ladungen mehr auf den UFP-Faktor (p ≥ 0,101). Modell 3 schließlich passte wiederum besser auf die Daten als Modell 2. Hier zeigten sich bis auf vier Items weiterhin durchgängig signifikante positive Ladungen der Items zur Erfassung des Kompetenzbereichs UFP auf den Fachwissensfaktor FP. Von den vier nichtsignifikanten Items wurde eine Ladung knapp nicht signifikant (p  = 0,062), während die verbleibenden drei Items das Signifikanzniveau deutlich verpassten (p ≥ 0,115). Zudem ergaben sich bei 12 Items signifikante Ladungen auf den Faktor SF, für vier weitere Items zeigten sich immerhin noch Tendenzen (p ≤ 0,090). Für diese zwölf bis 16 Items zeigte sich also, dass unter Kontrolle von FP SF zusätzliche Varianz aufklären. Merkmale dieser Items werden im Folgenden zur Beantwortung der beiden verbleibenden Fragestellungen diskutiert.Footnote 5

Tab. 1 Vergleich der Modellanpassungen von Modell 1 bis 3

5.2 Fragestellung 2

Die Analysen zu Unterschieden in Itemschwierigkeiten offener und geschlossener Antwortformate zeigten, dass die Ladungen der Items mit offenem Antwortformat auf den Faktor SF höher ausfallen als die der übrigen Items (s. Abb. 4a). Zudem zeigte sich, dass die mittlere unstandardisierte Ladung aller 13 Items mit offenem Antwortformat (M(λ) = 0,319, SE = 0,091) signifikant höher ausfiel als die mittlere unstandardisierte Ladung der 27 übrigen Items (M(λ) = 0,139, SE = 0,086; Wald Chi²-Test: \({\chi^{2}}(1)=5,858 \), p < 0,05). Noch deutlicher fiel der Unterschied mit Blick auf die Lösungswahrscheinlichkeiten der Items zur Erfassung des Kompetenzbereichs UFP aus (siehe Abb. 4b). Die mittlere Lösungswahrscheinlichkeit für Items mit offenen Antwortformaten betrug P = 0,388 (SE = 0,008), für die übrigen Items P = 0,631 (SE = 0,006), Wald Chi²-Test: \( {\chi^{2}}(1)=959,893 \), p < 0,001.

Abb. 4
figure 4

Items zur Erfassung des Kompetenzbereichs Umgang mit Fachwissen Physik (UFP) nach Antwortformat (Anmerkung: a Faktorladungen auf den Faktor sprachliche Fähigkeiten und b Lösungswahrscheinlichkeiten bei mittleren Fähigkeiten in allen drei Dimensionen. Die Parameter sind in beiden Abbildungen der Größe nach sortiert.)

5.3 Fragestellung 3

Zur Beantwortung von Fragestellung drei wurden die mittleren Item Characteristic Curves der Items zur Erfassung des Kompetenzbereichs UFP in Abhängigkeit von den sprachlichen Fähigkeiten nach Antwortformat gebildet (s. Abb. 5). Es wird deutlich, dass die Lösungswahrscheinlichkeit für beide Antwortformate in Abhängigkeit von den SF stieg, für die offenen Antworten jedoch in deutlichem höherem Ausmaß.

Abb. 5
figure 5

Mittlere Item Characteristic Curves der Items zur Erfassung des Kompetenzbereichs Umgang mit Fachwissen Physik in Abhängigkeit der sprachlichen Fähigkeiten (SF)

6 Diskussion

Die Bildungsstandards für den mittleren Schulabschluss für die naturwissenschaftlichen Fächer beschreiben Kompetenzen. Aktuell werden Aufgaben eingesetzt, um die Bildungsstandards beispielsweise zum Kompetenzbereich Umgang mit Fachwissen zu evaluieren. Sowohl mit Rücksicht auf die unterschiedlichen Lehrpläne, als auch als Merkmal der Kompetenzorientierung beinhalten alle Aufgaben zur Evaluation dieses Kompetenzbereichs für die Lösung relevante Fachinformationen (vgl. Abb. 1) (Sumfleth et al. 2013). Durch dieses Aufgabendesign lässt sich eine Überlagerung mit schriftsprachlich rezeptiven Fähigkeiten vermuten. Darüber hinaus sind zumindest für die Aufgaben mit offenem Antwortformat gegebenenfalls auch schriftsprachlich produktive Fähigkeiten relevant. In der vorliegenden Studie wurde diese Überlagerung im Rahmen von drei Forschungsfragen näher untersucht. Dabei ist festzuhalten, dass die hier verwendete Stichprobe nicht repräsentativ für alle Schülerinnen und Schüler mit mittlerem Bildungsabschluss ist, da es sich um Auszubildende zweier Berufsfelder handelte. Zwar deutete deren Performanz in den Aufgaben zur Evaluation der Bildungsstandards eine gewisse Vergleichbarkeit an, dies müsste jedoch in Folgeuntersuchungen validiert werden.

Zunächst zeigte sich Evidenz dafür, dass neben dem zugrunde liegenden Fachwissen Physik im Sinne eines inhaltsspezifischen Vorwissens tatsächlich für einen relevanten Teil der Bildungsstandards Items auch sprachliche Fähigkeiten relevant sind. Dies steht im Einklang zu einer Untersuchung von Ropohl et al. (2015) im Fach Chemie. Es lässt sich schlussfolgern, dass für diese Items sprachlich rezeptive Fähigkeiten relevant sind, teilweise auch sprachlich produktive Fähigkeiten. Ersteres kann dann der Fall sein, wenn die zur Verfügung gestellten Fachinformationen im Itemstamm tatsächlich zur Bearbeitung des Items herangezogen werden, da hier zunächst eine mentale Repräsentation in Einklang mit dem Vorwissen zu bringen ist. Letzteres ist der Fall, wenn das Item im offenen Antwortformat gestellt ist. Dieser Teilaspekt wurde in der zweiten Forschungsfrage näher untersucht. Tatsächlich zeigte sich im Einklang mit ähnlichen Untersuchungen (DeMars 2000; Rodrigues 2003) ein Einfluss des Antwortformats: Items im offenen Format sind im Mittel signifikant schwieriger als Items im geschlossenen Antwortformat. Dabei ist zu berücksichtigen, dass Items mit offenem Antwortformat teilweise höhere Anforderungen an die Testpersonen stellen. Dies ist der Fall, wenn sie eingesetzt werden, um Items mit einer hohen Komplexität zu testen für die keine geeigneten Distraktoren im Rahmen eines Multiple Choice Formats entwickelt werden können. Es zeigte sich aber auch, dass bei Items im offenen Antwortformat eher Varianz durch sprachliche Fähigkeiten erklärt wird als den geschlossenen Items, was dagegen spricht, das ausschließlich die höhere Komplexität des Fachinhalts die Performanz beeinflusst. Ferner konnte im Rahmen der dritten Forschungsfrage ein Indiz für einen Interaktionseffekt gefunden werden. Generell sank die Aufgabenschwierigkeit mit steigenden sprachlichen Fähigkeiten, insbesondere für die Items im offenen Antwortformat.

Zusammenfassend finden wir Evidenz dafür, dass die Items zur Evaluation der Bildungsstandards zumindest im Kompetenzbereich Umgang mit Fachwissen Physik nicht nur physikbezogenes Fachwissen erfassen, sondern auch in relevantem Umfang sprachliche Fähigkeiten. Dieses Ergebnis fügt sich in den internationalen, fachdidaktischen Diskurs ein, bei dem sprachliche Fähigkeiten (oftmals im Sinne eines Textverständnisses) als zentral für den Erwerb naturwissenschaftlicher Kompetenzen angesehen werden: „Language is an essential technology and thus an integral part of science and science literacy, particularly written language” (Yore et al. 2004, S. 348). Schließlich konstituieren sich die Naturwissenschaften in Texten und ein Verständnis für Texte sowie geeignete Strategien zum Umgang damit sind essentiell für die Entwicklung naturwissenschaftlichen Wissens (vgl. Norris und Phillips 2003).

Des Weiteren sind die Ergebnisse vor dem Hintergrund der aktuell debattierten Sprachförderung im Schulunterricht bedeutsam, die im Zusammenhang mit fachlichen Leistungen stehen. Beispielsweise zeigte sich für den „IQB-Ländervergleich 2012“ ein bedeutender Effekt für Schülerinnen und Schüler mit Zuwanderungshintergrund mit der Leistung im Fach Mathematik und den naturwissenschaftlichen Fächern (Pöhlmann et al. 2013). Lernende mit Zuwanderungshintergrund schnitten insbesondere dann schlechter ab, wenn im Elternhaus überwiegend die Muttersprache der Eltern und nicht Deutsch gesprochen wird. Ferner zeigt sich auch hier in Regressionsanalysen zumindest hypothetisch der Einfluss sprachlicher Fähigkeiten: Kontrolliert man die Sprache im Elternhaus, sinken die Disparitäten für die Kinder mit Zuwanderungshintergrund. Hierbei wird allerdings angenommen, dass es einen direkten Zusammenhang zwischen Sprache im Elternhaus und sprachlichen Fähigkeiten in Deutsch gibt. Durch die Hinzunahme der sprachlichen Fähigkeiten werden auch in unserer Studie die Effekte zum Beispiel des Antwortformats nicht völlig erklärt.

In diesem Kontext scheint relevant, dass es sich um expositorische Texte handelt. Aktuell widmen sich mehrere Arbeiten der Frage, ob Sprachförderung nicht auch in den verschiedenen Unterrichtsfächern situiert werden muss, da sich die Textmerkmale von expositorischen und narrativen Texten mitunter erheblich unterscheiden (z. B. Agel et al. 2012). Diese Annahme könnte auch hier eine Erklärung geben. Sowohl die verwendeten Fachinformationen im Itemstamm sind physikbezogen expositorisch, als auch schriftsprachliche Antworten entsprechend zu formulieren. Wollte man dies gezielt berücksichtigen, wäre der verwendete C-Test nur eine Annäherung an die benötigten sprachlichen Fähigkeiten, da dort im Kern narrative Texte verwendet werden. Ferner muss einschränkend hinzugefügt werden, dass der C-Test produktive und rezeptive schriftsprachliche Fähigkeiten als gemeinsam erfasst. Eine Ausdifferenzierung in die einzelnen Teilprozesse, wie Worterkennung und schlussfolgerndem Denken wäre nun in Anlehnung an Arbeiten zum Textverständnis ein nächster notwendiger Schritt.

Insgesamt lässt sich feststellen, dass zur Evaluation der Bildungsstandards zumindest für das Fach Physik neben rein fachbezogenen Kompetenzen auch sprachliche Fähigkeiten in relevantem Umfang miterfasst werden. Hier ergeben sich nun verschiedene Anschlussfragestellungen, vor allem über die Funktion und Bedeutung sprachlicher Fähigkeiten im Fachunterricht generell, die Gegenstand weiterer Forschung sein sollten (Härtig et al. 2015). Dabei ist auch zu klären, inwiefern die Fähigkeit, physikalisches Sachwissen aus einem Aufgabenstamm zu entnehmen eine didaktisch bedeutsame Fähigkeit darstellt oder nur für ein besseres Verständnis der Testung bedeutsam ist.