Zusammenfassung
Die Evaluation von schulstrukturellen Reformmaßnahmen, wie die im Zuge der Neuordnung der gymnasialen Oberstufe Baden-Württembergs vollzogenen Änderungen des Mathematik unterrichts, stellt besondere Herausforderungen an die Qualität der eingesetzten Messinstrumente. Dieses Kapitel widmet sich zentralen Gütekriterien des Tests zur voruniversitären Mathematik, die essenziell für eine valide Interpretation der Unterschiede zwischen den TOSCA-2002-und TOSCA-2006-Kohorten sind (siehe Nagy, Neumann, Trautwein & Lüdtke, in diesem Band). Darüber hinaus wird das Vorgehen bei der Testskalierung beschrieben, wobei ein besonderes Augenmerk auf die Sicherung der Messäquivalenz des Mathematiktests zwischen den untersuchten Kohorten gelegt wird.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Preview
Unable to display preview. Download preview PDF.
Similar content being viewed by others
Literatur
Agresti, A. (1990). Categorical data analysis. New York: Wiley.
Angoff, W. H. (1993). Perspectives on differential item functioning methodology. In P. W. Holland & H. Wainer (Eds.), Differential item functioning (pp. 3–23). Hillsdale, NJ: Erlbaum.
Baumert, J., Bos, W., & Lehmann, R. (2000a). TIMSS/III: Dritte Internationale Mathematik- und Naturwissenschaftsstudie– Mathematische und naturwissenschaftliche Bildung am Ende der Schullaufbahn: Bd. 1. Mathematische undnaturwissenschaftliche Grundbildung am Ende der Pflichtschulzeit. Opladen: Leske +Budrich.
Baumert, J., Bos, W., & Lehmann, R. (2000b). TIMSS/III: Dritte Internationale Mathematik- und Naturwissenschaftsstudie– Mathematische und naturwissenschaftliche Bildung am Ende der Schullaufbahn: Bd. 2. Mathematische undphysikalische Kompetenzen am Ende der gymnasialen Oberstufe. Opladen: Leske + Budrich.
Byrne, B. M., Shavelson, R. J., & Muthén, B. (1989). Testing for equivalence of factor covariance and mean structures: The issue of partial measurement invariance. Psychological Bulletin, 105, 456–466.
Clauser, B. E., & Mazor, K. M. (1998). Using statistical procedures to identify differentially functioning test items. Educational Measurement: Issues and Practice, 17, 31–44.
French, A. W., & Miller, T. R. (1996). Logistic regression and its use in detecting differential item functioning in polytomous items. Journal of Educational Measurement, 33, 315–332.
Gebhardt, E., & Adams, R. J. (2007). The influence of equating methodology on reported trends in PISA. Journalof Applied Measurement, 8, 305–322.
Goldstein, H. (1983). Measuring changes in educational attainment over time: Problems and possibilities. Journalof Educational Measurement, 20, 369–377.
Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Boston, MA: Kluwer-Nijhoff Publishing.
Holland, P. W., & Wainer, H. (1993). Differential item functioning. Hillsdale, NJ: Erlbaum.
Klieme, E. (2000). Fachleistungen im voruniversitären Mathematik- und Physikunterricht: Theoretische Grundlagen, Kompetenzstufen und Unterrichtsschwerpunkte. In J. Baumert, W. Bos & R. Lehmann. (Hrsg.), DritteInternationale Mathematik- und Naturwissenschaftsstudie – Mathematische und naturwissenschaftliche Bildungam Ende der Schullaufbahn (Bd. 2, S. 57–128). Leverkusen: Leske + Budrich.
Koretz, D. M. (2002). Limitations in the use of achievement tests as measures of educators’ productivity. Journal ofHuman Ressources, 37, 752–777.
Lord, F. M. (1981). Applications of item response theory to practical testing problems. Hillsdale, NJ: Erlbaum.
Macaskill, G., Adams, R. J., & Wu, M. L. (1998). Scaling methodology and procedures for mathematics and science literacy, advanced mathematics, and physics scales. In M. O. Martin & D. L. Kelly. (Eds.), Third internationalmathematics and science study. Technical report: Vol. II. Implementation and analysis: Final year of school (pp. 91–120). Chestnut Hill, MA: Center for the Study of Testing, Evaluation, and Educational Policy.
Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149–174.
Mellenbergh, G. J. (1989). Item bias and item response theory. International Journal of Educational Research, 13, 127–143.
Meredith, W. (1993). Measurement invariance, factor analysis and factorial invariance. Psychometrika, 58, 525–543.
Mislevy, R. J., Beaton, A. E., Kaplan, B., & Sheehan, K. M. (1992). Estimating population characteristics from sparse matrix samples of item responses. Journal of Educational Measurement, 29 (2), 133–161.
Mullis, I. V. S., Martin, M. O., Beaton, A. E., Gonzalez, E. J., Kelly, D. L., & Smith, T. A. (1998). Mathematicsand science achievement in the final year of secondary school. Chestnut Hill, MA: Boston College (IEA’s Third International Mathematics and Science Study).
Nagy, G., Neumann, M., Becker, M., Watermann, R., Köller, O., Lüdtke, O., & Trautwein, U. (2007). Mathematikleistungen am Ende der Sekundarstufe II. In U. Trautwein, O. Köller, R. Lehmann & O. Lüdtke. (Hrsg.), Schulleistungen von Abiturienten: Regionale, schulformbezogene und soziale Disparitäten (S. 71–112). Münster: Waxmann.
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danmarks Paedogogiske Institut, (Chicago: University of Chicago Press, 1980).
Rogers. H. J., & Swaminathan H. (1993). A comparison of the logistic regression and Mantel-Haenszel procedures for detecting differential item functioning. Applied Psychological Measurement, 17, 105–116.
Warm, T. A. (1989). Weighted likelihood estimation of ability in item response theory. Psychometrika, 54, 427–450.
Watermann, R., Nagy, G., & Köller, O. (2004). Mathematikleistungen in allgemein bildenden und beruflichen Gymnasien. In O. Köller, R. Watermann, U. Trautwein & O. Lüdtke. (Hrsg.), Wege zur Hochschulreife inBaden-Württemberg: TOSCA – Eine Untersuchung an allgemein bildenden und beruflichen Gymnasien (S. 205–283). Opladen: Leske + Budrich.
Wright, B. D. (1994). Reasonable mean-square fit. Rasch Measurement Transactions, 8, 370.
Wright, B. D., & Masters, G. N. (1982). Rating scale analysis: Rasch measurement. Chicago: MESA Press.
Wu, M. L. (2005). The role of plausible values in large-scale surveys. Studies in Educational Evaluation, 31, 114–128.
Wu, M. L., Adams, R. J., Wilson, M. R., & Haldane, S. (2007). ACER ConQuest 2.0: Generalized item responsemodelling software. Camberwell, AUS: ACER Press.
Editor information
Rights and permissions
Copyright information
© 2010 VS Verlag für Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH
About this chapter
Cite this chapter
Nagy, G., Neumann, M. (2010). Psychometrische Aspekte des Tests zu den voruniversitären Mathematikleistungen in TOSCA-2002 und TOSCA-2006: Unterrichtsvalidität, Rasch-Homogenität und Messäquivalenz. In: Trautwein, U., Neumann, M., Nagy, G., Lüdtke, O., Maaz, K. (eds) Schulleistungen von Abiturienten. VS Verlag für Sozialwissenschaften. https://doi.org/10.1007/978-3-531-92037-5_11
Download citation
DOI: https://doi.org/10.1007/978-3-531-92037-5_11
Publisher Name: VS Verlag für Sozialwissenschaften
Print ISBN: 978-3-531-17586-7
Online ISBN: 978-3-531-92037-5
eBook Packages: Humanities, Social Science (German Language)