Résumés
Résumé
Cet article vise à dresser un bilan des études ayant porté sur les modèles de mesure ou sur un aspect particulier de ces derniers au cours des trente der nières années. Pour ce faire, nous avons réalisé une recension des écrits à partir de quatorze revues internationales traitant, notamment, des modèles de mesure en éducation. Après avoir effectué une synthèse des résultats qui ressortent de notre analyse des articles sélectionnés, nous présentons des développements et des défis majeurs qui s’imposent encore aujourd’hui à ceux et celles qui travaillent à l’élaboration, au raffinement et à l’utilisation des modèles de réponse aux items. Enfin, dans un dernier temps, nous proposons un certain nombre d’avenues de recherche pour les années à venir.
Mots-clés :
- Modèles de réponses aux items,
- modèles de mesure,
- testing adaptatif par ordinateur,
- mesure de tâches complexes,
- enquêtes à large échelle
Abstract
This article presents a systematic review of literature on measurement models, and in particular on Item Response Models, during the last 30 years. First, we conduct a review of articles selected from fourteen international journals on measurement in education. Second, we present the results of this review of literature and the developments and the major challenges that remain to be tackled by researchers working on elaborating, refining and using Item Response Models. Finally, we suggest new avenues to be explored in the coming years.
Keywords:
- Item response models,
- measurement models,
- computerized adaptive testing,
- scoring of complex tasks,
- large-scale surveys
Resumo
Este artigo apresenta uma revisão de literatura sobre os modelos de medida e, em particular, sobre os modelos de resposta a itens, ao longo dos últimos trinta anos. neste sentido, a partir de catorze revistas internacionais, realizámos uma recensão de artigos sobre modelos de medida em educação. Depois da síntese dos resultados decorrentes da nossa análise dos artigos seleccionados, apresentamos os desenvolvimentos e os principais desafios que se colocam actualmente aos que trabalham na elaboração, no aperfeiçoamento e na utilização dos modelos de resposta a itens. Finalmente, propomos novas avenidas de investigação para os próximos anos.
Palavras chaves:
- Modelos de reposta a itens,
- modelos de medida,
- testagem adaptativa por computador,
- medição de tarefas complexas,
- inquéritos de larga escala
Veuillez télécharger l’article en PDF pour le lire.
Télécharger
Parties annexes
Références
- Auger, R. (1992). Une stratégie de testing adaptatif de maîtrise. Mesure et évaluation en éducation, 15(3), 25-32.
- Barrada, J.R., Olea, J., & Ponsoda, V. (2007). Methods for restricting maximum exposure rate in computerized adaptative testing. Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, 5(1), 14-23.
- Bercier-Lariviere, M., & Forgette-Giroux, R. (1999). L’évaluation des apprentissages scolaires: une question de justesse. Revue canadienne de l'éducation, 24(1), 169-182.
- Bertrand, R. (2001). Détection des biais d’items et de personnes en testing adaptatif. Mesure et évaluation en éducation, 24(2-3), 1-22.
- Blais, J.-G., & Ajar, D. (1991). Théorie des réponses aux items et modélisation. Mesure et évaluation en éducation, 14(4), 5-18.
- Blais, J.-G., & Laurier, M. (1997). La détermination de l’unidimensionalité de l’ensemble des scores à un test. Mesure et évaluation en éducation, 20(1), 65-90.
- Burton, R. (2004). Influence des distributions du trait latent et de la difficulté des items sur les estimations du modèle de Birnbaum: une étude du type Monte-Carlo. Mesure et évaluation en éducation, 27(3), 41-62.
- Cardinet, J. (2003). Cinq dispositifs pour vérifier le progrès. Mesure et évaluation en éducation, 26(1-2), 51-59.
- Dechef, H., & Laveault, D. (1993). Étude du fonctionnement différentiel des items à l’aide des méthodes du khi-carré, de Mantel-Haenszel et logit. Mesure et évaluation en éducation, 16(1-2), 5-28.
- Dechef, H., & Laveault, D. (1999). Le testing adaptatif par ordinateur. Psychologie et Psychométrie, 20(2-3), 151-179.
- Engle, R.W., Kane, M.J., & Tuholski, S.W. (1999). Individual differences in working memory capacity and what they tell us about controlled attention, general fluid intelligence, and functions of the prefrontal cortex. In A. Miyake & P. Shah (Eds.), Models of working memory: Mechanisms of active maintenance and executive control (pp. 102-134). Cambridge, UK: Cambridge University Press.
- Ferrando, P.J., & Lorenzo-Seva, U. (2007). An item response theory model for incorporating response time data in binary personality items. Applied Psychological Measurement, 51(6), 525-543.
- Graham, J.W., Hofer, S.M., & MacKinnon, D.P. (1996). Maximizing the usefulness of data obtained with planned missing value patterns: An application of maximum likelihood procedures. Multivariate Behavioral Research, 31, 197?218.
- Green, B.F. (1983). The promise of tailored tests. In H. Wainer & S. Messick (Eds.), Principals of modern psychological measurement (pp. 69-80). Hillsdale, NJ: Lawrence Erlbaum Associates.
- Hanson, M.A., Bormann, W.C., Mogilka, H.J., Manning, C., & Hedge, J.W. (1999). Computerized assessment of skill for a highly technical job. In F. Drasgow & J.B. Olson-Buchanan (Eds.), Innovations in computerized assessment (pp. 197-220). Mahwah, NJ: Lawrence Erlbaum Associates.
- Holland, P.W., & Wainer, H. (1993). Differential item functioning. Hillsdale, NJ: Lawrence Erlbaum Associates.
- Lafontaine, D., & Simon, M. (2008). Évaluation des systèmes éducatifs. Mesure et évaluation en éducation, 31(3).
- Laurier, M. (1996). Pour un diagnostic informatisé en révision de texte. Mesure et évaluation en éducation, 18(3), 85-106.
- Loye, N. (2005). Quelques nouveaux modèles de mesure. Mesure et évaluation en éducation, 28(3), 51-68.
- Martin, R. (1999). Encodage spatial et intelligence. Lille: Presses Universitaires du Septentrion.
- Martin, R. (2003). Le testing adaptatif par ordinateur dans la mesure en éducation: potentialités et limites. Psychologie et Psychométrie, 24(2-3), 89-116.
- Martin, R. (2008). New possibilities and challenges for assessment through the use of technology. In F. Scheuermann & A. Guimarâes Pereira (Eds.), Towards a Research Agenda on Computer-Based Assessment: Challenges and Needs for European Educational Measurement (pp. 6-9). Luxembourg: Office for Official Publications of the European Communities.
- Martin, R., & Houssemand, C. (2002). Intérêts et limites de la chronométrie mentale dans la mesure psychologique. Bulletin de Psychologie, 55(6), 605-614.
- Mislevy, R.J., Beaton, A.E., Kaplan, B., & Sheehan, K.M. (1992). Estimating population characteristics from sparse matrix samples of item responses. Journal of Educational Measurement, 29(2), 133-161.
- Raîche, G., Langevin, L., Riopel, M., & Mauffette, Y. (2006). Étude exploratoire de la dimensionalité et des facteurs expliqués par une traduction française de l’Inventaire des approches d'enseignement de Trigwell et Prosser dans trois universités québécoises. Mesure et évaluation en éducation, 29(2), 41-61.
- Reuchlin, M. (1978). Processus vicariants et différences individuelles. Journal de Psychologie, 2, 133-145.
- Schafer, J.L., & Graham, J.W. (2002). Missing data: Our view of the state of the art. Psychological Methods, 7(2), 147-177.
- Smits, N., & Vorst, H.C.M. (2007). Reducing the length of questionnaires through structurally incomplete designs: An illustration. Learning and Individual Differences, 17(1), 25-34.
- Stevens, R.H., & Casillas, A. (2006). Artificial neural networks. In D.M. Williamson, R.J. Mislevy & I.I. Bejar (Eds.), Automated scoring of complex tasks in computer-based testing (pp. 259-312). Mahwah, NJ: Lawrence Erlbaum Associates.
- St-Onge, C., Valois, P., Abdous, B., & Germain, S. (sous presse). A Monte Carlo study of the effect of ICC estimation on the accuracy of three person-fit statistics. Applied Psychological Measurement.
- The Joint Committee on Standards for Educational Evaluation (2003). The student evaluation standards. How to improve evaluations of students. Thousand Oaks, CA: Corwin Press.
- Thissen, D. (1983). Timed testing: An approach using item response theory. In D.J. Weiss (Ed.), New horizons in testing (pp. 179-203). New York: Academic Press.
- van der Linden, W.J., & Glas, C.A.W. (2006). 25 Statistical aspects of adaptive testing. In C.R. Rao & S. Sinharay (éds). Handbook of statistics (Vol. 26, pp. 801-838). Elsevier.
- Vispoel, W.P. (1999). Creating computerized adaptive tests of music aptitude: Problems, solutions and future directions. In F. Drasgow & J.B. Olson-Buchanan (Eds.), Innovations in Computerized Assessment (pp. 151-176). Mahwah, NJ: Lawrence Erlbaum Associates.
- Wainer, H. (2000). CATs: Whither and whence. Psicologica, 21(1-2), 121-133.
- Wainer, H., Dorans, N.J., Flaugher, R., Green, B.F., Mislevy, R.J., Steinberg, L., & Thissen, D. (Eds.) (2000). Computerized adaptive testing: A primer (2nd ed.). Mahwah, NJ: Lawrence Erlbaum Associates.
- Williamson, D.M., Almond, R.G., Mislevy, R.J., & Levy, R. (2006). An application of bayesian networks in automated scoring of computerized simulation tasks. In D.M. Williamson, R.J. Mislevy & I.I. Bejar (Eds.), Automated scoring of complex tasks in computer-based testing (pp. 201-258). Mahwah, NJ: Lawrence Erlbaum Associates.
- Williamson, D.M., Bejar, I.I., & Mislevy, R.J. (2006). Automated scoring of complex tasks in computer-based testing: An introduction. In D.M. Williamson, R.J. Mislevy & I.I. Bejar (Eds.), Automated scoring of complex tasks in computer-based testing (pp. 1-13). Mahwah, NJ: Lawrence Erlbaum Associates. Automated scoring of complex tasks in computer-based testing. Mahwah, NJ: Lawrence Erlbaum Associates.
- Wu, M. (2005). The role of plausible values in large-scale surveys. Studies in Educational Evaluation, 31(2-3), 114-128.