Abstracts
Résumé
Cette étude, menée auprès de personnes apprenantes de l’Université, examine l’intégration de ChatGPT‑4 dans la création de questionnaires à choix multiples (QCM). Nous comparons les QCM générés par l’outil d’intelligence artificielle (IA) à ceux conçus par des enseignantes et nous analysons la qualité des distracteurs ainsi que les indices de difficulté. L’étude révèle que les QCM générés par l’IA obtiennent des taux de réussite élevés, mais présentent des distracteurs moins efficaces, limitant leur capacité à évaluer des compétences de réflexion analytique. Cette recherche souligne l’importance de l’intervention humaine pour garantir des QCM de qualité, tout en reconnaissant le potentiel de l’IA comme outil complémentaire.
Mots-clés :
- QCM,
- qualité d’évaluation,
- distracteurs plausibles,
- ChatGPT,
- intelligence artificielle
Abstract
This study, conducted among university students, examines the use of ChatGPT‑4 in the creation of multiple-choice questions (MCQs) by comparing AI‑generated MCQs to those designed by instructors and analyzing the quality of distractors and the difficulty indices. The study reveals that AI‑generated MCQs achieve high success rates but feature less effective distractors, limiting the possibility of assessing analytical thinking skills. This research highlights the importance of human intervention to ensure high-quality MCQs while acknowledging the potential of AI as a complementary tool.
Keywords:
- MCQ,
- assessment quality,
- plausible distractors,
- ChatGPT,
- artificial intelligence
Appendices
Références
- Alexandre, L. (2023). La guerre des intelligences à l'heure de ChatGPT. JC Lattès.
- Alvarez, L. (2023). L’IA à l’école ou l’école de l’IA. Universitas, 2023(3), 25‑27. https://unifr.ch/universitas/...
- Amadieu, F. et Tricot, A. (2014). Apprendre avec le numérique : mythes et réalités. Retz.
- Anctil, D. (2023). L’éducation supérieure à l’ère de l’IA générative. Pédagogie collégiale, 36(3). https://eduq.info/xmlui/handle/11515/38833
- Bachman, L. F. (1990). Fundamental considerations in language testing. Oxford University Press.
- Baturin, N. A. et Melnikova, N. N. (2009). Tekhnologiya razrabotki testov: chast’I [The technology of test development: Part I]. Bulletin of the South Ural State University. Series “Psychology”, 30(163), 4‑14.
- Belkaim, L. (2023). ChatGPT à l’université : ami ou ennemi? Analele Universității din Craiova, seria Psihologie-Pedagogie, 45(2), 22‑30. https://aucpp.ro/...
- Boch, F. et Sorba, J. (2020). Tester la compétence lexicale des adultes francophones : réflexion sur le choix des distracteurs dans un test à choix multiples. Lidil, (62). https://doi.org/10.4000/lidil.8023
- Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D., Wu, J., Winter, C., … Amodei, D. (2020). Language models are few-shot learners. Dans H. Larochelle, M. Ranzatom, R. Hadsell, M. F. Balcan et H. Lin (dir.), Advances in Neural Information Processing Systems 33 – Proceedings of the 34th Conference on Neural Information Processing Systems (NeurIPS 2020) (p. 1877‑1901). https://proceedings.neurips.cc/...
- Du, X., Shao, J. et Cardie, C. (2017). Learning to ask: Neural question generation for reading comprehension. Dans R. Barzilay et M.-Y. Kan (dir.), Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Volume 1: Long papers (1342-1351). https://aclanthology.org/P17-1123
- Gefen, A. (2023). Vivre avec ChatGPT : séduire, penser, créer, se cultiver, s’enrichir… L’intelligence artificielle aura-t-elle réponse à tout? Éditions de l’Observatoire.
- Geisinger, K. F. et Carlson, J. F. (dir.). (2021). The twenty-first mental measurements yearbook. University of Nebraska Press.
- Gierl, M. J., Bulut, O., Guo, Q. et Zhang, X. (2017). Developing, analyzing, and using distractors for multiple-choice tests in education. Review of Educational Research, 87(6), 1082‑1116. https://doi.org/gdxrhj
- Gilles, J.-L. et Charlier, B. (2020). Dispositifs d’évaluation à distance à correction automatisée versus non automatisée : analyse comparative de deux formes emblématiques. Évaluer – Journal international de recherche en éducation et formation, (hors-série no 1), 143‑154. http://journal.admee.org/...
- Grühn, D. et Cheng, Y. (2015, 15 mars). EPP-APS. L’auto-correction des QCM (L. Libeyre, trad.). Association for Psychological Science. https://psychologicalscience.org/... [Article orginal paru en 2014 dans Teaching of Psychology, 41(4), 335‑339. https://doi.org/n7z4]
- Jabraoui, S. et Vandapuye, S. (2024). L’intelligence artificielle dans l’enseignement : histoire et présent, perspectives et défis. Dossiers de recherches en économie et management des organisations, 9(1), 118‑128. https://doi.org/10.34874/PRSM.dremo-vol9iss1.1777
- Laoufi, A. et Elkachradi, R. (2017). Pratiques et défis de l’usage des technologies numériques pour l’évaluation pédagogique : cas des universités marocaines. The Journal of Quality in Education, 7(9). https://doi.org/10.37870/joqie.v7i9.8
- Latif, E. et Zhai, X. (2024). Fine-tuning ChatGPT for automatic scoring. Computers and Education: Artificial Intelligence, 6, article 100210. https://doi.org/10.1016/j.caeai.2024.100210
- Leclercq, D. (1986). La conception des questions à choix multiples. Labor.
- Lelepary, H. L., Rachmawati, R., Zani, B. N. et Maharjan, K. (2023). ChatGPT: Opportunities and challenges in the learning process of Arabic language in higher education. Journal International of Lingua and Technology, 2(1), 11-23. https://doi.org/10.55849/jiltech.v2i1.439
- Lord, F. M. (1952). The relationship of the reliability of multiple-choice tests to the distribution of item difficulties. Psychometrika, 17(2), 181-194. https://doi.org/10.1007/BF02288781
- Malcourant, É. (dir.). (2020). QCM or not QCM? Processus de conception d’une évaluation par QCM (cahiers du LLL no 10). Presses universitaires de Louvain. https://hdl.handle.net/...
- Petrov, S., Das, D. et McDonald, R. (2011). A universal part-of-speech tagset. Dans N. Calzolari, K. Choukri, T. Declerck, M. U. Doğan, B. Maegaard, J. Mariani, A. Moreno, J. Odijk et S. Piperidis (dir.), Proceedings of LREC 2012 – Eighth International Conference on Language Resources and Evaluation (p. 2089-2096). http://lrec-conf.org/proceedings/lrec2012/summaries/274.html
- Régnier, N. (2013, août). Systèmes de réponse instantanée pour une pédagogie active [communication]. CFM 2013 – 21e Congrès français de mécanique, Courbevoie, France. https://hal.science/CFM2013/hal-03441139v1
- Rey, O. et Feyfant, A. (2014). Évaluer pour (mieux) faire apprendre. Dossier de veille de l’IFÉ (94). https://ens-lyon.hal.science/ensl-01576226
- Sharma, L. R. (2021). Analysis of difficulty index, discrimination index and distractor efficiency of multiple choice questions of speech sounds of English. International Research Journal of MMC, 2(1), 15-28. https://doi.org/10.3126/irjmmc.v2i1.35126
- Spanjers, I. A. E., Könings, K. D., Leppink, J., Verstegen, D. M. L., de Jong, N., Czabanowska, K. et van Merriënboer, J. J. G. (2015). The promised land of blended learning: Quizzes as a moderator. Educational Research Review, 15, 59‑74. https://doi.org/10.1016/j.edurev.2015.05.001
- Zhilin, V. V. (2023). Prilozhenie dlya generatsii testovykh zadaniy s pomoshch'yu modeli ChatGPT [Application pour la génération de questions de test à l’aide du modèle ChatGPT]. Dans V. V. Zhilin (dir.), Molodoy issledovatel': ot idei k proektu [Le jeune chercheur: de l’idée au projet] (p.97-100). Université d'État Mari.

