Le développement d’une échelle de mesure de la littératie de l’intelligence artificielle chez les enseignants et les enseignantes du postsecondaire

Lepage, Alexandre; Roy, Normand

doi:https://doi.org/10.7202/1117467ar

Introduction

Depuis autour des années 2010, avec l’apparition de l’analyse de l’apprentissage, ou learning analytics en anglais, et encore davantage depuis la sortie de ChatGPT en 2022, l’IA fait l’objet d’un intérêt grandissant dans le domaine de l’éducation et de l’enseignement supérieur. Même si la recherche dans le domaine est active depuis les années 1980 (Sleeman & Brown, 1982; Wenger, 1986), les succès obtenus depuis 2010 par les systèmes d’apprentissage automatique et les données massives qui les soutiennent ont multiplié les possibilités d’utilisations à des fins pédagogiques (Zawacki-Richter et al., 2019). Des outils d’analyse des traces d’apprentissage qui permettent d’augmenter l’information disponible pour le personnel enseignant ainsi que pour les étudiants et les étudiantes sont développés depuis au moins 10 ans (Siemens, 2013). Nombreux sont les établissements qui se dotent de tableaux de bord de la réussite ou d’outils de détection des risques d’abandon scolaire (p. ex., le tableau de bord de Cégep à distance ou de l’Université Laval). Les agents conversationnels, dont le développement était déjà en accélération au tournant des années 2020 (p. ex., Hien et al., 2018; Sandu et Gide, 2019), ont atteint une crédibilité inédite avec l’arrivée d’outils accessibles à tous utilisant des grands modèles de langage, ou large language models (LLM) en anglais, comme ChatGPT et Google Bard. Ces derniers donnent vie à des visées du domaine de l’IA en éducation qui étaient jusqu’alors des idéaux ou, au mieux, implémentés de manière incomplète dans des outils exploratoires. Par exemple, les fonctions de rétroaction automatisée et de tutorat individualisé (Deeva et al., 2021), de soutien à la motivation et à l’engagement, de correction automatisée (Lagakis & Demetriadis, 2021) ou de création automatique de matériel pédagogique deviennent maintenant une réalité, car elles peuvent être supportées par des technologies performantes.

Néanmoins, l’abondante littérature du domaine des technologies de l’information et de la communication appliquées à l’enseignement (TICE) a à maintes reprises énoncé et appuyé la distinction entre un outil et ses usages pédagogiques (Baron, 2019). Chaque outil passe par des phases successives d’exploration, d’adoption, puis de complexification des usages. Ce fut le cas pour l’audiovisuel (Giraud, 1957), le micro-ordinateur (Bougaïeff, 1984), l’ordinateur portable, le téléphone cellulaire et, plus récemment, la réalité virtuelle (Elmqaddem, 2019). L’IA, dont la phase exploratoire s’est échelonnée sur plusieurs décennies, semble maintenant s’inscrire dans une conjoncture qui rend possible son déploiement pédagogique.

Or, ce déploiement ne se fait pas sans heurts, car l’IA n’est pas une technologie neutre à plusieurs points de vue (p. ex., économique, pédagogique, culturel) comme l’ont souligné Collin et Marceau (2023). Derrière des outils impressionnants pouvant prédire ou classifier avec des taux d’exactitude élevés se trouve une technologie qui comporte des risques que même un oeil avisé peut sous-estimer ou carrément ne pas reconnaître. Comme le soulignent Zawacki-Richter et al. (2019) en conclusion d’une vaste recension des écrits, les enseignants et les enseignantes sont les personnes concernées au premier plan par le déploiement en contexte pédagogique : qu’adviendra-t-il des tâches qui leur étaient alors réservées ? Sauront-elles faire une intégration pédagogique des outils d’IA ou accepteront-elles au contraire de déléguer une partie de leurs tâches, allant d’une démarche « d’alternance [entre le ou la prof et le dispositif cyber-prof] » comme le suggérait Lombard (2007, § 37) ? Commenceront-elles à déléguer certaines tâches et à en réaliser de nouvelles ? Pour que les enseignants et les enseignantes adoptent un rôle critique vis-à-vis de l’IA et développent des usages pédagogiques, plusieurs organismes publics soulignent la nécessité de les y former (Conseil supérieur de l’éducation, 2024; Ministère de l’Éducation nationale et de la Jeunesse, 2024; Conseil de l’innovation du Québec, 2024). Selon les lignes directrices pour une utilisation éthique de l’IA de l’Union européenne publiées en 2022, « nous devons faire en sorte que les enseignants et les éducateurs comprennent le potentiel de l’IA et des mégadonnées dans le domaine de l’éducation, tout en étant conscients des risques qui y sont associés » (p. 6).

Malgré ce besoin pressant de former à l’IA, à l’heure actuelle, aucun instrument n’a été spécifiquement conçu et validé pour mesurer le niveau de littératie de l’IA du personnel enseignant et ainsi mieux cerner son besoin de formation. Établir un tel outil permettra donc, dans un premier temps, de brosser un portrait descriptif du niveau de littératie des enseignants et des enseignantes et d’en faire le suivi dans le temps, au fur et à mesure que des formations leur sont offertes et que les politiques d’encadrement dans les établissements sont élaborées. Ces portraits, réalisés localement ou à plus grande échelle, pourraient servir à créer une offre de formation continue adaptée, qui ne laissera personne derrière, en prévoyant des contenus d’une complexité croissante. En technologie éducative, il est arrivé que des formations soient plus ou moins adaptées aux besoins sur le terrain, ou qu’elles soient trop techniques pour répondre à des besoins d’usages pédagogiques (Daguet & Wallet, 2012). Sur le plan scientifique, comme il n’existe pas d’instrument de ce type, il est impossible de mettre en relation le niveau de littératie de l’IA du personnel enseignant avec d’autres variables d’intérêt comme l’érosion de la confiance enseignants-étudiants en raison de l’IA (Luo, 2024) ou bien leur attitude vis-à-vis de l’IA (Alhwaiti, 2023). Or, dans le contexte qui nécessite de plus en plus une prise en charge interdisciplinaire de la formation à l’IA, il est capital de pouvoir évaluer si le personnel enseignant est en mesure (et à l’aise) de concevoir et de piloter les activités d’apprentissage nécessaires. Finalement, un instrument de mesure de la littératie de l’IA pourrait aussi servir à évaluer les retombées de formations sur l’IA ou à comparer des programmes de formation à l’enseignement ou des approches pédagogiques entre elles, autant sur le plan de la satisfaction du personnel enseignant qui les suit que des retombées concrètes sur leur pratique. Nous avançons qu’il s’agit là d’un préalable incontournable à l’étude approfondie des processus d’adoption ou d’usage pédagogique. Cette idée s’appuie, par exemple, sur la nécessité de comprendre le fonctionnement de l’IA pour bien saisir son potentiel et ses risques (Williams et al., 2022).

Cet article rapporte la démarche de création et de validation d’un questionnaire pour mesurer la littératie de l’intelligence artificielle (IA) du personnel enseignant de niveau postsecondaire. Il présente un cadre conceptuel autour de la littératie et de la littératie de l’IA, la méthode de conception du questionnaire et d’analyse, ainsi que les résultats d’une collecte de données auprès d’enseignants et d’enseignantes en vue de valider le questionnaire.

Cadre conceptuel

Comme l’idée de mesurer la littératie de l’IA est récente, il nous est apparu pertinent de nous appuyer sur la manière avec laquelle d’autres types de littératie sont traditionnellement mesurés. À cet égard, nous proposons un survol des concepts de littératie et de littératie numérique pour finalement présenter plus précisément celui de littératie de l’IA.

La littératie

Le concept de littératie réfère à « la capacité de comprendre, d’évaluer, d’utiliser et de s’engager dans des textes écrits pour participer à la société, pour accomplir ses objectifs et pour développer ses connaissances et son potentiel » (OCDE, 2013, p. 66). Elle se mesure de différentes façons selon les caractéristiques du public cible, soit par des tâches (p. ex., Thomas et al., 2021) ou par des questionnaires (p. ex., Boughton et al., 2022). La littératie numérique est en quelque sorte l’équivalent de la littératie dans le contexte des environnements numériques.

La littératie numérique

Selon Gerbault (2012), le concept de littératie numérique est l’intégration d’autres concepts qui « se sont succédé ou chevauché au fil des années » (par. 19), par exemple les concepts de littératie informatique, de littératie informationnelle et de littératie multimédia. La littératie, selon elle, a une dimension fonctionnelle importante, c’est-à-dire qu’elle vise à rendre une personne capable de fonctionner dans le monde, ici numérique. Gerbault (2012) énonce que cette littératie « doit être moins du domaine des outils à proprement parler et davantage des manières de penser et de voir » (par. 24). À cet égard, un instrument de mesure de la littératie numérique ne devrait pas cibler que des connaissances décontextualisées, mais aussi des actions ou des comportements caractéristiques d’une personne fonctionnelle. Lorsque les critères de fonctionnalité sont propres à un contexte (p. ex., le travail d’enseignant et d’enseignante), les mesures de littératie numérique qui découlent de grandes enquêtes (p. ex., le Programme pour l’évaluation internationale des compétences des adultes) ne suffisent pas, car elles sont trop génériques.

D’après une étude de Mohammadyari et Singh (2015), le niveau de littératie numérique a une incidence sur la facilité d’utilisation dans l’adoption d’une nouvelle technologie. Dans leur étude, ils ont mesuré la littératie numérique à partir d’items référant à des concepts technologiques liés à leur objet d’étude (dans ce cas-ci, l’utilisation de l’apprentissage électronique, ou e-learning en anglais, pour le développement professionnel). Les items provenaient de Hargittai (2005), qui avait élaboré un instrument pour mesurer la littératie numérique orientée vers la navigation sur Internet. L’instrument et le processus de validation ont permis de confirmer que certaines connaissances clés associées à l’utilisation d’un outil numérique (un navigateur Web dans ce cas) sont de bons prédicteurs des performances à certaines tâches. La performance était mesurée à la fois par la réussite ou non des tâches proposées, mais aussi par le temps d’exécution. Les mesures autorapportées étaient aussi fortement corrélées avec la performance à une tâche. L’échelle était composée d’items qui visaient à évaluer le niveau de familiarité avec des concepts comme MP3, rafraîchissement, PDF ou bien recherche avancée.

La littératie de l’IA

La littératie de l’IA est définie par Ng et al. (2021) comme étant composée des habiletés nécessaires pour vivre, apprendre et travailler dans le monde numérique à travers des outils propulsés par l’IA. En continuité avec la définition de la littératie, puis de la littératie numérique, la littératie de l’IA peut se définir comme un ensemble de compétences qui permet aux personnes d’évaluer, de manière critique, les technologies de l’IA, de communiquer et de collaborer efficacement avec l’IA et d’utiliser l’IA comme outil en ligne à la maison et au travail (Long & Magerko, 2020). Long et Magerko (2020) ont été parmi les premiers à proposer une liste de connaissances ou d’habiletés principales à partir d’une recension des écrits. Cette liste comprend, par exemple, la capacité à reconnaître que l’on est en présence d’une IA, la compréhension du fonctionnement et du rôle de l’humain, les principes de capteurs/actuateurs et les forces/limites de l’IA. Cette liste ne peut pas être employée directement pour mesurer la littératie de l’IA étant donné qu’elle n’est pas construite sous forme d’énoncés, que les propositions n’ont pas le même niveau de spécificité et qu’elles ne sont pas mutuellement exclusives. Par exemple, l’une des habiletés est de « Distinguer les technologies utilisant l’IA de celles ne l’utilisant pas » (p. 4, traduction libre), alors qu’une autre est beaucoup plus élaborée : « Connaître les caractéristiques des problèmes qui peuvent être résolus par l’IA, et utiliser cette information pour déterminer quand il est approprié d’utiliser l’IA et quand confier la tâche à un humain » (p. 4, traduction libre).

Touretzky et al. (2019) ont proposé cinq grandes idées à propos de l’IA qui devraient orienter la formation à l’IA dès l’école primaire. Ces idées sont au coeur du curriculum AI4K12, développé en 2020 par l’Association des enseignants d’informatique aux États-Unis. La figure 1 présente ces cinq grandes idées.

Ces composantes recoupent en partie celles qu’ont relevées Cetindamar et al. (2022) dans une analyse bibliométrique des articles scientifiques traitant de littératie de l’IA en contexte professionnel. Ces dernières sont toutefois organisées en lien avec des habiletés technologiques (p. ex., analyser des données), professionnelles (p. ex., interactions entre l’IA et les équipes de travail), d’interactions entre humains et machines (p. ex., augmentation des capacités humaines par l’IA), et d’apprentissage (p. ex., capacité d’apprendre pour accroître son expertise). Il existe des référentiels de compétences portant sur l’IA comme le Artificial Intelligence Competency Framework publié en 2022 par le Collège Dawson et l’Université Concordia (Blok et al., 2022). Le référentiel est divisé d’abord en grands domaines (p. ex., les données), puis, chacun de ces domaines est divisé en thèmes, puis en compétences et en sous-compétences. Les compétences éthiques ont été intégrées dans chaque thème, avec des exemples de conséquences négatives. Ce document pourra bien sûr servir à alimenter les programmes d’études en informatique, mais les deux établissements affichent l’ambition de s’y référer pour intégrer des apprentissages sur l’IA dans tous leurs programmes qui peuvent être concernés de près ou de loin. La compétence éthique est aussi définie de manière plus complète dans le référentiel de la compétence en éthique de l’IA (Bruneault et al., 2022), il s’agit « [d’] être capable d’agir en situations éthiques impliquant des systèmes d’IA, et ce de manière autonome et responsable par la mobilisation volontaire de ressources internes et externes » (p. 17).

Figure 1

***Les cinq grandes idées de l’IA selon Touretzky et al. (2019)***

Les échelles existantes

Les documents que nous avons présentés jusqu’ici sont utiles pour définir ce qu’est une bonne littératie de l’IA, mais ne permettent pas de la mesurer en vue d’étudier ses relations avec d’autres variables comme l’adoption de l’IA. À partir d’une recherche dans le Web of science conduite en novembre 2023 avec les termes artificial intelligence literacy, nous avons relevé quelques études qui présentent des échelles de mesure. Nous les présentons ici.

Chai et al. (2020) ont élaboré une échelle de littératie de l’IA auprès d’élèves du secondaire à partir d’affirmations dans lesquelles des concepts d’IA sont mis en relation (p. ex., « Je comprends pourquoi les technologies d’IA ont besoin de données massives »[2]). Six items composent cette échelle et présentent une bonne cohérence interne (α = 0,90). Cette échelle est très intéressante, mais a le désavantage d’être orientée seulement sur un type d’IA (probabiliste et non symbolique). Un des énoncés réfère explicitement à des produits (SIRI et Hello Google). De plus, cette échelle ne cible que des connaissances et non des actions ou des comportements liés à l’utilisation de l’IA, dimensions essentielles dans une vision fonctionnelle de la littératie.

Kim et Lee (2022) ont développé un questionnaire pour mesurer le niveau de littératie de l’IA auprès d’élèves de niveau collégial en Corée du Sud (14-15 ans). Le questionnaire comprend 30 items répartis en six facteurs à la suite d’une analyse factorielle exploratoire : impact social de l’IA, compréhension de l’IA, planifier une solution d’IA, résolution de problèmes avec l’IA, littératie des données et éthique de l’IA. Chaque item est noté sur une échelle de type Likert à cinq niveaux. Les alphas de Cronbach se situent entre 0,86 et 0,94 pour tous les facteurs, ce qui confère une forte cohérence interne. Plusieurs items du questionnaire sont suffisamment généraux pour être repris dans un questionnaire destiné au personnel enseignant (p. ex., « Je peux expliquer le processus par lequel l’intelligence artificielle obtient des résultats »), alors que d’autres semblent cibler des compétences plus spécialisées du domaine de l’IA qui apparaissent hors de portée (p. ex., « Je peux mener des projets d’intelligence artificielle » ou bien « Je peux choisir un modèle approprié pour la résolution d’un problème avec l’intelligence artificielle »).

Zhao et al. (2022) ont aussi réalisé une étude pour élaborer un instrument de mesure de la littératie de l’IA, cette fois auprès d’enseignants et d’enseignantes du secondaire. L’échelle est particulièrement intéressante, car elle cible des actions en lien avec l’IA dont certaines sont spécifiques au métier d’enseignant et d’enseignante (p. ex., « Je sais quand les technologies éducatives d’IA peuvent m’aider »). Quatre facteurs sont proposés, chacun avec une bonne cohérence interne (α > 0,93) : 1) connaître et comprendre l’IA, 2) appliquer l’IA, 3) évaluer l’IA et 4) éthique de l’IA. Si nous retenons de cette échelle la vision élargie de la littératie de l’IA (incluant l’éthique et l’utilisation), le facteur de connaissances pose problème, car il cible en réalité des attitudes et des comportements (p. ex., « Je pense que les enseignants devraient activement apprendre à utiliser des technologies intelligentes pour les aider dans leur enseignement » ou « Je me sens à l’aise quand j’utilise des technologies éducatives d’IA »). Or, à défaut d’appui empirique, il nous semble hasardeux d’amalgamer une attitude favorable à une bonne connaissance de l’IA. Soit le facteur est mal nommé, soit certains énoncés relevant de l’attitude devraient en être exclus. Dans tous les cas, il manque pour l’ensemble de l’échelle des items mesurant des connaissances liées à l’IA et à son fonctionnement. Dans l’ensemble, cette échelle nous paraît malgré tout d’une grande valeur.

L’étude de Wang et al. (2022) visait à élaborer un instrument de mesure de la littératie de l’IA destiné à la population générale. Un questionnaire a été élaboré à partir de quatre facteurs : la conscience de l’IA (awareness), l’usage, l’évaluation et l’éthique. Il est possible toutefois que cet instrument ne soit pas suffisant pour mesurer la littératie de l’IA du personnel enseignant, car il n’intègre pas de tâches spécifiques au contexte pédagogique. De plus, les connaissances qui y sont mesurées sont très simples, trop peut-être pour une population éduquée dont une partie se spécialise d’ailleurs dans le domaine de l’IA. En employant seulement ce questionnaire, il y a un risque de ne pas parvenir à discriminer le niveau de littératie de l’IA suffisamment pour que cela soit utile à en étudier l’impact sur l’adoption ou l’usage. Par exemple, les items qui paraissent les plus avancés dans le questionnaire de Wang et al. (2022) sont « Je peux distinguer les appareils intelligents des appareils non intelligents » et « Je ne sais pas comment les technologies d’IA peuvent m’aider ».

Le dernier instrument de mesure de la littératie de l’IA que nous avons relevé est celui de Karaca et al. (2021), soit une échelle de mesure du niveau de préparation à l’IA chez les médecins. Cette échelle a été validée auprès de 568 étudiants et étudiantes en médecine dans une analyse factorielle exploratoire et a permis d’identifier quatre facteurs : la cognition, l’habileté, la vision et l’éthique. Les énoncés du facteur cognition ciblent des connaissances liées à l’IA, dont certaines sont spécifiques au domaine médical, par exemple « Je peux analyser des données obtenues par l’IA dans le domaine de la santé ». Les énoncés associés au facteur habileté ciblent des usages, par exemple, la capacité à utiliser l’IA pour prodiguer des soins de santé. Le facteur de la vision cible la capacité réflexive sur les usages actuels et futurs de l’IA, par exemple, la capacité à entrevoir les possibilités et les risques de l’IA. Finalement, le facteur éthique est concentré sur les aspects déontologiques de la pratique médicale, par exemple, le respect des lois en vigueur. La seule limite de ce questionnaire, dans notre contexte, tient à sa spécificité pour le domaine de la santé et appuie la pertinence de créer un instrument spécifique à un domaine. De plus, il est toujours préférable d’utiliser un instrument conçu spécifiquement pour une population afin de s’assurer d’une bonne validité (Irwing & Hughes, 2018).

Objectif de recherche

L’objectif de cette étude est d’élaborer un instrument de mesure de la littératie de l’IA adapté au personnel enseignant de niveau postsecondaire. Cet instrument pourra ensuite être utilisé, dans des études subséquentes, pour vérifier si le niveau de littératie a des effets modérateurs ou même des effets de causalité sur l’adoption de technologies basées sur l’IA.

Méthodologie

La méthode de conception du questionnaire

Une première version du questionnaire (33 items) a été élaborée à partir des compétences en IA proposées par Long et Magerko (2020) et de différentes échelles de mesure existantes discutées préalablement (Chai et al., 2020; Kim & Lee, 2022; Wang et al., 2022; Zhao et al., 2022). Les items ciblent à la fois des connaissances et des actions ou des comportements. Comme nous souhaitions que notre questionnaire puisse mesurer le niveau de littératie de personnes expertes tout comme celui de personnes novices, nous avons simplifié la formulation de certains items tout en conservant des termes techniques dans d’autres (p. ex., « réseau de neurones »). À ce stade, il n’y avait pas d’items spécifiques au personnel enseignant. Cette version, excluant les items pédagogiques, a fait l’objet d’une prévalidation auprès d’un public générique recruté via les réseaux sociaux (n = 56) qui a permis de corriger rapidement certaines erreurs (l’uniformisation des échelles de réponse et de la formulation du début de certains énoncés, la reformulation, le retrait de doublons et l’ajout d’énoncés). Une seconde version du questionnaire, composée de 29 items, a été élaborée, présentant de nouveaux énoncés liés à l’éthique (Wang et al., 2022) et liés aux usages pédagogiques de l’IA (Zhao et al., 2022). C’est cette version qui a été soumise aux personnes qui ont participé à l’étude.

Le recrutement et la participation

Le recrutement des enseignants et des enseignantes s’est déroulé via un affichage public sur LinkedIn et Facebook et une combinaison d’envoi à des listes institutionnelles, d’affichage d’annonces imprimées dans des salons du personnel et d’affichage sur des portails internes (n = 395). Ces personnes provenaient de 46 établissements (31 cégeps et 15 universités). Trois établissements sont situés hors Québec pour un nombre égal de répondants et de répondantes; les données ont été conservées puisqu’il s’agissait d’établissements d’enseignement supérieur. Le seul critère d’inclusion était d’avoir déjà enseigné dans un cégep ou dans une université. Il n’y avait aucun critère d’exclusion. L’échantillon comprenait 166 hommes, 211 femmes et 5 personnes s’étant identifiées autrement (13 données manquantes pour le genre). Les personnes participantes devaient indiquer leur discipline principale : 148 personnes enseignent dans des disciplines liées aux sciences, technologies, ingénierie et mathématiques (STIM), alors que 220 enseignent dans des disciplines non STIM (27 données manquantes pour la discipline). Finalement, 151 personnes enseignent au niveau collégial, 244 au niveau universitaire.

Les personnes participantes ont rempli le questionnaire de littératie de l’IA sur la plateforme LimeSurvey de l’Université de Montréal, tel qu’il a été élaboré en s’appuyant sur le cadre théorique. Les réponses aux 29 items étaient inscrites sur des échelles Likert à six niveaux, allant de Totalement en désaccord (1) à Totalement d’accord (6). Tous les énoncés étaient formulés de telle sorte que le niveau 6 indique un niveau élevé de littératie, et le niveau 1 un faible niveau.

La méthode d’analyse

Outre les statistiques descriptives, l’analyse a consisté à réaliser deux analyses factorielles, une analyse factorielle exploratoire (AFE) pour identifier le nombre de dimensions et les items à retenir, et une analyse factorielle confirmatoire (AFC) pour vérifier l’adéquation de la structure factorielle avec les données. La cohérence interne de l’échelle globale ainsi que des sous-échelles (facteurs) a été vérifiée à l’aide des alphas de Cronbach et des omégas de McDonald. La vérification des postulats et les résultats de ces analyses sont présentés dans la section suivante.

Résultats

La vérification de l’adéquation des données pour l’analyse factorielle

L’échantillon est suffisant pour réaliser des analyses factorielles selon Bernaud (2014), qui recommande entre 300 et 500 personnes ou selon Jung et Lee (2011), qui parlent d’un minimum de 200 personnes. L’indice Kaiser- Meyer-Olkin, une mesure qui vise à vérifier si la taille de l’échantillon est suffisante pour réaliser des analyses factorielles à partir des relations entre la matrice de covariance et la matrice de corrélations (Shrestha, 2021), est de 0,93. Selon Shrestha (2021), cette valeur est considérée excellente. Le test de sphéricité de Bartlett, réalisé sur l’échantillon complet, confirme que les données ne correspondent pas à une matrice identité (dans laquelle aucune corrélation n’est observée entre les variables) et peuvent être utilisées pour des analyses factorielles (χ² = 10 138,90; p < 0,001).

Nous avons évalué la normalité de la distribution des items à l’aide du test de D’Agostino-Pearson. Aucun des items individuels ne suit une distribution normale (p > 0,001). Idéalement, parmi les postulats de l’analyse factorielle, les données doivent respecter une distribution normale multivariée qui peut être vérifiée avec le coefficient de Mardia (Berger, 2021). Dans notre cas, les données ne respectent pas ce postulat[3]. L’AFE peut quand même être réalisée, mais il faut recourir à des méthodes de factorisation qui y sont moins sensibles, ce pour quoi nous utiliserons la factorisation en axes principaux (Berger, 2021). De plus, visuellement, la représentation du score moyen aux items de l’échelle suggère tout de même une distribution multivariée à peu près normale, permettant de réaliser une analyse factorielle (voir la figure 2). La méthode de rotation des axes retenue est oblimin, car elle admet des corrélations entre les facteurs (Achim, 2020), ce qui est souhaitable étant donné que l’échelle globale initiale a une forte cohérence interne (α de Cronbach = 0,95; ω de McDonald = 0,95).

Figure 2

***Nombre de personnes en fonction de leur score moyen à l’ensemble des items de littératie***

Toutes les variables ont été mesurées sur une échelle Likert à six niveaux, ce qui en fait des variables ordinales. Pour cette raison, nous avons opté pour la réalisation de l’AFE à partir d’une matrice de corrélation polychorique, celle-ci produisant de meilleures estimations des corrélations (Holgado-Tello et al., 2010) étant donné le petit nombre de niveaux possibles[4]. Les analyses ont été réalisées dans RStudio (librairies mvnormalTest, dplyr et ltm) et dans JASP.

Le tableau 1 présente les statistiques descriptives avec le nombre de données valides, la moyenne et l’écart-type pour chaque item.

L’analyse factorielle exploratoire

Plusieurs méthodes existent pour déterminer le nombre de facteurs à considérer, comme l’analyse du diagramme d’éboulis, le critère de Kaiser (valeur propre > 1) ou l’analyse parallèle (Berger, 2021). C’est cette dernière méthode qui a été retenue, notamment car elle est plus précise et a été employée par Wang et al. (2022) dans leur questionnaire de littératie de l’IA. Elle consiste à calculer, pour chaque variable, une valeur propre aléatoire et une valeur propre réelle à partir des données (en appliquant la méthode d’analyse en composantes principales). Ensuite, le nombre de variables pour lesquelles la valeur propre réelle est supérieure à la valeur propre aléatoire indique le nombre de facteurs à retenir (Horn, 1965). Selon cette méthode, dans notre cas, trois facteurs doivent être retenus. La méthode du critère de Kaiser (valeurs propres > 1) nous suggérait plutôt cinq facteurs. Nous avons exploré les items, et un regroupement à trois facteurs nous semblait plus cohérent (p. ex., les items d’utilisation de l’IA, non spécifiques à la pédagogie, étaient regroupés avec ceux d’utilisation pédagogique et la saturation était plus grande). La figure 3 montre bien l’existence d’au moins trois facteurs, mais les facteurs 4 et 5 qui seraient retenus avec le critère de Kaiser sont moins clairement marqués.

Le tableau 2 présente les coefficients de saturation des items par rapport aux facteurs. Aucun item ne se retrouve dans plus d’un facteur. Après l’analyse des items, les facteurs ont été nommés de cette façon : connaissances techniques sur l’IA (F1), capacité à utiliser des outils d’IA à des fins pédagogiques (F2) et sensibilité aux enjeux éthiques de l’IA (F3). Quatre items (12, 13, 17 et 18) ont été retirés, car ils ne présentaient, pour aucun des facteurs, un coefficient de saturation acceptable, c’est-à-dire supérieur à 0,45 (Comrey & Lee, 1992). L’item 10 a été ajouté au facteur 2 même s’il n’atteignait pas ce seuil en raison de sa proximité sémantique avec l’item 11 et parce qu’il atteignait quand même le seuil minimal de 0,32 proposé par Tabachnick et Fidell (2007). Selon Berger (2021), il est pertinent de ne pas s’appuyer seulement sur des seuils, mais aussi sur une réflexion quant à la place d’un item dans un facteur. Le tableau 3 présente les corrélations entre les facteurs.

Figure 3

***Diagramme d’éboulis des valeurs propres des facteurs de l’AFE comparée aux résultats de l’analyse parallèle***

L’analyse factorielle confirmatoire

Pour confirmer la validité de la structure factorielle à trois facteurs et 25 items, une analyse factorielle confirmatoire (AFC) a été réalisée sur le même échantillon. Le tableau 4 présente les charges factorielles (λ) de chaque item par rapport à leur facteur. La racine carrée de l’erreur quadratique moyenne de l’approximation, root mean square error of approximation (RMSEA) en anglais, dont la valeur est acceptable dès qu’elle est inférieure à 0,08 (Fabrigar et al., 1999) est de 0,069. L’indice d’ajustement comparatif, ou comparative fit index (CFI) en anglais, et l’indice de Tucker-Lewis, ou Tucker-Lewis index (TLI) en anglais, sont tous les deux de 0,98, ce qui est supérieur au seuil de 0,95 suggéré par Schumacker et Lomax (2010).

Tableau 2

***Coefficients de saturation des items par rapport aux facteurs de l’AFE***

Tableau 3

***Matrice des corrélations entre les facteurs de l’AFE***

Tableau 4

***Charges factorielles des items par rapport à leur facteur (AFC)***

Tableau 5

***Corrélations entre les facteurs et cohérence interne de l’échelle finale***

La validation de la cohérence interne de l’échelle finale

Le tableau 5 présente, pour l’échantillon global, les corrélations entre les facteurs ainsi que les alphas de Cronbach et les omégas de McDonald. Même si les seuils pour interpréter ces coefficients ne font pas consensus, les valeurs obtenues dépassent largement le seuil de 0,70 généralement admis comme le minimum souhaitable (Nunnally, 1967).

Discussion

En introduction, nous avons évoqué l’importance que les enseignants et les enseignantes développent une bonne littératie de l’IA pour pouvoir utiliser de manière critique les systèmes d’IA qui leur sont proposés. Nous avons mentionné que, jusqu’à un certain point, ils et elles doivent comprendre le fonctionnement de certaines techniques d’IA pour comprendre la portée de certains défis éthiques (p. ex., l’IA probabiliste et le risque de biais). Pour pouvoir mesurer le niveau de littératie de l’IA de la population enseignante au postsecondaire, nous avons développé une échelle basée sur des échelles existantes et sur des énoncés inédits. La discussion vise à présenter quelques réflexions sur la qualité de l’instrument et sur ses limites, puis sur ses utilisations potentielles dans le futur.

Les qualités et les limites de l’instrument de mesure développé

D’abord, les trois facteurs qui ont émergé présentent tous une forte cohérence interne (α de Cronbach et Ω de McDonald entre 0,80 et 0,96). Le facteur éthique a permis de confirmer le facteur établi par Wang et al. (2022) : nous avons repris leurs trois items et ils ont tous émergé dans le même facteur lors de l’AFE. À ces trois items qui ciblaient des comportements, deux items ciblant des connaissances ont émergé dans le même facteur et permettent à notre avis de mieux représenter l’ensemble des enjeux éthiques (« Je connais des risques associés à l’IA » et « Je suis capable de nommer des usages non éthiques de l’intelligence artificielle »). Cet ajout nous est aussi apparu important pour couvrir, dans le facteur éthique, la possibilité que des personnes choisissent consciemment de ne pas utiliser certains outils d’IA en raison de préoccupations éthiques. Ils pourraient alors ne pas se sentir concernés par deux des trois items de Wang et al. (2022) qui réfèrent à leur utilisation d’outils d’IA. Le facteur pédagogique a permis de confirmer le facteur Applying AI établi par Zhao et al. (2022), dont nous avons repris les cinq items. Nous avons reformulé deux de ces items pour ne pas les restreindre aux usages pédagogiques sur la base des conclusions de Raby (2005), selon lesquelles les usages personnels des technologies faits par le personnel enseignant sont un préalable à une utilisation pédagogique. Il était donc souhaitable que le facteur d’utilisation pédagogique comprenne à la fois des items d’utilisation générale et des items spécifiques à des situations d’enseignement-apprentissage. D’autres items inédits, inspirés de Touretzky et al. (2019) et de Long et Magerko (2020), nous ont permis de mieux couvrir les principaux usages de l’IA (p. ex., « J’utilise des applications de reconnaissance d’images »).

De manière générale, les résultats de notre validation sont comparables à ceux obtenus pour des instruments similaires. Karaca et al. (2021) ont obtenu des indices d’adéquation similaires, quoiqu’un peu plus faibles. Leur RMSEA est supérieur au seuil de 0,08, ce qui signifie que leur modèle génère un peu plus d’erreurs de prédictions que le nôtre, mais le CFI est de 0,94. Cela pourrait peut-être s’expliquer, selon nous, par le fait que nous avons restreint notre facteur technique à des connaissances, lui donnant une meilleure cohérence interne, alors qu’eux ont intégré aussi des habiletés comme « Je peux analyser des données obtenues par l’IA en santé ». Il y a aussi un peu de cross-loading entre leurs facteurs 1 et 2 (quatre items de leur facteur 1 ont des coefficients de saturation > 0,32 sur le facteur 2, c’est-à-dire que 10 % de leur variance est expliquée par le facteur 2, selon Comrey et Lee, 1992). Tout comme eux, notre facteur éthique est celui qui obtient la cohérence interne la plus faible, mais celle-ci demeure acceptable. Wang et al. (2022), pour obtenir un instrument de mesure plus parcimonieux, ont retenu les trois items avec les coefficients de saturation les plus hauts pour chaque facteur. Cela leur permet d’obtenir un modèle final avec d’excellents indices d’adéquation (RMSEA = 0,01; TLI = 0,99; CFI = 0,99). En appliquant aussi cette stratégie dans notre analyse confirmatoire, le RMSEA passe de 0,069 à 0,052, le CFI passe de 0,978 à 0,995, et le TLI passe de 0,975 à 0,993. Nous avons quand même laissé tous les items pertinents pour pallier le fait que le domaine de l’IA évolue rapidement et qu’il nous semble risqué de s’en remettre seulement à trois items par facteur. Cependant, selon le contexte, il pourrait être pertinent de n’utiliser que quelques items de notre questionnaire sans trop d’impact sur la validité.

Sur le plan des limites, l’instrument n’a pas fait l’objet d’une évaluation de type test-retest afin de vérifier s’il produit les mêmes réponses auprès des mêmes personnes à deux moments espacés (Bernaud, 2014). Cet exercice, qui pourrait être réalisé dans le futur, nous est apparu difficile étant donné que le sujet est fréquemment mentionné dans l’actualité, que des formations sont de plus en plus offertes aux enseignants et aux enseignantes et que ceux-ci et celles-ci en discutent avec leurs collègues. En somme, la fidélité test-retest pourrait être difficile à établir si le niveau de littératie du personnel enseignant varie d’une administration à l’autre. Malgré nos efforts pour ne pas introduire de technologies spécifiques dans la formulation des items, le domaine de l’IA et ses usages évoluent rapidement, et il se pourrait que certains items tombent en désuétude plus rapidement que prévu ou que d’autres items s’avèrent nécessaires.

Les utilisations futures de l’instrument de mesure

Le questionnaire peut aisément être réutilisé pour mesurer le niveau de littératie de l’IA du personnel enseignant dans une variété de contextes, par exemple pour mener des études sur l’adoption de différents types d’usage de l’IA. À condition de valider par AFC la cohérence interne, il devrait aussi pouvoir être administré auprès d’enseignants et d’enseignantes du primaire et du secondaire : les items pédagogiques de Zhao et al. (2022) ont été validés auprès de cette population en Chine, alors que nous les avons validés auprès d’enseignants et d’enseignantes du postsecondaire au Québec. Par leur formulation, les énoncés ne demandent pas d’éléments spécifiques à chaque ordre d’enseignement. Le questionnaire pourrait être réduit, par exemple, le facteur technique pourrait être mesuré avec les quatre items ayant les charges factorielles les plus hautes (les items 3, 5, 7 et 9).

Le questionnaire pourrait aussi être utilisé comme mesure de la littératie de l’IA auprès de la population générale, avec quelques adaptations. Les facteurs technique et éthique ne portent pas sur des aspects pédagogiques. D’ailleurs, le facteur éthique s’appuie en grande partie sur celui de Wang et al. (2022), validé auprès de la population générale. Le facteur technique, inédit à notre étude, a été proposé à partir de plusieurs références, dont le curriculum AI4K12 et les connaissances de Long et Magerko (2020), deux documents qui s’intéressent aux connaissances que toute personne devrait avoir au sujet de l’IA. À cet égard, il serait pertinent de l’employer auprès de la population générale. Les items qui portent sur des usages éducatifs (les items 25, 28 et 29) dans le facteur pédagogique devraient être retirés pour une utilisation auprès de la population générale, et le facteur pourrait être renommé « Capacité à utiliser des outils d’IA ». Il faudra alors réaliser une AFC.

Conclusion

À notre connaissance, cette étude est la première à développer un instrument de mesure de la littératie de l’IA spécifiquement conçu pour le personnel enseignant du postsecondaire. Cet instrument est un questionnaire de 25 énoncés auquel les personnes doivent répondre sur des échelles de Likert à six niveaux. L’analyse factorielle exploratoire, réalisée à partir des réponses au questionnaire de 395 enseignants et enseignantes, a permis de proposer une structure factorielle à trois facteurs : connaissances techniques sur l’IA, capacité à utiliser des outils d’IA à des fins pédagogiques de connaissances, et de sensibilité aux défis éthiques. L’analyse factorielle confirmatoire a permis de confirmer l’adéquation du modèle aux données collectées, et les mesures de cohérence interne sont satisfaisantes pour tous les facteurs.

Le questionnaire peut être réemployé, en tout ou en partie, pour mesurer ces facteurs (technique, pédagogique et éthique) auprès de la population enseignante dans le cadre d’autres études. Ces facteurs peuvent être étudiés à titre de variables explicatives dans des études sur l’adoption de l’IA par le personnel enseignant, ou bien dans des études qui portent sur d’autres sujets et pour lesquelles des hypothèses amènent à soupçonner un lien avec le niveau de littératie de l’IA. Sous réserve de validation subséquente, les facteurs technique et éthique devraient pouvoir servir pour une mesure auprès d’autres populations. Le facteur pédagogique, si l’on en retire les items spécifiques à l’enseignement, pourrait servir comme mesure de la capacité générale à utiliser les systèmes d’IA auprès de la population générale.

Note des auteurs

Résumé

Abstract

Resumo

Introduction