Corps de l’article

Peut-on contrôler de façon scientifique les résultats de l’éducation ? (…) La tentation technicienne sera toujours de réduire le réel à ce qu’on peut observer, contrôler, mesurer ; par exemple, on dira qu’un enseignement est réussi quand 90 % des apprenants ont atteint 90 % des objectifs (…) [Cependant,] pour des actes comme comprendre, juger, créer, les techniques n’ont plus grand-chose à dire.

Reboul, 1989, p. 61-62

Introduction

De la maternelle (Bennacer et al., 2006) à l’université (Busugutsala, 1998 ; Genoud, 2008 ; Walker & Fraser, 2005), toute personne ayant suivi une scolarité peut se souvenir de différents climats de classe ayant été plus ou moins fructueux. En 2020, en raison de la pandémie de COVID-19, le dépeuplement des campus (Villiot-Leclerq, 2020) a fait voler en éclats la réalité physique et sociale de la classe. En août 2020, une note de synthèse de l’Organisation des Nations Unies se souciait des impacts possibles de la privation d’interactions sociales et de la suppression d’un environnement stimulant et enrichissant (ONU, 2020). La recherche tend à appuyer ce propos, puisqu’un climat de classe de qualité constitue un prédicteur important de l’efficacité pédagogique, y compris à distance (Walker & Fraser, 2005) en étant robustement associé à la réussite, à la satisfaction, à la motivation, à la performance, à l’estime de soi et à la persévérance (Anderson & Walberg, 1974 ; Baker et al., 2001 ; Fraser & Fisher, 1982 ; Haertel et al., 1983 ; Lial, 2019 ; Pittman & Haughwout, 1987). Ainsi, les mesures fidèles et valides de la qualité d’un climat de classe revêtent une importance diagnostique en vue du maintien d’une éducation de qualité.

Dans ce cadre, cette recherche entend apporter des éléments de validité d’un questionnaire sur le climat de classe, en français et en allemand, adapté pour un établissement universitaire à distance. Elle répond au besoin de fournir des échelles sur le climat de classe spécifiques à des contextes précis (Genoud, 2008), en particulier adaptées à l’enseignement à distance (Walker & Fraser, 2005) et en langues non anglophones (Bennacer et al., 2006 ; Busugutsala, 1998).

Revue de littérature

Éléments de définition

Une définition consensuelle du climat de classe n’a pas encore obtenu l’adhésion des chercheurs (Genoud, 2004) ; « la plupart des auteurs valident leurs échelles sans donner une définition claire et précise du climat » (Bennacer et al., 2006, p. 87). Les dénominations du concept varient en combinant les noms environnement (Fraser & Treagust, 1986), atmosphère ou climat (Genoud, 2008) et les adjectifs éducatif (Janosz et al., 1998), scolaire (Janosz et al., 2005), social, psychosocial (Moos & Tricket, 1973) ou relationnel (Genoud, 2008 ; Janosz et al., 2005).

La définition régulièrement citée de Moos &Tricket (1973) décrit un « système social dynamique incluant non seulement les comportements de l’enseignant et ses interactions avec les étudiants, mais aussi les interactions entre étudiants » (p. 94). Cette définition est à la fois générique, précise et opérationnelle. Elle est générique puisqu’elle s’adapte à la plupart des contextes d’enseignement que l’on peut répartir sur des continuums allant de la présence à la distance et de petites classes à de grandes classes, à une composition stable (école élémentaire) ou instable (université) des membres de la classe. Cette définition est également précise dans un sens paradoxal puisqu’elle ne spécifie pas le poids relatif des différents déterminants du climat de classe. Mais, comme ce climat de classe est un système dynamique, il peut évoluer très différemment d’un contexte à l’autre, et même, d’une personne à l’autre au sein de la même classe. Finalement, elle est opérationnelle parce qu’elle pointe vers l’un des facteurs les plus importants de l’apprentissage à distance : les interactions (Bouhnik & Marcus, 2006 ; Moore, 2001 ; Picciano, 2002).

Le climat de classe ou l’environnement psychosocial

Les investigations pionnières sur le climat de classe, menées par les équipes de recherche de Anderson et Walberg (1974), de Moos et Trickett (1973) et de Trickett & Moos (1974) parlaient d’environnements d’apprentissage de la classe. La tradition de recherche qui en a émergé a modélisé les liens associant des facteurs divers (p. ex. le contexte socio-culturel, les caractéristiques biographiques, les traits de personnalité, l’estime de soi, les attitudes, le genre et l’âge) à la satisfaction et à la réussite universitaire en prenant en compte des effets médiateurs (Busugutsala, 1998). Cette tradition peut être scindée en deux axes (Genoud, 2008) intrinsèquement liés. Le premier vise à déterminer les facteurs sur lesquels agir pour influencer le climat de classe (Bennacer et al., 2006 ; Busugutsala, 1998 ; Genoud, 2008 ; Janosz et al., 1998) ; le second tend à déterminer les environnements favorables aux apprentissages ou à la satisfaction (Busugutsala, 1998 ; Giraudet, 2016 ; Haertel et al., 1981 ; Lial, 2019 ; Walker & Fraser, 2005).

Le premier axe conçoit le climat de classe comme une variable dépendante qu’il est possible de manipuler par des caractéristiques architecturales, contextuelles (le type d’école, la discipline), organisationnelles (le niveau scolaire, les effectifs), collectives (la proportion de redoublants, de femmes) et les caractéristiques de l’enseignant (Bennacer et al., 2006 ; Cheng, 1994 ; Gauthier & Bissonnette, 2017). Le second axe conçoit le climat de classe en tant que variable indépendante capable de prédire la performance[2], l’estime de soi ou la motivation (p. ex. Anderson & Walberg, 1974 ; Fraser & Fisher, 1982 ; Lial, 2019).

La méta-analyse de Haertel et al. (1981) illustre ces deux axes en mettant en évidence 734 corrélations (n = 17805) entre des dimensions du climat de classe (p. ex. la cohésion, la satisfaction, la difficulté de la tâche, la direction au but) et des gains d’apprentissage, en particulier pour les étudiantes les plus âgées. Les auteurs signalent que toutes ces corrélations diffèrent fortement selon les groupes étudiés et qu’aucun lien causal n’est prouvé. Il reste ardu de privilégier une direction : est-ce que « le climat de classe est meilleur dans les classes qui apprennent mieux » ou est-ce que « l’apprentissage est meilleur dans les classes ayant un climat de classe de qualité » ? D’autres recherches ont montré des liens négatifs entre la qualité du climat de classe et l’épuisement professionnel de l’enseignant (Dorman, 2003 ; Janosz et al., 2005) ou le décrochage durant l’école non obligatoire (Baker et al., 2001 ; Pittman & Haughwout, 1987). Les climats les plus favorables semblent se caractériser par la cohésion, la satisfaction, la direction au but, un haut degré d’organisation et un faible degré de friction (Bennacer et al., 2006 ; Haertel et al., 1983). Ces éléments se retrouvent dans les dimensions de la plupart des échelles de mesure du climat de classe (voir ci-dessous).

Les questionnaires sur le climat de classe

Le Learning Environment Inventory (LEI) de Anderson et Walberg (1974) et le Classroom Environment Scale (CES) de Moos et Trickett (1973) ont largement inspiré la majorité des questionnaires conçus pour mesurer des aspects du climat de classe. Lors des premières recherches, les chercheurs utilisaient surtout le LEI (Fraser & Fisher, 1982). Puis, le CES s’est peu à peu imposé (les rééditions de 1987 et de 2002 du bref manuel publié par Moos et Trickett en témoignent). Les neuf sous-échelles du CES ont été adaptées d’une multitude de façons, en fonction de l’âge des apprenants (López et al., 2018), de la spécificité d’un environnement de classe (Dowdell et al., 2011) ou des besoins de chaque recherche (Walker & Fraser, 2005).

Pour les étudiants du collège et de l’université (niveaux 3 et 6 de la Classification Internationale Type de l’Education [CITE 2011] (Confédération suisse, 2015), un questionnaire a été développé, le College and University Classroom Environment Inventory (CUCEI) (Fraser & Treagust, 1986) et a ensuite été traduit en français (Busugutsala, 1998). Cependant, à l’usage, l’échelle ne s’est pas montrée aussi fiable et valide qu’espéré (Logan et al., 2006). Pour les étudiants universitaires à distance, il existe également une échelle, The Distance Education Learning Environments Survey [DELES] (Walker & Fraser, 2005), qui vise des étudiantes de master (maîtrise) et des doctorantes (73 % des sujets) (niveaux 7 et 8 de CITE 2011) et qui accorde une grande importance à l’autonomie et à la liberté. Elle est peu pertinente pour des étudiantes en début de bachelor (baccalauréat) (niveau 6 de CITE 2011).

Problématique

Du CREU au CRED

Cette recherche vise à fournir une échelle spécifique au climat de classe à l’université, à distance et en début de bachelor (baccalauréat) (niveau 6 de CITE 2011). Aucune échelle en français ou en allemand n’a été développée pour ce contexte.

Les aspects relationnels interpersonnels sont les dimensions centrales de la plupart des échelles de mesure du climat de classe (Bennacer et al., 2006 ; Fraser & Treagust, 1986 ; Janosz et al., 1998 ; Janosz et al., 2005 ; Moos & Trickett, 1973) parce qu’ils prédisent la réussite, la motivation, la performance ou l’estime de soi, autant en présence (Fraser & Treagust, 1986 ; Genoud, 2008 ; Janosz et al., 2005 ; Moos & Tricket, 1973) qu’à distance (Chickering & Ehrmann, 1996 ; Walker & Fraser, 2005). Toutefois, à distance, rendre ces relations possibles et fécondes est un défi (Poelhuber & Chomienne, 2006). Ces dimensions côtoient souvent des dimensions non relationnelles telles que la direction au but, le niveau de désorganisation ou de réglementation (par ex. Haertel et al., 1983), le maintien du système (Trickett & Moos, 1974), la constance de l’encadrement (Janosz et al., 1998), etc. Les échelles développées pour l’université excluent souvent les dimensions qui peuvent varier d’un cours à l’autre (Fraser & Treagust, 1986 ; Genoud, 2008 ; Walker & Fraser, 2005) en raison de l’hétérogénéité des situations d’enseignement qui en rend la mesure peu fiable.

L’échelle convenant le mieux à nos besoins est celle de Genoud (2008) : le Climat relationnel dans les études à l’Université [CREU]. Première échelle francophone sur le climat de classe visant une population générale d’étudiantes universitaires, le CREU est fortement inspiré par trois dimensions du Classroom Environment Scale (CES) (Moos & Trickett, 1973) et par quatre dimensions du College and University Classroom Environment Inventory (CUCEI) (Fraser & Treagust, 1986). Le CREU se veut utilisable pour toutes méthodes pédagogiques, tous styles d’enseignement en présence et pour des panels d’étudiantes ayant des cursus particuliers (p. ex. deux cursus menés en parallèle). Le CREU n’inclut pas les dimensions du CES et du CUCEI variant selon les cours (la clarté des règles, le contrôle par l’enseignement, l’innovation). Il se réduit à quatre sous-dimensions (définies dans le Tableau 1) permettant à chaque étudiante de donner son sentiment général sans prendre en compte des particularités de chaque cours (Genoud, 2008). Ces sous-dimensions font du CREU une échelle spécifique aux aspects relationnels du climat de classe que Genoud (2008) définit comme « les perceptions qu’ont les étudiantes de leur formation, relativement à des composantes relationnelles » (p. 44).

Tableau 1

Définitions des échelles du CREU (et du CRED)

Définitions des échelles du CREU (et du CRED)

Note. Adapté de Validation d’un instrument mesurant le climat d’études perçu par les étudiants universitaires, par P. Genoud (2008), Mesure et évaluation en éducation, 31(1), p. 37 (https://doi.org/10.7202/1025012ar). Dans le domaine public.

-> Voir la liste des tableaux

Les qualités psychométriques des 20 items du CREU ont été éprouvées par Genoud (2008). Toutefois, comme sa validation mêle deux familles d’éléments de preuve (liés à la validité de contenu et à la validité de construit), le CREU souffre d’une lacune : sa validité de critère n’a pas été testée, c’est-à-dire que les scores obtenus au CREU n’ont pas été comparés à des scores obtenus à des critères de référence (Bouletreau et al., 1999). Il est nécessaire de pallier ce défaut pour que le CREU devienne opérationnel (Loye, 2019). Dans ce cadre, nous désirons adapter le CREU à l’enseignement à distance et étudier ses liens avec des variables associées à la qualité du climat de classe : les sentiments de persévérance, les notes obtenues (Anderson & Walberg, 1974 ; Giraudet, 2016 ; Haertel et al., 1981 ; Lial, 2019 ; Walker & Fraser, 2005) et le sentiment d’auto-efficacité (Goffin et al., 2013 ; Jungert & Rosander, 2010 ; Lorsbach & Jinks, 1999). Nous ajoutons à ces variables celle de l’ennui, dont les liens avec le climat de classe restent aussi méconnus (Breidenstein, 2007 ; Weinerman & Kenner, 2016) qu’omniprésents (Baillifard & Martarelli, 2022 ; Goetz & Hall, 2014 ; La Marca & Longo, 2017). La propension à l’ennui est délaissée dans la recherche en éducation, en partie parce que c’est une émotion discrète et peu perturbatrice pour l’enseignant (Pekrun et al., 2010). Pourtant, certains auteurs n’hésitent pas à parler d’effets négatifs universels de l’ennui sur le rendement scolaire : manque de concentration, distractibilité, pensées non pertinentes, réduction de la motivation (Pekrun et al., 2010).

Le questionnaire que nous développons se nomme Climat relationnel des études à distance. Son acronyme, CRED, évoque sa parenté avec le CREU (voir Tableau 1). En apportant des éléments de validité au CRED et en étudiant ses liens avec des variables cognitive (performance académique), affective (ennui) et motivationnelles (sentiment de persévérance, sentiment d’auto-efficacité), nous aimerions contribuer aux questions posées par la recherche récente en clarifiant les liens entre les dimensions relationnelles du climat de classe et l’enseignement à distance en début de bachelor (baccalauréat).

Nos hypothèses

Notre étude cherche à éprouver deux hypothèse :

1) Les quatre dimensions mises en évidence par Genoud (2008) dans le CREU seront répliquées dans le CRED ; et.

2) Les scores d’étudiantes en premier semestre de bachelor (baccalauréat) au CRED auront des liens significatifs et négatifs avec leur propension à l’ennui, mais positifs avec leur persévérance, leur sentiment d’auto-efficacité et leur performance (notes).

Méthodologie

Le cadre de l’étude, les participantes et l’établissement

La recherche est menée dans un établissement universitaire suisse bilingue (français-allemand) qui dispense un enseignement composé de périodes d’apprentissage à distance et de visioconférences. La population de l’étude est constituée des 798 étudiantes (francophones ou germanophones) inscrites en premier semestre de bachelor (baccalauréat) durant l’automne 2020. Parmi elles, 28 % (n = 223) ont répondu à l’enquête et constituent l’échantillon des répondantes. Elles représentent 152 femmes (soit 69 %), 117 germanophones (soit 52 %) et sont réparties dans des classes dont la taille varie de six (histoire germanophone) à 62 participantes (psychologie francophone). L’établissement universitaire dans lequel a eu lieu l’étude propose des filières d’étude dans deux langues nationales, soit le français et l’allemand. La plupart des participantes (82 %) étudient dans leur langue maternelle. L’âge des participantes, dont la moyenne est de 36 ans (écart-type = 10,4), s’échelonne de 18 à 66 ans. 89 % d’entre elles ont une occupation professionnelle ou familiale.

Cette population étudiante est dite « non traditionnelle » : âgée de plus de 25 ans, étudiant à temps partiel et assumant une charge professionnelle ou familiale (Sandler, 2000). La commission éthique de l’établissement a accepté que cette recherche soit menée. Le logiciel d’enquête Limesurvey (2000) a été utilisé.

L’adaptation et la traduction du questionnaire Climat relationnel des études à distance

Le questionnaire Climat relationnel des études à l’Université (CREU, Genoud, 2008) a été adapté pour la distance et traduit en allemand afin de pouvoir être administré aux étudiantes francophones et germanophones de l’établissement. Le Tableau 2 recense chaque modification (légère modification, emprunt, suppression). Tous les items ont été adaptés au langage épicène afin d’éviter une représentation mentale biaisée (Gygax et al., 2019). L’adaptation a consisté à rendre les items du CREU compatibles avec la réalité de l’enseignement à distance. Huit items (sur 20) ont pu être conservés (p. ex. « Les étudiant.e.s sont généralement satisfait.e.s de leurs études. »), huit ont dû être légèrement modifiés (p. ex. « Les étudiant.e.s ont du plaisir à aller en [suivre les] cours. »), trois ont été remplacés parce qu’ils n’étaient pas adaptés à un contexte à distance et un a été supprimé. Ce dernier n’était pas pertinent pour l’ensemble des cours étudiés (« Les étudiant.e.s travaillent volontiers ensemble. »).

Une traductrice de langue maternelle allemande, spécialiste de l’éducation (ingénieure pédagogique) et qui n’avait pas participé aux discussions précédentes, a pris part à de nouveaux échanges cherchant à obtenir le consensus sur chaque item. Le CUCEI (Fraser & Treagust, 1986), le DELES (Walker & Fraser, 2005) et le CES ont été consultés pour guider les débats concernant chaque modification. Par souci de cohérence, les trois items remplacés proviennent tous de la version française du CUCEI (Busugutsala, 1998), parce qu’il est à l’origine des items du CREU. Le CRED demeure très proche du CREU : trois sous-échelles sur quatre ne possèdent pas de nouveaux items et 80 % des items n’ont que peu ou pas été modifiés.

L’invariance des mesures entre les échantillons (francophones et germanophones) a été évaluée en testant cinq modèles (voir Annexe A). Ces derniers étaient destinés à vérifier des spécifications de plus en plus restrictives : au niveau des similitudes de la structure factorielle, des charges factorielles, des interceptions, des variances résiduelles et, enfin, des moyennes. Une non-invariance est considérée pour une valeur seuil de 0,01 de la différence de l’indice d’ajustement comparatif (comparative fit index [CFI]) associée à des changements d’erreur quadratique moyenne de l’approximation (root mean square error of approximation [RMSEA]) de 0,015 (Chen, 2007). Cette analyse calculée avec R (R Core Team, 2020) avec le paquet lavaan (Rosseel et al., 2018) révèle une faible invariance de mesure. Par souci de transparence, nous avons décidé de placer en annexe les résultats discriminés par langue, mais de mettre en commun les données dans le texte principal afin de préserver la lisibilité et la puissance des analyses. Enfin, nous avons opté pour des échelles de Likert en cinq points (« Pas du tout d’accord = 1 » à « Tout à fait d’accord = 5 »).

Tableau 2

Transformation du CREU en CRED

Transformation du CREU en CRED

Tableau 2 (suite)

Transformation du CREU en CRED

Note. Nombre d’items par types de modification : aécriture épicène = 19 ; bmodification légère = 8 ; cemprunt à un autre questionnaire = 3 et dsuppression = 1. Le scoring s’obtient par la somme des scores de chaque sous-échelle après inversion des items avec *, à l’exception de la sous-échelle Cohésion qui nécessite une standardisation en multipliant par 1,25 la somme des quatre items. Les codes des questions contiennent une lettre et un nombre.

-> Voir la liste des tableaux

La procédure de validation

Les éléments de validité d’un questionnaire proviennent de mesures et d’analyses concernant ses caractéristiques psychométriques telles que la fidélité et la validité (Roulin, 2018). Dans le cadre de cette recherche, et à la façon de Mortillaro et Bourgeois (2021), nous séparons les éléments de preuve selon qu’il s’agisse de validité de construit (fidélité et analyse factorielle confirmatoire [AFC], voir plus loin) et de validité de critère (voir plus loin). Les analyses et les mesures statistiques ont été obtenues avec le logiciel JASP (2021).

La validité de construit

La validité de construit du CRED consiste à évaluer la structure en quatre sous-dimensions évoquée par Genoud (2008). Elle combine des calculs de cohérence interne, une AFC et la comparaison avec les résultats antérieurs de Genoud (2008). Respectant les invitations récentes de la recherche « à en finir avec l’alpha de Cronbach », nous utilisons l’oméga de McDonald comme indicateur de cohérence interne (Béland et al., 2018 ; Bourque et al., 2019 ; Dunn et al., 2014 ; Laveault, 2014), mais nous conservons les indices alpha à des fins de comparaison.

Grâce à l’analyse en composantes principales faite par Genoud (2008), les quatre facteurs du CREU sont connus a priori. Pour cette raison, nous testons les qualités psychométriques du CRED avec trois AFC. La première teste une structure supposée unidimensionnelle de l’échelle, la deuxième, une structure à quatre facteurs indépendants. La dernière AFC teste un modèle à quatre facteurs corrélés, conceptuellement plus logique, en raison des corrélations entre différentes dimensions du climat de classe révélées par la littérature (p. ex. Janosz et al., 1998) et par Genoud (2008).

Pour évaluer l’ajustement des trois modèles aux données, nous utilisons six indices d’ajustement. Le khi carré (χ2), calcule l’écart entre les matrices de covariance observées et estimées. L’indice de Tucker-Lewis (Tucker-Lewis index [TLI]) et l’indice d’ajustement comparatif (comparative fit index [CFI]), qui estiment la différence entre les χ2 des modèles testé et théorique, reflètent un bon ajustement au-dessus de 0,90. L’erreur quadratique moyenne de l’approximation (root mean square error of approximation [RMSEA]) qui évalue les écarts normalisés entre la matrice observée et la matrice estimée est le signe d’un bon ajustement au-dessous de 0,05. Vient ensuite la valeur moyenne quadratique pondérée (standardized root mean square residual [SRMR standardisé]) de chaque cellule de la matrice qui reflète un bon ajustement au-dessous de 0,08. Enfin, l’indice de qualité d’ajustement (goodness of fit index [GFI]), une mesure de l’adéquation des matrices de covariance du modèle théorique et du modèle observé, reflète un bon ajustement quand il est supérieur à 0,9.

La validité de critère

La validité de critère (ou validité contre critère) est le niveau de concordance entre les scores obtenus par les répondants à un questionnaire et les scores obtenus par un instrument de mesure choisi comme référence et déjà validé (Bouletreau et al., 1999, p. 11). Cette recherche approche cette validité par le calcul de corrélations de convergence avec des variables issues de la recherche (Tableau 5). Les corrélations des scores obtenus par les répondants sur l’échelle CRED à d’autres mesures théoriquement reliées offrent des indices de validité. Les critères associés à un bon climat de classe retenus sont le sentiment d’auto-efficacité (Goffin et al., 2013) et la persévérance (Lial, 2019). Nous avons ajouté l’ennui pour examiner ses liens méconnus avec le climat de classe (Weinerman & Kenner, 2016), à la suite des appels récurrents de chercheurs visant à étudier les liens entre les environnements d’apprentissage et l’ennui.

Les échelles et les items utilisés pour mesurer l’auto-efficacité, la persévérance autorapportée et la propension à l’ennui se trouvent en annexes (Annexes B-C-D). Le sentiment d’auto-efficacité générale (GSE) (Schwarzer & Jerusalem, 1995) est mesuré par les 10 items d’un questionnaire unidimensionnel validé et traduit en 33 langues (p. ex. « J’arrive toujours à résoudre mes difficultés si j’essaie vraiment. »). L’ennui est mesuré par les versions validées et traduites (Martarelli et al., 2020 ; Martarelli et al., 2022) du Short Boredom Proneness Scale (SBPS) (Struk et al., 2017), une échelle unidimensionnelle en huit items qui tente de saisir la tendance générale à l’ennui, une expérience d’absence de volonté ou d’incapacité à s’engager dans une activité (Eastwood et al., 2012). Une autoquestion (« Ai-je été persévérant ? ») mesure la persévérance grâce à une échelle de Likert en neuf points (« 1 = J’ai abandonné dès le départ. » ; « 3 = J’ai été peu persévérant.e. » ; « 5 = J’ai fait le minimum nécessaire. » ; « 7 = J’ai été persévérant.e. » ; « 9 = Je me suis investi.e bien au-delà de ce qui m’était demandé. »). Les notes que 204 étudiantes ont accepté que nous utilisions après anonymisation ont servi de mesure pour la variable de performances académiques.

Les coefficients de cohérence interne mesurés pour le SBPS et pour le GSE, ainsi que les moyennes et les écarts-types se trouvent dans le Tableau 3.

Tableau 3

Coefficients de cohérence interne (oméga de McDonald et alpha de Cronbach) des échelles utilisées avec l’échantillon total (n = 223), selon les langues des participantes : français (n = 117) et allemand (n = 106)

Coefficients de cohérence interne (oméga de McDonald et alpha de Cronbach) des échelles utilisées avec l’échantillon total (n = 223), selon les langues des participantes : français (n = 117) et allemand (n = 106)

Note. aSentiment d’auto-efficacité. bPropension générale à l’ennui.

-> Voir la liste des tableaux

Résultats

La validité de construit

Les statistiques descriptives et la fiabilité interne du Climat relationnel des études à distance (CRED)

Le Tableau 4 compile les statistiques descriptives de notre échantillon pour le score total et pour les scores sur chacune des quatre sous-échelles du CRED. Les résultats selon la langue sont reportés en Annexe E. Les scores moyens les plus élevés se trouvent sur la sous-échelle de Personnalisation, autant pour les étudiantes germanophones (20,7 (3,4)) que pour les étudiantes francophones (22,2 (3,1)), puis sur celle de la Satisfaction (20,5 (3,1) et (20,7 (3,3)).

Tableau 4

Statistiques descriptives. Moyennes, déviations standards (écarts-types), kurtosis, skewness (asymétrie) du score total et des quatre sous-échelles du CREDa ainsi que les ω de McDonald et les α de Cronbach comparés avec ceux du CREUb

Statistiques descriptives. Moyennes, déviations standards (écarts-types), kurtosis, skewness (asymétrie) du score total et des quatre sous-échelles du CREDa ainsi que les ω de McDonald et les α de Cronbach comparés avec ceux du CREUb

Note. an = 223, aucune donnée manquante. bn = 278, Genoud (2008) signale que les données manquantes ont été remplacées par la moyenne de l’item, sans en préciser leur nombre. cLa sous-échelle Cohésion a un item de moins que les autres sous-échelles. Les scores bruts ci-dessous sont naturellement plus faibles. dN.D. : non disponible.

-> Voir la liste des tableaux

En compilant les consistances internes, le Tableau 4 permet aussi de comparer les alphas de Cronbach du CRED à ceux du CREU. La consistance interne (oméga de McDonald et alpha de Cronbach) de l’échelle est satisfaisante et supérieure au seuil recommandé de 0,7 pour l’échelle totale (0,877) et les sous-échelles : Personnalisation (0,792), Satisfaction (0,830), Implication (0,883) et Cohésion (0,708).

Les coefficients de corrélation (Tableau 5) entre chaque sous-échelle sont tous significatifs, de taille faible à modérée, compris entre 0,22 et 0,54 ; ceux que Genoud (2008) a mis en évidence s’échelonnaient de 0,31 à 0,56 (voir Annexe F qui présente également les corrélations entre sous-échelles du CREU par langue).

Tableau 5

Coefficients de corrélation entre les quatre sous-échelles du CRED (n = 223) et l’auto-efficacité (GSE), l’ennui (SBPS) et la persévérance (Pers.)a

Coefficients de corrélation entre les quatre sous-échelles du CRED (n = 223) et l’auto-efficacité (GSE), l’ennui (SBPS) et la persévérance (Pers.)a

Note. ap. val < 0,001***, ** < 0,01, * < 0,05; bn = 203 pour les notes obtenues au 1er semestre de bachelor (baccalauréat).

-> Voir la liste des tableaux

Les analyses factorielles confirmatoires des trois modèles

Le Tableau 6 présente les résultats des trois AFC menées avec nos données (n = 223, soit 11,73 sujets/item, ratio supérieur au seuil recommandé de 4) (Pedhazur & Pedhazur-Schmelkin, 1991). La comparaison entre modèles concurrents montre que le troisième modèle (à quatre facteurs corrélés) obtient les meilleurs indices d’ajustement : χ2(146) = 298 (Khi2/dl(146) = 2,04, au-dessous de 3 pour un bon ajustement), p < 0,001 ; TLI = 0,897 ; CFI = 0,912 ; RMSEA = 0,068 ; SRMR = 0,065 ; GFI = 0,87. Deux indices d’ajustement sont légèrement insuffisants : le RMSEA (0,068) est supérieur à 0,05 et le GFI (0,87) est inférieur à 0,90, mais équivalent à celui obtenu par Genoud (2008). Ces indices d’ajustement sont insuffisants dans les sous-versions par langue, en particulier pour la version allemande du CRED (TLI = 0,859 ; CFI = 0,879 ; RMSEA = 0,085 ; GFI = 0,80) (voir Annexe G). Cette détérioration des indices provient en partie de la taille modeste des échantillons (FR = 117 et DE = 108). Enfin, tous les items sont significativement (p < 0,001) liés à leur facteur. Ces éléments corroborent la structure factorielle quadridimensionnelle du CRED.

Tableau 6

Adéquation des modèles d’AFC. Comparaison des indices d’ajustement entre deux modèles et avec les résultats de Genoud (2008)

Adéquation des modèles d’AFC. Comparaison des indices d’ajustement entre deux modèles et avec les résultats de Genoud (2008)

Note. aKhi2/dl(164)=1,61

-> Voir la liste des tableaux

Les coefficients de saturation dont la valeur absolue indique à quel point chaque variable contribue à sa dimension (Roulin, 2018) se trouvent dans le Tableau 7. Les items qui obtiennent les saturations les plus basses sont P2* (0,389) pour la sous-échelle de Personnalisation, C14r (0,407) pour celle de Cohésion, S17 (0,504) pour celle de Satisfaction et I9 (0,545) pour celle de l’Implication.

La validité de critère

Le Tableau 5 montre les corrélations entre les sous-échelles du CRED et les variables d’intérêt retenues dans cette recherche. Le sentiment d’auto-efficacité générale, l’ennui et la persévérance ont des liens avec toutes les sous-échelles du CRED, à l’exception de la sous-échelle de Cohésion qui n’est pas liée au sentiment d’auto-efficacité générale (r = 0,08, p > 0,05). Les associations de critères les plus fortes associent négativement la sous-échelle de Satisfaction à l’ennui (r = -0,41) et associent positivement l’échelle complète avec la persévérance autorapportée (r = 0,34) et la sous-échelle de Personnalisation avec le sentiment d’auto-efficacité générale (r = 0,31). Ces corrélations de taille moyenne, situées entre 0,20 et 0,50 selon Cohen (1988, p. 79-80) suggèrent que les concepts mesurés par le CRED et les variables d’intérêt sont à la fois distincts et significativement associés.

Pour tester l’association entre les sous-échelles du CRED et la performance réelle, nous avons utilisé les notes des participantes (n = 204). Un seul lien significatif mais faible a été trouvé (r = 0,15, p < 0,05) entre les notes et la persévérance autorapportée (Tableau 5). Les autres coefficients de corrélation obtenus sont inférieurs en valeur absolue à 0,11. Ces résultats suggèrent une indépendance entre les résultats obtenus (notes) par les étudiantes dans un contexte entièrement à distance et des dimensions de climat relationnel de classe.

Discussion

La validité de construit

Notre première hypothèse, selon laquelle le CRED (en français et en allemand) conserve les qualités psychométriques du CREU (Genoud, 2008), est réfutée de manière limite puisque le RMSEA (0,068) est au-dessous de la valeur seuil et que le GFI est identique à celui du CREU, mais insuffisant (0,87). Les résultats de l’analyse factorielle corroborent la structure quadridimensionnelle du CRED et, celle du CREU dont il est inspiré. Le modèle prévoyant l’interdépendance entre sous-échelles a obtenu les meilleures qualités psychométriques conformément aux affirmations de recherches précédentes (Bennacer et al, 2006 ; Janosz et al., 1998). Les consistances internes des quatre échelles du CRED sont satisfaisantes, autant en français qu’en allemand (voir aussi l’Annexe E). Une étude de réplication permettrait de préciser la qualité des indices d’ajustement. Une recherche complémentaire pourrait approcher la mesure de la fidélité des scores par une méthode d’équivalence ou une méthode de stabilité.

Tableau 7

Coefficients de saturation de l’AFC du modèle à quatre facteurs corrélés

Coefficients de saturation de l’AFC du modèle à quatre facteurs corrélés

Note. Chaque item est codé avec la lettre de sa sous-dimension et une numérotation allant de 1 à 19. Un * s’ajoute aux items inversés. Par exemple, l’item inversé de la sous-échelle de Cohésion, Co14*, est le 14e de l’échelle totale. Voir Tableau 2 pour la liste des items.

-> Voir la liste des tableaux

La validité de critère

La seconde hypothèse avance que les scores au CRED ont des liens significatifs positifs avec la persévérance, le sentiment d’auto-efficacité et les performances académiques (notes), mais négatifs avec l’ennui. Elle se trouve consolidée pour la persévérance, le sentiment d’auto-efficacité et l’ennui, mais rejetée pour les performances académiques.

De plus, trois des quatre sous-échelles (Personnalisation, Satisfaction et Implication) corrèlent positivement (p < 0,001) avec le sentiment d’auto-efficacité mesuré par le GSE. Ce résultat est conforme à de rares résultats antérieurs (Goffin et al., 2013 ; Jungert & Rosander, 2010) et plaide en faveur de l’appel toujours actuel de Lorsbach et Jinks (1999) d’examiner les liens entre auto-efficacité et environnement d’apprentissage afin d’améliorer ces derniers. D’un point de vue pédagogique, il est intéressant de remarquer que la dimension Personnalisation du climat relationnel est celle qui corrèle le plus (r = 0,307) avec le sentiment d’auto-efficacité. Ce résultat fait écho à la robuste théorie de l’autodétermination de Deci et Ryan (2012) associant le sentiment de liberté (autonomie) à la motivation intrinsèque, au sentiment de compétence (auto-efficacité) et à la proximité sociale (un cocktail de relations saines et de personnalisation). En effet, selon Deci et Ryan, un cadre marqué par la personnalisation ou par l’autonomie (la possibilité de choisir en respectant ses valeurs, le sentiment d’agir de son plein gré) se caractérise précisément par des niveaux accrus d’implication, de satisfaction et de persévérance (Sarrazin et al., 2011). Cette théorie est bien illustrée par la corrélation trouvée entre les scores de Personnalisation et de Satisfaction (r = 0,544, p < 0,001).

La propension à l’ennui mesurée par le SBPS corrèle négativement avec toutes les échelles du CRED, ce qui renforce l’idée selon laquelle la qualité du climat de classe est inversement associée à l’ennui (Goetz & Hall, 2014 ; La Marca & Longo, 2017 ; Weinerman & Kenner, 2016). Plus précisément, les liens significatifs et négatifs entre l’ennui et le sentiment d’auto-efficacité (r = -0,369, p < 0,001) pourraient faire écho à l’intuition de Danckert et al. (2018) qui affirment que les personnes ayant un fort sentiment d’auto-efficacité ne déclareraient pas ressentir d’ennui, parce qu’elles ne sont pas perturbées dans la poursuite de leurs objectifs. Une explication possible à ce lien serait le fait que la propension à l’ennui augmente s’il faut investir beaucoup d’efforts dans une activité pour laquelle la personne ne se sent pas capable (Inzlicht et al, 2018). Kurzban et al. (2013) l’expliquent par les représentations mentales des coûts et des avantages associés à la réalisation d’une tâche. En articulant ces notions théoriques au lien négatif particulièrement élevé entre la dimension de Satisfaction du CRED et l’ennui (r = -0,410, p < 0,001), on pourrait imaginer qu’une étudiante sujette à l’ennui pourrait percevoir davantage de coûts associés aux tâches académiques et se trouver, par conséquent, moins satisfaite du climat relationnel de sa classe.

En outre, les liens négatifs entre l’ennui et la persévérance (r = -0,285, p < 0,001) peuvent illustrer l’idée de Breidenstein (2007) selon laquelle l’ennui implique nécessairement un détachement qui se traduirait dans le contexte éducatif aux niveaux des contenus, de la relation avec l’enseignant et de la relation avec les autres étudiantes. Or, en enseignement à distance, le manque d’interactions des étudiantes avec les enseignants et les autres étudiantes expliquerait une partie des mauvais résultats académiques (Bouhnik & Marcus, 2006). Ces éléments qui suggèrent l’existence d’un cercle vicieux entre l’ennui, le détachement et le climat de classe invitent à davantage étudier l’ennui dans le contexte de l’enseignement. Par exemple, il serait intéressant de mener une recherche vérifiant l’hypothèse de Martarelli et al. (2021) selon laquelle l’ennui pourrait diminuer quand augmente l’individualisation de l’apprentissage à distance.

Par ailleurs, les échelles retenues dans le CRED (et le CREU) afin de mesurer le climat de classe pourraient être utiles puisqu’elles corrèlent positivement ([0,162-0,307]) avec la persévérance autorapportée, une variable affective plébiscitée dans un grand nombre d’études sur l’enseignement (Anderson & Walberg, 1974 ; Baker et al., 2001 ; Fraser & Fisher, 1982 ; Haertel et al., 1983 ; Lial, 2019 ; Pittman & Haughwout, 1987).

Enfin, l’absence de lien entre performances académiques (les notes) et CRED s’inscrit dans un contexte d’inconsistance de la recherche à ce sujet. Certaines études ont révélé des liens significatifs entre le climat de classe et les performances (Wolters, 2014), d’autres une absence de lien (Anderman & Midgley, 1997) voire des liens négatifs (Murdock et al., 2001). Cette inconsistance s’explique parce que la plupart des études ne contrôlent pas la difficulté des tâches évaluées (Sarrazin et al., 2006) et par l’existence d’un biais d’attribution quand les notes sont données par l’enseignant (Genoud, 2004). Dans notre étude, toute comparaison est délicate parce que les méthodes et les sujets d’évaluation ont largement différé d’un enseignant à l’autre (examens écrits, oraux contrôles continus).

En somme, si la validité de construit (voir plus loin) du CRED a été partiellement corroborée, ses analyses de critère en ont renforcé l’intérêt opérationnel (Mortillaro & Bourgeois, 2021). L’utilisation du CRED peut apporter des informations qu’il est nécessaire de nuancer et de discuter, mais elle ne permet pas de piloter des décisions institutionnelles. C’est pourquoi, il est important d’insister sur les limites de cette recherche.

Limites et conclusion

Cette recherche comporte des limites qui peuvent être attribuables à des contraintes de temps, à la méthode ou à la complexité liée à un échantillon bilingue. Chacune de ces limites offre des perspectives en vue de recherches futures.

Premièrement, en sus des limites évoquées dans la discussion, cette recherche n’a pas mesuré la stabilité des scores (test-retest) et n’a pas pu comparer les résultats au CRED à ceux qui seraient obtenus avec une échelle du climat de classe déjà validée. Une telle comparaison apporterait des éléments précieux afin de préciser la validité de critère du CRED. Deuxièmement, une recherche corrélationnelle ne fournit aucune information concernant d’éventuelles influences à la suite d’une modification du climat de classe sur une variable d’intérêt (à savoir, la persévérance, la performance).

Troisièmement, en exploitant pour la distance les quatre sous-échelles du CREU conçues pour la présence, le CRED s’est particulièrement exposé à des limites avec la sous-échelle de Cohésion qui devrait être remaniée et enrichie lors d’une recherche future. Dans le cas présent, la rareté des contacts entre étudiantes s’est reflétée dans les faibles scores obtenus sur cette dimension. Leurs scores de Satisfaction ayant été, malgré tout, élevés, nous pensons que les adultes étudiant à distance et à temps partiel ont moins d’attentes et de besoin de cohésion au sein du groupe classe que des étudiants en contexte traditionnel. Cette dimension est peut-être peu pertinente dans ce contexte.

À ce sujet et quatrièmement, il est important de rappeler que les étudiantes de cette étude sont considérées comme non traditionnelles (Sandler, 2000) parce qu’elles ont une moyenne d’âge plus élevée et une occupation professionnelle ou familiale conséquente. Ainsi, ce travail interdit toute interprétation hâtive, ne permet pas de comparer cet échantillon avec celui des étudiantes traditionnelles, ni d’attribuer des parts de variance des scores obtenus sur les sous-échelles du CRED aux équipes enseignantes, aux méthodes d’enseignement ou aux caractéristiques des étudiantes. Les étudiantes à distance de cette recherche peuvent être dites « non captives » (Cisel, 2015) de l’université parce qu’elles conservent une pleine liberté quant à leur emploi du temps ou de leur espace.

Enfin, les équipes enseignantes représentent les grandes absentes de cette étude, alors qu’elles modulent fortement de nombreux aspects du climat de classe (Felouzis, 1997 ; Sarrazin et al., 2006). De futures recherches devraient croiser les perceptions des professeurs à celles des étudiantes, avec, si possible, une approche longitudinale comme l’évoquent Busugutsala (1998) et Zhao et al. (2005).

Au-delà de ces limites, le climat de classe, comme l’apprentissage, reste un processus dynamique complexe (Busugutsala, 1998) et une question multidimensionnelle ardue. Chaque établissement, chaque classe possède un climat qui lui est propre et interagissant avec le comportement de ses membres (Desbiens et al., 2014). Il est improbable que des recherches parviennent un jour à montrer qu’un processus mécanique reproductible puisse améliorer et maintenir la qualité d’un climat de classe en appliquant quelques techniques, ne serait-ce qu’en raison des effets modérateurs exercés par les caractéristiques de chaque élève sur le climat perçu (Janosz et al., 1998). Ceci ne signifie pas qu’il faille renoncer à toute volonté d’amélioration. Cette conclusion invite à pratiquer un enseignement (à distance) qui ne bascule ni dans une addition de gestes techniques inféconds, ni dans une préoccupation démesurée du bien-être de chacun (Meirieu, 1987, 2007 ; Reboul, 1989).