Corps de l’article

Introduction

Les fonctions exécutives (FE) représentent un important prédicteur du développement, des apprentissages et de la réussite éducative de l’enfant d’âge préscolaire (3-6 ans), (Ribner et al., 2017). Plus précisément, des travaux ont montré que le niveau de FE mesuré à l’éducation préscolaire permettait de prédire les habiletés de l’enfant en mathématiques et en lecture (Mulcahy et al., 2021), en plus d’être relié à son développement langagier (Foy & Mann, 2012) et à son fonctionnement cognitif en général (Blair & Razza, 2007).

L’âge préscolaire représente un moment clé pour reconnaitre et soutenir les habiletés de FE qui sont en pleine progression (Carlson, 2005 ; Duval et al., 2018), en raison de la maturation accélérée des aires cérébrales qui les supportent (Kovács & Mehler, 2009). Compte tenu de leur rôle central dans la réussite éducative de l’enfant et de l’accroissement rapide des composantes qui y sont liées (p. ex. l’inhibition) à l’âge préscolaire, il apparaît essentiel de se questionner sur les outils qui mesurent les FE à ce moment charnière du développement.

Les outils de mesure des FE à l’âge préscolaire

Selon une récente revue systématique des écrits ayant pour objectif de répertorier les outils disponibles pour mesurer les FE et leurs composantes chez des enfants d’âge préscolaire (Silva et al., 2022), la mesure rapportée Behavior Rating Inventory of Executive Function (BRIEF-P) (Gioia et al., 2002) et les tâches standardisées, par exemple les échelles de Wechsler (2003), représentent les instruments les plus souvent utilisés par les chercheurs.

L’utilisation de ces outils présente par ailleurs des limites. Par exemple, l’utilisation d’une mesure rapportée (p. ex. un questionnaire) remplie par le parent de l’enfant ou par le personnel enseignant peut amener des biais de perception. De plus, des facteurs comme le type de langage utilisé par la personne évaluatrice, sa relation plus ou moins proximale avec l’enfant (Denckla, 2002), de même que ses représentations et ses attentes à l’égard de ce dernier peuvent influencer les résultats (Silva et al., 2022).

De surcroît, des limites sont observées quant à l’utilisation de tâches standardisées, qui sont pourtant encore considérées comme la méthode d’évaluation de référence (Zelazo et al., 2016). Ces tâches sont le plus souvent réalisées en laboratoire entre un expérimentateur et un enfant, sur un ordinateur ou sur une tablette électronique. Par exemple, il peut s’agir d’un test de mémoire où l’on demande à l’enfant de répéter à l’envers une série de chiffres (Backward Digit Span) (Davis & Pratt, 1995). Lors de ces tâches, il est possible d’attribuer un score de performance à l’égard des FE de l’enfant, mais les comportements observés sont difficilement transférables et généralisables aux situations vécues au quotidien, comme en contextes éducatifs de la petite enfance.

Ainsi, plusieurs chercheurs et chercheuses (Anderson & Reidy, 2012 ; McClelland & Cameron, 2012) sont d’avis que le contexte dans lequel l’enfant est placé lors de tâches standardisées, c’est-à-dire dans un environnement exempt d’interférences et en présence d’une personne souvent inconnue, n’est pas représentatif des situations réelles qu’il vit en contexte naturel. À titre illustratif, un enfant qui démontre une bonne capacité à inhiber dans une tâche de laboratoire peut avoir de la difficulté à inhiber un comportement similaire en contexte éducatif, en présence de plusieurs autres enfants et de distractions (McClelland & Cameron, 2012). Pour ces raisons, Anderson et Reidy (2012) soutiennent que les mesures standardisées ont une faible validité écologique, d’où l’importance de créer un instrument qui mesure les FE de l’enfant dans des situations naturelles.

De plus, les chercheurs ont montré la prédominance de l’utilisation de tâches individuelles qui évaluent une seule composante des FE de manière isolée, l’habilité d’inhibition étant la plus souvent mesurée (Silva et al., 2022). D’ailleurs, il n’existe que très peu d’outils de mesure globale des FE à l’âge préscolaire (Blair et al., 2005), ce qui oblige les chercheurs à utiliser plusieurs outils ou plusieurs tâches pour obtenir un portrait global des FE des jeunes enfants.

Enfin, la comparaison des données avec les outils existants (mesures rapportées et tâches standardisées axées sur la performance) montre une divergence entre les résultats obtenus (Toplak et al., 2013 ; Young et al., 2017), ce qui amène à penser qu’ils ne mesurent pas les mêmes construits. De même, bien qu’ils présentent des avantages (p. ex. la validité éprouvée), les outils existants ne suffisent pas à rendre compte des habiletés de l’enfant dans un contexte naturel, comme en services de garde éducatifs à l’enfance ou en classe d'éducation préscolaire. Sans les discréditer, il semble essentiel de se questionner sur les instruments qui mesurent les composantes des FE de façon écologique, afin de pouvoir brosser un portrait des habiletés que l’enfant peut déployer dans des situations naturelles, tel qu’en contextes éducatifs de la petite enfance.

Des chercheurs insistent sur l’importance de miser sur la création d’un instrument pour examiner les FE en contexte écologique (Cadavid-Ruiz & del Río, 2018 ; Escolano-Pérez et al., 2017 ; Nieto et al., 2016 ; Willoughby et al., 2016), afin de mieux les reconnaitre et de comprendre comment elles se déploient et comment elles peuvent être soutenues en contextes éducatifs. L’observation directe représente une piste prometteuse pour examiner les FE, car elle permet d’étudier les comportements naturels et spontanés de l’enfant en misant sur les processus qui sont déployés dans la situation observée (et non sur les résultats) (Bakeman & Quera, 2012).

L’observation et la mesure écologique des FE

Selon Doebel (2020), le fait de comprendre de quelle manière les habiletés de FE se développent et peuvent être soutenues nécessite d’abord de les reconnaitre, compte tenu du fait qu’elles sont toujours manifestées pour répondre à un objectif précis, que ce soit en laboratoire ou lors de situations naturelles. En effet, les objectifs que l’enfant souhaite atteindre activent un contenu mental qui façonne la manière dont il mobilise ses habiletés par rapport à une situation particulière, par exemple dans le cadre du jeu, en présence d’autres enfants et d’interférences (distractions sonores et/ou visuelles, etc.). Ainsi, il parait indispensable d’observer les habiletés de FE en contexte naturel (Isquith et al., 2004), dans des situations qui permettent à l’adulte d’examiner les manifestations comportementales des enfants (Duval et al., 2018). Le fait de reconnaitre globalement les habiletés de l’enfant à l’égard des FE dès la fréquentation d’un contexte éducatif de la petite enfance, comme une classe d’éducation préscolaire, permettrait de mieux caractériser sa trajectoire développementale et d’identifier des moyens de le soutenir. 

Pour ce faire, Cadavid-Ruiz et del Río (2018) proposent de miser sur la création de nouveaux outils, comme une grille d’observation directe, pour mesurer les FE de l’enfant de façon écologique. En effet, il existe peu de données sur la manière dont les processus mentaux associés aux FE peuvent être observés en contextes éducatifs de la petite enfance (Duval et al., 2023). Le développement d’une telle mesure s’avère complexe, puisqu’il puisqu’il faut réaliser plusieurs étapes afin que la grille d’observation puisse fournir des informations valides et fiables sur un sujet d’étude.

Selon Lynn (1986), chercheuse éminente dans le champ de la validité de contenu (Haidari & Uzun, 2019), deux phases sont nécessaires pour développer une nouvelle mesure : a) la phase de développement, qui permet de conceptualiser les attributs du concept à documenter en fonction des connaissances disponibles sur le sujet, puis b) la phase d’appréciation-quantification, qui consiste à réaliser une validation du contenu grâce à la consultation d’un comité d’experts. Cette étape est cruciale puisqu’elle permet de s’assurer qu’un outil recueille bel et bien une information adéquate et complète de l’attribut ou du phénomène à documenter (Corbière & Fraccaroli, 2014 ; Streiner et al., 2014).

Afin de mener la deuxième phase proposée par Lynn (1986), de plus en plus de chercheurs suggèrent de miser sur la méthode Delphi, une procédure de recherche utilisée pour parvenir à une opinion ou à une décision de groupe en interrogeant un panel d’experts (Sablatzky, 2022). Autrement dit, cette méthode réunit un panel d’experts autour d’un objet commun, afin d’obtenir un consensus au sujet de celui-ci. Ce processus repose sur l’idée que les réponses collectives apportent davantage de richesse à une question ou à un objet d’étude en comparaison aux réponses individuelles (Sablatzky, 2022). Développée dans les années 1950 et 1960 par la RAND Corporation, la méthode Delphi a été utilisée dans de nombreux domaines, notamment en économie et en santé (Ciptono et al., 2019 ; Parrish & Sandera, 2022). Toutefois, peu d’études en éducation ont utilisé cette méthode de recherche, encore moins dans les travaux en petite enfance.

Est-il possible de penser que la validation de contenu d’une grille d’observation des FE nouvellement développée puisse constituer un instrument complémentaire aux mesures existantes destinées aux enfants d’âge préscolaire ? Considérant l’importance de reconnaitre comment et quand les FE de l’enfant sont naturellement mobilisées en contexte écologique, cette étude propose d’étudier cette question, en validant le contenu d’une grille d’observation directe permettant d’évaluer les habiletés de FE des enfants en contextes éducatifs de la petite enfance.

Cadre théorique

Les composantes des fonctions exécutives

Les FE peuvent être définies comme des processus cognitifs d’ordre supérieur, découlant de façon importante d’une activité dans le cortex préfrontal (Barros & Hazin, 2013). Les FE, qui s’avèrent essentielles pour l’exécution et le suivi de plusieurs comportements axés sur des objectifs (Barros et al., 2016 ; Silva et al., 2022), sont généralement regroupées en trois principales composantes : l’inhibition, la mémoire de travail [MdT] et la flexibilité cognitive (Miyake et al., 2000 ; Wiebe et al., 2011).

L’inhibition renvoie au contrôle intentionnel des émotions (p. ex. régulation des émotions), des comportements (p. ex. autocontrôle, minutie) et des pensées (p. ex. attention, concentration, pensées intrusives). Grâce à elle, l’enfant peut mettre de côté les distractions et se centrer sur la situation en cours (Diamond, 2013). La MdT représente la capacité de l’enfant à stocker, à mettre à jour et à récupérer des informations dans sa mémoire afin de les utiliser de manière appropriée, selon un objectif précis (Kazemi & Mohammadi, 2019 ; Willoughby et al., 2016). Elle lui permet ainsi de raisonner, d’analyser et de combiner différentes informations, en plus de faire des rappels, de comparer différentes alternatives et d’élaborer des plans (Kazemi & Mohammadi, 2019 ; Silva et al., 2022). Enfin, la flexibilité cognitive permet à l’enfant de changer de perspective (Diamond, 2013), d’alterner son attention d’une tâche à une autre (Fleer et al., 2017 ; Willoughby et al., 2016) et de modifier une réponse en fonction du contexte (Davidson et al., 2006).

À ces trois principales composantes s’ajoutent des habiletés plus complexes, telles que la planification (Diamond, 2013 ; Nigg, 2017). La capacité à planifier, qui est fortement encouragée pendant l’éducation préscolaire (Ministère de l’Éducation, 2021), peut être décrite comme la manière de prédire et d’évaluer ses comportements ainsi que de constituer et de coordonner une séquence d’actions afin d’atteindre un but précis (Bjorklund & Causey, 2018).

La validité de contenu d’un instrument de mesure

La validité de contenu désigne le degré auquel l’outil et ses composantes sont représentatifs du construit mesuré (Zamanzadeh et al., 2015). Pour ce faire, Rusticus (2014) soulève le fait que tous les éléments de l’instrument (manuel de cotation, items, grille de cotation) susceptibles d’avoir un effet sur les résultats et les interprétations doivent être soumis à une validation du contenu, le plus souvent auprès d’un comité d’experts. 

Trois aspects sont à considérer afin d’assurer la validité de contenu d’un instrument : 1) la définition du construit à l’étude, 2) la représentation de ce dernier et 3) sa pertinence (Laveault & Grégoire, 2014 ; Sireci, 1998). Le premier aspect, soit la définition, fait référence aux définitions conceptuelles et opérationnelles du construit, ce qui permet notamment de préciser les items à mesurer. La représentation et la pertinence font référence au degré selon lequel l’instrument (dans son ensemble) mesure le construit (tel que défini dans le premier aspect) et à la pertinence des items par rapport au contenu à l’étude. La validité de contenu est compromise dans la mesure où : 1) l’instrument n’examine pas tous les items du construit ciblé, 2) il mesure les items du construit de manière disproportionnée ou 3) il mesure des items qui se trouvent en dehors du construit ciblé (Haynes et al., 1995 ; Laveault & Grégoire, 2014 ; Rubio et al., 2003).

Il est essentiel de tenir compte de ces trois aspects dans le développement de l’outil de mesure, toujours dans l’idée d’assurer la validité de son contenu. Après la phase de développement de l’outil, Lynn (1986) suggère la phase d’appréciation-quantification, également recommandée par plusieurs chercheurs (Yusoff, 2019). Différentes méthodes tiennent compte de cette phase, dont la consultation d’un panel d’experts, contribuant à une version satisfaisante et consensuelle d’un outil d’évaluation (Colquitt et al., 2019 ; Polit et al., 2007). La méthode Delphi peut être appliquée dans cette phase de conception d’un nouvel instrument.

La méthode Delphi pour mesurer et améliorer la validité de contenu

La méthode Delphi permet de consulter, de manière individuelle, simultanée et sous le couvert de l’anonymat, un panel d’experts au sujet d’un même objet, concept ou problème (Ekionea et al., 2011 ; Parrish & Sandera, 2022). Elle vise principalement à : a) atteindre systématiquement un consensus entre les experts du panel, b) prendre des décisions sur les composantes d’un instrument à partir des données recueillies (Hohmann et al., 2018), c) apporter des modifications pour bonifier un instrument, ce qui a pour effet d’améliorer la validité de contenu d’un outil (Rusticus, 2014).

Initialement, la conception conventionnelle de la méthode Delphi comportait au moins quatre cycles (ou tours) d’évaluation de la part d’un panel d’experts. Cependant, l’essence d’une bonne enquête Delphi réside dans un processus itératif et dans un feedback contrôlé pour générer un consensus. Ainsi, dans les travaux récents, les critères de clôture de la plupart des études qui utilisent la méthode Delphi incluent « […] le consensus obtenu après un cycle préfixé », c’est-à-dire généralement deux tours d’évaluation (Nasa et al., 2021). Pour leur part, pour améliorer le consensus, Holey et al. (2007) recommandent un certain nombre de tours puisque les participants peuvent encore changer d’avis au troisième tour. Ils ont observé qu’en trois tours, il y avait généralement une augmentation du pourcentage d’accords entre les experts (Holey et al., 2007).

Quelle que soit la décision des chercheurs sur le nombre de tours qu’ils souhaitent réaliser dans leur étude, il faut suivre une séquence prédéterminée à l’intérieur de ceux-ci (Berquez et al. 2011) :

  1. D’abord, les experts sont invités à se prononcer sur une première version de l’instrument de mesure ; leurs commentaires sont ensuite analysés de manière qualitative et quantitative (Ekionea et al., 2011).

  2. À la suite des premières analyses, des modifications tenant compte des commentaires des experts sont apportées à l’outil de mesure, en considérant les divergences dans leurs évaluations.

  3. Un rapport présentant toutes les modifications effectuées à l’outil de mesure est ensuite transmis au panel d’experts, en plus d’une nouvelle version de l’instrument.

  4. Les experts sont alors invités à prendre connaissance du rapport et à évaluer la nouvelle version de l’outil, selon la même procédure qu’au premier tour d’évaluation (et ainsi de suite).

En conclusion, la méthode Delphi ne prescrit pas un nombre de tours à réaliser. Elle ne dicte pas non plus le nombre de participants à recruter, ni le degré de consensus à atteindre. Les chercheurs doivent donc adapter la méthode Delphi à leur étude particulière et identifier les avantages et les inconvénients potentiels des choix établis (Keeney et al., 2006).

L’objectif de la recherche

L’objectif de cette recherche, qui est la première étape d’un projet de validation plus large (Duval et al., 2020-2023), vise à évaluer et à améliorer la validité de contenu d’un outil d’observation nouvellement développé, à l’aide de la méthode Delphi. Ainsi, le présent article poursuit un double objectif : 1) présenter la validation d’un outil de recherche et 2) aborder l’utilisation de la méthode Delphi.

Méthodologie

Conformément aux phases suggérées par Lynn (1986) dans le processus de validation de contenu, la phase de développement implique d’abord d’identifier et de circonscrire les attributs à évaluer (étape 1), ce qui implique de s’attarder à la définition et à la conceptualisation des items que l’outil dit évaluer (Désormeaux-Moreau et al., 2020). Pour ce faire, il est nécessaire de procéder à une recension des écrits scientifiques et des modèles sous-jacents aux outils qui existent déjà dans le domaine (Désormeaux-Moreau et al., 2020). Cette première étape a permis de développer un outil d’observation des FE chez l’enfant âgé de 3 à 6 ans en contextes éducatifs de la petite enfance (Duval & Montminy, 2021). Tel que le montre la figure 1, cet outil comporte quatre composantes et 10 sous-composantes, qui ont été définies en cohérence avec le cadre théorique présenté plus haut.

Figure 1

Composantes et sous-composantes de la grille d’observation

Composantes et sous-composantes de la grille d’observation

-> Voir la liste des figures

Après la phase de développement vient celle d’appréciation-quantification qui sert à évaluer la pertinence de l’outil et qui se fait en consultant des experts. Ces deux phases doivent s’inscrire dans une séquence qui comporte un aspect itératif afin que les données issues de la phase d’appréciation-quantification alimentent et améliorent le développement de l’outil (Désormeaux-Moreau et al., 2020).

Cet article présente brièvement la phase de développement en décrivant les composantes et les sous-composantes de l’outil, mais aborde surtout la phase d’appréciation-quantification, en explicitant la méthode Delphi qui a été utilisée. L’application de cette méthode, qui a contribué à préciser les informations sur la définition, sur la représentativité et sur la pertinence des items composant la grille d’observation des FE, a permis d’améliorer l’instrument de mesure nouvellement développé à l’aide des commentaires d’un panel d’experts. Les sections suivantes décrivent plus précisément l’application de la méthode Delphi, en commençant par la présentation des participants, puis en exposant le protocole utilisé et les analyses réalisées.

Les participants 

Un expert peut être défini comme une « personne informée », un « spécialiste dans le domaine » ou « quelqu’un qui a des connaissances sur un sujet spécifique » (Goodman, 1987 ; Keeney et al., 2001). Il est essentiel de choisir soigneusement les personnes qui composent le panel d’experts, puisque leurs perspectives et leurs opinions influencent largement les résultats de l’étude (Powell et al., 2021). Pour faire cela, il importe d’abord d’établir les critères de sélection du panel, conformément à d’autres travaux qui ont utilisé la méthode Delphi (Bahadir & Tuncer, 2020 ; Ekionea et al., 2011).

Dans ce projet de recherche, trois critères ont servi à sélectionner les experts, qui ont par ailleurs librement consenti à participer à l’étude :

  1. Ils devaient avoir publié dans les champs du développement cognitif et des FE en petite enfance ;

  2. Ils ne devaient pas avoir collaboré avec les chercheuses de la présente étude ;

  3. Ils ne devaient pas avoir travaillé sur le développement ou la validation d’une grille d’observation des FE auparavant

Il faut ensuite définir le nombre d’experts requis avant d’entreprendre leur recrutement. Selon Lynn (1986), le nombre d’experts nécessaires pour valider le contenu d’un instrument ne devrait pas être inférieur à trois, et le fait de constituer un panel d’au moins cinq experts évite l’apparition de problèmes d’accord fortuit (Lynn, 1986). De façon similaire, d’autres chercheurs (Hoyt et al., 2020) considèrent qu’un panel comptant entre trois et dix experts est idéal. Pour cette étude, un panel de cinq experts a été formé, afin de recueillir des avis différents et complémentaires sur toutes les composantes des FE. Puis, il a fallu recruter les experts et leur transmettre les informations sur le projet. Ils ont été conviés au début de l’automne 2019, via une lettre électronique comportant la présentation du projet, ses objectifs et la nature de l’implication demandée.

Les experts intéressés par le projet ont rempli un formulaire de consentement approuvé au préalable par le comité d’éthique de l’université d’attache de la chercheuse principale. Puis, une rencontre virtuelle a eu lieu à l’hiver 2020, notamment pour définir le rôle de chaque personne, clarifier la démarche et les échéanciers et présenter le canal de communication.

L’outil d’observation à valider

L’instrument de mesure à valider, titré Grille d’observation des FE des enfants âgés entre 3 et 6 ans en contextes éducatifs de la petite enfance (Duval & Montminy, 2021), était initialement composé de quatre composantes, subdivisées en 10 sous-composantes (voir la figure 1 présentée plus haut), puis en 27 items décrivant de manière plus fine ces composantes (voir le tableau 2 présenté plus loin). Le panel a été invité à commenter l’ensemble du Manuel de l’observatrice ou de l’observateur (Duval & Montminy, 2021) à l’intérieur duquel s’inscrivait l’outil. Ce manuel comporte six sections :

  1. L’introduction

  2. Le construit théorique des FE

    • Les composantes des FE : l’inhibition, la mémoire de travail, la flexibilité cognitive, la planification

  3. Les mesures existantes (mesures administrées, mesures rapportées)

    • Les avantages et les limites

    • La pertinence de concevoir une mesure d’observation

    La définition, la description et les items à observer (avec des exemples pour chaque item ; n = 27)

  4. La procédure de cotation

  5. La feuille de cotation.

Les experts ont d’abord analysé la pertinence théorique et la structure globale de l’instrument de mesure. Puis, après avoir examiné et hiérarchisé tous leurs commentaires, l’équipe de recherche a effectué les modifications requises. Elle a ensuite invité les experts à évaluer plus finement la section intitulée « La définition, la description et les items à observer » (le coeur de l’outil), selon la démarche explicitée ici-bas.

L’application de la méthode Delphi pour valider l’outil d’observation

Holey et al. (2007) suggèrent de mener trois tours d’évaluation afin d’augmenter le pourcentage d’accord entre les experts et, ainsi, améliorer le consensus. Cette manière de faire, appliquée par plusieurs autres chercheurs (Berquez et al. 2011 ; Holey et al., 2007 ; Parrish & Sandera, 2020), est celle qui a été retenue dans cette étude (voir la figure 2).

Figure 2

Les tours de la méthode Delphi

Les tours de la méthode Delphi

-> Voir la liste des figures

Comme l’illustre la figure 2, trois tours ont été réalisés. Chaque tour de la méthode Delphi était composé de différentes étapes soit a) l’évaluation de l’outil par les experts, b) l’analyse qualitative des commentaires et l’analyse quantitative des scores accordés aux items de l’outil, c) la modification de l’outil, puis d) la rédaction d’un rapport expliquant aux experts les modifications apportées. Les paragraphes qui suivent explicitent l’application de ces étapes qui permet de dégager un consensus entre les experts.

L’évaluation de l’outil d’observation des FE

Pour chaque tour, les experts ont été invités à réaliser une double tâche d’évaluation : 1) analyser la pertinence théorique globale et la structure de l’outil, en commentant le manuel de cotation et 2) évaluer la pertinence des composantes/sous-composantes/marqueurs comportementaux en attribuant un score sur une échelle en cinq points allant d’atypique (1 = ne représente pas du tout le concept) à typique (5 = représente parfaitement le concept). Cette échelle partagée et utilisée par les experts se présente comme suit :

  • 1 = en désaccord - l’indicateur ne représente pas du tout le concept

  • 2 = plutôt en désaccord

  • 3 = ni en accord ni en désaccord

  • 4 = plutôt en accord

  • 5 = en accord - l’indicateur représente tout à fait le concept.

Ils ont ensuite commenté chacune des sections de l’outil et remis une copie cotée et commentée de l’outil d’observation. Pour préserver leur anonymat tel que le requiert la méthode Delphi (Parrish & Sandera, 2020), une auxiliaire de recherche a anonymisé les copies reçues, en attribuant un numéro à chaque expert (expert 1, expert 2, etc.). Elle a ensuite transmis les grilles commentées et anonymisées à une autre auxiliaire qui a analysé les données anonymisées recueillies et collaboré à la production d’un rapport.

L’analyse par l’équipe de recherche

La validation de contenu, un processus tant qualitatif que quantitatif (Rusticus, 2014), vise à minimiser la variance d’erreur potentielle (sous-représentation, surreprésentation, mauvaise représentation) associée à l’instrument et à augmenter la probabilité de recueillir des preuves de la validité dans des études ultérieures (Haynes et al., 1995 ; Rubio et al., 2003). À cette fin, l’équipe de recherche a réalisé des analyses qualitatives et quantitatives à chacun des tours. Elle a tout d’abord effectué une analyse de contenu pour chaque section du manuel de l’observateur, à l’aide du logiciel MaxQDA. Ce logiciel d’analyse qualitative sert à regrouper des ensembles de données selon un processus de tri, de manière à hiérarchiser les énoncés par ordre de priorité, à les structurer et à les analyser selon une approche analytique spécifique (Creswell & Poth, 2017). Ainsi, l’analyse des commentaires a permis de coder les données de manière systématique selon des thèmes (« codes »), de noter des idées et de faire des associations. 

Puis, afin d’examiner le niveau d’accord entre les experts (en tenant compte de leurs commentaires et des scores attribués aux items), des analyses descriptives ont été réalisées pour chaque item[1] de l’outil, à l’aide du logiciel Excel. Selon Waltz et al. (2017), il y a accord lorsque la valeur est égale ou supérieure à 0,80. Ainsi, les items ayant obtenu un accord de 0,80 et plus ont été conservés sans modification. L’utilisation d’un coefficient de kappa est conforme à d’autres travaux ayant utilisé la méthode Delphi (Holey et al., 2007). À chaque tour, des modifications tenant compte des divergences entre les données ont été apportées à l’outil, et ce, tant au niveau de sa structure que des items qui le composent. Ainsi, en conformité avec la méthode Delphi, toutes les décisions quant à l’outil de mesure ont été prises en tenant compte des divergences entre les experts (Ekionea et al., 2011). Après le troisième tour, seuls les items ayant un accord interjuges satisfaisant (égal ou supérieur à 0,80) ont été conservés dans la version validée de la grille.

Enfin, à chaque tour, l’équipe a produit un rapport présentant l’ensemble des modifications apportées à la grille, qui ont été faites grâce aux commentaires des experts. De façon plus précise, les rapports (n = 3) présentaient les modifications apportées : a) au manuel de l’observateur (procédure de cotation) et b) aux composantes/sous-composantes/indicateurs de la grille d’observation. Ainsi, les experts étaient invités à considérer les évaluations des pairs et à prendre connaissance des changements effectués par l’équipe de recherche (rapport des modifications et nouvelle grille d’observation) à chaque tour, afin de s’investir dans un nouveau cycle d’évaluation. Pour mieux comprendre les changements effectués, la section suivante présente les résultats des analyses (qualitatives et quantitatives), au regard de la méthode Delphi mise en place qui a mené à une grille validée et à un rapport final.

Résultats

Initialement, l’outil d’observation présentait quatre composantes des FE, 10 sous-composantes et 27 items (voir le tableau 1). À la fin des tours d’évaluation, la structure de l’outil d’observation a été modifiée, passant de 27 à 22 items. La structure finale de l’outil est présentée en conclusion de cette section. Focalisant sur la phase d’appréciation-quantification du processus de validation de contenu (Lynn, 1986), la présentation des résultats s’oriente sur les évaluations des experts, en dégageant les données découlant des analyses qualitatives et quantitatives menées à chacun des tours.

Le tour 1. Les analyses qualitatives

À chaque tour, les commentaires des experts ont été classés selon leur valence « plutôt positive », « neutre » et « plutôt négative ». Conformément à la méthode Delphi (Ekionea et al., 2011), seules les sections pour lesquelles la majorité des experts (n = 3 et plus) était en désaccord ont été modifiées et révisées. L’équipe a par la suite procédé à une analyse des codes émergents pour s’assurer de bien saisir les questionnements et les demandes de modification des experts.

La pertinence théorique globale et la structure de l’outil

Les experts ont d’abord considéré la pertinence théorique de l’instrument de mesure, de même que sa structure globale. Rappelons que six sections composent l’instrument de mesure, tel qu’exposé dans la méthodologie. Tous les commentaires des experts ont d’abord été examinés et hiérarchisés, puis les modifications nécessaires ont été apportées. Le tableau 1 montre les ajustements qui ont été faits (tour 1) à la suite de cette analyse des commentaires.

En ce qui concerne le construit théorique des FE, des nuances ont été apportées à l’outil d’observation, et des précisions et des références ont été ajoutées. Puis, pour donner suite aux commentaires recensés, des nuances ont été apportées à la section « Mesures administrées et mesures rapportées », afin de mieux comprendre l’usage de cet instrument (grille d’observation) en contexte éducatif. Enfin, des précisions ont été ajoutées à la procédure de cotation, à la demande des experts qui ont formulé des commentaires en ce sens.

Tableau 1

Éléments constitutifs du premier rapport présenté aux experts

Éléments constitutifs du premier rapport présenté aux experts

-> Voir la liste des tableaux

L’analyse des commentaires sur les items de la grille

Lors du premier tour d’évaluation, le panel d’experts a formulé 58 commentaires sur les items qui composent la grille d’observation (n = 27). Les modifications sur l’instrument de mesure ont été réalisées à partir de ces commentaires. Rappelons qu’une analyse de contenu a été menée afin de classer les commentaires selon leur valence « plutôt positive », « neutre » et « plutôt négative ». À la fin du tour 1, la majorité des experts a mentionné que les items 7 et 8 (reliés à l’inhibition cognitive) se ressemblaient. Par exemple, l’expert 3 a affirmé : « Je trouve que ces deux indicateurs renvoient à la même chose, la résistance à la distraction ». Puisque ces deux items (7 et 8) ne sont pas mutuellement exclusifs et exhaustifs, aspects pourtant essentiels à considérer dans un outil d’observation (Bakeman & Quera, 2012 ; Heyman et al., 2014), seul l’item 8 a été conservé dans le but de se rapprocher de la définition d’inhibition cognitive (interference control) proposée, entre autres, par Nigg (2017) et par Diamond (2013).

Puis, la majorité des experts s’est interrogée sur la présence de l’item 12 (MdT visuelle) en contexte éducatif et sur la réelle possibilité de le mesurer de manière fidèle. À cet effet, l’expert 1 a commenté : « Je me demande s’il sera aisé pour l’observateur de distinguer entre le premier indicateur (visuel) et le troisième (spatial) ? », et l’expert 4 a indiqué : « Pour moi c’est du rappel. L’enfant utilise des indices comme stratégie de rappel ». Après avoir analysé l’ensemble des commentaires formulés par les experts, il a été convenu de jumeler l’item 12 à l’item précédent (tous deux rattachés à la MdT visuelle).

Toujours en lien avec la MdT, la plupart des experts se sont interrogés sur l’item 15, particulièrement au regard de son sens en contextes éducatifs de la petite enfance et de la possibilité de le mesurer de manière fidèle. Ce commentaire de l’expert 4 en témoigne : « Même commentaire que plus haut. Pour moi, ce sont des stratégies de rappel en mémoire ». Cet item a donc été jumelé à l’item 14 (MdT verbale). De surcroît, les items 17 et 18 (rappel en mémoire) ont été modifiés pour tenir compte des commentaires des experts, qui ont émis un doute sur la possibilité de les mesurer en contexte naturel (p. ex. pendant une période de jeu dans une classe). Ainsi, l’expert 3 a indiqué : « C’est un peu la même chose que l’indicateur 1 ». L’expert 2, pour sa part, s’est posé la question suivante :

Est-ce que cette section est en lien avec le episodic buffer du modèle de MdT ? Parce que si cette section rappel en mémoire est censée capturer le concept de episodic buffer, je ne suis pas sûr que ce soit le genre de chose que l’on puisse observer sur le plan comportemental… Les deux indicateurs me semblent associés à la mémoire à long terme et pas à la MdT.

Considérant que ces deux items ne répondaient pas au critère d’exclusivité mutuelle, seul le premier a été conservé.

Finalement, en ce qui a trait à l’item 23 (planification), la majorité des experts a remis en question sa pertinence, comme l’indique l’expert 1 : « Je ne suis pas certain de vraiment comprendre cet indicateur. À quoi ressemblerait un comportement insuffisant ? Par exemple, l’enfant n’arrive pas à choisir entre les différentes activités et donc ne fait rien du tout ou bien essaie de tout faire en même temps ? » L’expert 3 a formulé un commentaire similaire : « J’ai du mal à trouver une pertinence à dissocier planification et organisation des actions. J’aurai tendance à mettre les indicateurs sous une même catégorie (composante). » Conséquemment, l’item 23 a été supprimé.

Les analyses quantitatives : Examen des niveaux d’accord sur les items de la grille

Tel que le présente le tableau 2, les niveaux d’accord entre les experts variaient entre 0,48 et 1 à la suite de la première évaluation. Plus précisément, neuf items (sur 27) présentaient un niveau d’accord en deçà de 0,80. Rappelons que seuls les items ayant obtenu une médiane de trois ou moins, suivant l’échelle 1) en désaccord, 2) Plutôt en désaccord et 3) Ni en accord, ni en désaccord, pouvaient être révisés selon la méthode utilisée. De fait, parmi les items au niveau d’accord en deçà de 0,80, six items ont fait l’objet d’une modification conformément à la méthode Delphi (Berquez et al., 2011). Puis, toujours en en adéquation avec la méthode utilisée, deux items ont été supprimés (items 7 et 23), tandis que d’autres ont été regroupés (items 17 + 18 ; items 11 + 12) puisqu’ils n’étaient pas mutuellement exclusifs selon le panel des experts.

Tableau 2

Les niveaux d’accord sur les items de la grille d’observation – Tour 1

Les niveaux d’accord sur les items de la grille d’observation – Tour 1

Tableau 2 (suite)

Les niveaux d’accord sur les items de la grille d’observation – Tour 1

-> Voir la liste des tableaux

Après cette première analyse des commentaires (analyses qualitatives) et des scores attribués aux items (analyses quantitatives), l’équipe a rédigé un rapport et conçu une nouvelle version de la grille, qui présentait alors quatre composantes, 10 sous-composantes et 22 items (voir tableau 4 plus loin). Les documents ont été renvoyés aux experts pour une seconde évaluation (tour 2). La même procédure a été suivie pour le tour 3. La prochaine section présente les résultats obtenus pour ces deux derniers tours d’évaluation.

Les tours 2 et 3. Les analyses qualitatives

La pertinence théorique globale et la structure de l’outil

Tel que le démontre le tableau 3, lors du deuxième tour, les commentaires des experts concernaient les items (n = 22) de la grille plutôt que la pertinence théorique du construit. De plus, aucune modification n’a été effectuée lors du troisième et dernier tour, considérant la valence « plutôt positive » et « neutre » des commentaires des experts.

Tableau 3

Éléments constitutifs du deuxième rapport présenté aux experts

Éléments constitutifs du deuxième rapport présenté aux experts

-> Voir la liste des tableaux

Lors de la seconde ronde d’évaluation, les experts ont formulé des commentaires sur les items de la grille, en suggérant, notamment, d’y ajouter les sous-types d’inhibition comme l’indique le tableau 3. De plus, ils ont demandé des précisions concernant les exemples liés aux items de la grille. À titre illustratif, l’exemple du premier item de la sous-échelle inhibition motrice a été précisé afin de correspondre davantage à l’item et à sa description. Il en a été de même pour l’exemple concernant le deuxième item de la sous-échelle inhibition émotionnelle.

L’analyse des commentaires sur les items de la grille

Outre l’augmentation du niveau d’accord observé entre les tours 2 et 3, une diminution importante du nombre de commentaires de la part des experts a aussi été relevée (T1 : n = 58 ; T2 : n = 22 ; T3 : n = 0), tel que l’illustre la figure 3.

Figure 3

Diminution des commentaires en fonction des tours

Diminution des commentaires en fonction des tours

-> Voir la liste des figures

Effectivement, 58 commentaires ont été formulés au premier tour contre seulement 10 à la dernière ronde d’évaluation. De plus, lors du troisième tour, deux experts n’ont formulé aucun commentaire et les trois autres n’en ont émis que quelques-uns (trois ou quatre). Entre les tours 2 et 3, nous sommes passées de trois commentaires (n = 3 experts) à un commentaire (n = 1 expert) pour un item relié à l’inhibition motrice.

À la fin du tour 3, l’expert 4 a réitéré son désaccord pour cet item (inhibition motrice) en mentionnant : « Je suis toujours en désaccord, car ce n’est pas parce que tu inhibes que tu agiras avec minutie et contrôle ». Par ailleurs, puisque la majorité des experts était en accord avec ledit item, le commentaire de l’expert 4 n’a pas été pris en considération, comme le suggère la méthode Delphi (Belquez et al., 2011).

Les analyses quantitatives : examen des niveaux d’accord sur les items de la grille

À la fin du tour 2, aucun item n’a été modifié en raison de l’augmentation du niveau d’accord. Le tableau 4 montre que le niveau d’accord varie de 0,72 à 1 au tour 2 ; deux items (5 - inhibition verbale, 21 - organisation des actions) ont fait l’unanimité à cette seconde ronde d’évaluation. De plus, comme 20 items sur 22 ont un niveau d’accord de plus de 0,88, ils font consensus selon la méthode Delphi (Belquez et al., 2011).

Tableau 4

Niveaux d’accord sur les items de la grille d’observation – tours 2 et 3

Niveaux d’accord sur les items de la grille d’observation – tours 2 et 3

Tableau 4 (suite)

Niveaux d’accord sur les items de la grille d’observation – tours 2 et 3

-> Voir la liste des tableaux

De façon similaire, aucun item n’a fait l’objet de modification à la fin du tour 3. En effet, tous les items ont obtenu un niveau d’accord supérieur à 0,80 indiquant des scores attribués de 4 et 5 (4 = Plutôt en accord ; 5 = En accord) à chacun des items. Comme le présente le tableau 4, le niveau d’accord varie entre 0,80 et 1 lors de ce dernier tour d’évaluation, ce qui montre le consensus des experts pour l’ensemble des items et leurs marqueurs comportementaux. Plus précisément, cinq items sur 22 font l’unanimité (cote de 5 = En accord), tandis que quatre items obtiennent un niveau d’accord variant entre 0,80 et 0,88.

Pour conclure, au fil des tours d’évaluation, les commentaires des experts ont diminué et les niveaux d’accord ont augmenté. Ainsi, le niveau d’accord variait de 0,48 à 1 (neuf items sous 0,80) au tour 1, de 0,72 à 1 (deux items sous 0,80) au tour 2 et de 0,80 à 1 au tour 3. La prochaine section discute des résultats de l’étude de validation du contenu qui a permis d’obtenir un consensus entre les experts et propose une version finale de l’outil d’observation. Le tableau 5 présente la structure de l’outil validé.

Tableau 5

Structure finale de la grille d’observation des FE chez l’enfant de 3 à 6 ans en contextes éducatifs de la petite enfance

Structure finale de la grille d’observation des FE chez l’enfant de 3 à 6 ans en contextes éducatifs de la petite enfance

Tableau 5 (suite)

Structure finale de la grille d’observation des FE chez l’enfant de 3 à 6 ans en contextes éducatifs de la petite enfance

Tableau 5 (suite)

Structure finale de la grille d’observation des FE chez l’enfant de 3 à 6 ans en contextes éducatifs de la petite enfance

Tableau 5 (suite)

Structure finale de la grille d’observation des FE chez l’enfant de 3 à 6 ans en contextes éducatifs de la petite enfance
Source : Duval et Montminy (2021)

-> Voir la liste des tableaux

Discussion

L’importance de la validation du contenu d’un instrument psychométrique en fait une étape fondamentale de son élaboration (Zamanzadeh et al., 2015). Sans cette étape, il est impossible d’établir la validité et la fiabilité d’un instrument nouvellement développé. Dans le cadre de la présente étude, l’équipe a pu valider le contenu d’une grille d’observation des FE des enfants âgés entre 3 et 6 ans en contextes éducatifs de la petite enfance, en mettant en place les deux phases proposées par Lynn (1986), soit celle de développement et celle d’appréciation-quantification. Pendant cette deuxième phase, elle a appliqué la méthode Delphi pour prendre des décisions quant à la structure de l’instrument d’observation qui a été développé (Hohmann et al., 2018). Grâce à cette méthode, la phase d’appréciation-quantification a pu atteindre systématiquement un consensus entre les experts d’un panel reconnus pour leurs travaux dans le champ à l’étude. Les prochaines sections discutent du processus de validation de cette recherche à partir de ces deux phases, en approfondissant la seconde et en présentant notamment les avantages et les limites de la méthode Delphi.

La phase de développement

Identifier et circonscrire les attributs à évaluer

Découlant d’abord de travaux en neuropsychologie et en psychologie, le concept de FE est encore peu abordé dans les travaux en éducation. Il s’agit ainsi d’un champ en émergence, particulièrement en ce qui concerne l’évaluation des habiletés qui y sont liées (Zelazo et al., 2016). Pour créer un outil d’observation des FE chez les jeunes enfants, il a d’abord été essentiel de dresser l’état des connaissances sur l’objet à l’étude. L’équipe a ensuite développé un instrument d’observation en s’appuyant sur les dernières connaissances issues de la recherche. Cette étape majeure ne doit pas être prise à la légère (Arborio & Fournier, 2005), car elle permet de structurer la création de l’instrument. Dans le cadre de cette étude, l’état des connaissances sur les FE des jeunes enfants a permis de rendre compte de la pertinence de l’objet d’étude sur le plan théorique, en plus de concevoir une structure réfléchie et cohérente des items qui composent la grille d’observation. Les commentaires du panel d’experts en témoignent : ils ont positivement évalué la pertinence théorique globale et la structure de l’outil.

La phase d’appréciation-quantification

La méthode Delphi pour évaluer l’outil d’observation développé

Selon Keeney et al. (2006), les équipes de recherche doivent adapter la méthode Delphi à leur étude, en fonction de leurs objectifs, en prenant soin d’équilibrer les avantages et les inconvénients potentiels de la démarche. Bien que la méthode Delphi ne soit pas appliquée de la même manière par tous, il est important de prendre certains postulats en considération afin d’atteindre un consensus entre les experts. Cette étude a permis, de façon novatrice, de valider le contenu d’un nouvel outil d’observation sur les FE des jeunes enfants. Il importe toutefois de préciser les limites de l’application de la méthode, telle que mise en place dans cette recherche.

Le recrutement des participants

Une critique courante concernant le recrutement des experts est l’existence potentielle de biais, de jugements ou d’opinions (Berquez et al., 2011) en fonction de leur champ d’expertise. Il est donc important de définir des critères de sélection avant leur recrutement et de constituer un échantillon hétérogène pour s’assurer d’obtenir un large éventail de commentaires (Ekionea et al., 2011). Dans le cadre de cette étude, les participants sont des spécialistes du développement cognitif et des FE de l’enfant, mais leurs travaux ne s’inscrivent pas autour des mêmes composantes. À titre illustratif, un participant a publié au sujet de la MdT tandis qu’un autre concentre plutôt ses travaux sur les habiletés d’inhibition.

Le nombre d’experts à convoquer est également un élément fondamental à prendre en compte. Ici, le nombre de participants a été limité à cinq, ce qui peut paraitre peu comparé à d’autres études (p. ex. Leigh (2020) qui a convoqué 21 experts). Par contre, le fait de recruter un panel d’experts moins important a permis d’assurer la rétention des participants, et ce, aux trois tours d’évaluation. En effet, tous les experts recrutés ont pris part à l’entièreté de la démarche, comparativement à d’autres études qui ont montré de l’attrition dans leur panel d’évaluation. Par exemple, Jones et al. (2021), qui ont recruté 12 participants au tour 1 de leur démarche, ont terminé leur étude avec sept experts.

Le processus choisi pour la présente étude a favorisé une stabilité dans le panel d’experts, qui constitue un critère important pour assurer la fiabilité et la validité des résultats obtenus avec la méthode Delphi (Green, 2014). Enfin, Keeney et al. (2006) estiment qu’il n’existe pas de nombre idéal pour constituer le panel d’experts selon cette méthode.

La rigueur de la démarche utilisée

Il a été possible d’atteindre un consensus entre les experts, soit la dernière étape du protocole, grâce aux trois tours d’évaluation qui ont été réalisés avec rigueur. Avant d’enclencher le processus d’évaluation, il a fallu prendre des décisions concernant le nombre de tours, leur durée (c.-à-d., le temps alloué pour procéder à l’évaluation de l’outil) et la manière de tenir compte des commentaires des experts.

Le nombre de tours

Rappelons que certains auteurs suggèrent de réaliser trois tours d’évaluation (Berquez et al., 2011 ; Holey et al., 2007), puisque les participants peuvent changer d’avis sur leur niveau d’accord jusqu’à la toute fin du protocole. Dans cette étude, le troisième et dernier tour d’évaluation a mené à l’atteinte d’un consensus, d’un point de vue tant qualitatif que quantitatif. Conformément aux travaux de Holey et al. (2007), la présente étude suggère, tant par la réduction du nombre de commentaires que par l’augmentation du niveau d’accord, une diminution de la divergence et un renforcement du consensus entre les experts.

La durée de la démarche

La durée de la démarche peut constituer une limite dans la méthode Delphi, entre autres en ce qui concerne le temps et l’énergie à déployer. En effet, le panel d’experts peut ressentir de la fatigue au troisième tour d’évaluation, ce qui peut amener les participants à « forcer le consensus » (Hsu & Sandford, 2007 ; Nworie, 2011). Pour pallier cette limite, une stratégie consiste à diminuer le nombre de tours lorsque les participants manifestent de la fatigue (Keeney et al., 2006), ce qui, selon McKenna (1994), se produit notamment avec des experts très occupés, qui ont beaucoup d’engagements en même temps. Ainsi, en cohérence avec d’autres études (Ekionea et al., 2011 ; Sekayi & Kennedy, 2017), trois tours ont été effectués et ont suffi pour atteindre le consensus. Les analyses qualitatives et quantitatives en témoignent d’ailleurs, comme évoqué précédemment.

Aussi, il est recommandé de valoriser l’apport des experts et de leur montrer qu’ils sont des partenaires dans la démarche, en sollicitant leur collaboration sur un sujet qui les intéresse (Berquez et al., 2011). Dans le cadre de cette étude, les travaux des experts portaient sur au moins une composante des FE, ce qui témoigne de leur intérêt envers le sujet et de leur possible apport à la recherche. Il est effectivement essentiel que les experts sachent que leurs réponses influencent réellement le protocole de recherche (Berquez et al., 2011), ici, la création d’une grille d’observation sur les FE.

La manière de tenir compte des commentaires des experts

Dans le protocole de la recherche, il importe de réfléchir à la manière de tenir compte des commentaires des experts et à la façon dont les ajustements et les modifications sur l’instrument de mesure sont communiqués après chaque tour (n = 3). Grâce à la méthode Delphi, l’équipe a pu prendre en considération les commentaires des experts à chaque tour et, par conséquent, ajuster la grille de manière rigoureuse. Il faut cependant relever certaines limites quant à la formulation des commentaires des experts.

D’abord, certains ont énoncé le même commentaire aux différents tours d’évaluation, mais il n’a jamais été pris en compte puisque le consensus sur l’item en question était atteint, dans le respect de la méthode Delphi. Ainsi, un expert a pu émettre un commentaire sur un item (aspect qualitatif), tout en étant en accord avec sa présence dans l’outil en attribuant une cote de 4 ou 5 sur l’échelle de Likert (aspect quantitatif). Lorsque l’accord a été atteint pour l’item en question, tous les commentaires qui y étaient associés n’ont pas été considérés (du moins, aucune modification à la grille n’a été apportée). Cette façon de procéder, conforme à la méthode Delphi (Berquez et al., 2011), peut donner l’impression aux experts que leurs commentaires ne sont pas pris en compte, ce qui peut leur occasionner une certaine frustration. Par conséquent, puisqu’ils peuvent modifier leurs niveaux d’accord jusqu’au dernier tour, il est possible de penser que cette « non-considération » de leurs commentaires influence le niveau d’accord pour certains items tout au long de la démarche.

D’ailleurs, dans le cadre de cette étude, quatre items ont connu une baisse d’accord entre le premier tour d’évaluation et le troisième (items 8, 12, 17 et 19). À titre illustratif, l’item 17 présentait un niveau d’accord de 0,88 au tour 1, qui a baissé à 0,84 au tour 3. Bien qu’il importe de reconnaitre cette limite, il demeure que les taux d’accord sont restés très élevés, c’est-à-dire au-dessus de 0,80. Ainsi, selon la méthode Delphi, l’équipe de chercheurs développant l’outil n’y a apporté aucune modification, car un niveau de consensus entre les participants était atteint.

Dans le même ordre d’idées, selon Hasson et al. (2000), une autre limite à relever dans la méthode Delphi est le fait que les experts ne puissent pas discuter ouvertement des commentaires qu’ils ont émis sur les items à évaluer. De même, des chercheurs estiment que cette méthode ne permet pas aux participants de préciser leur point de vue (Hasson et al., 2000 ; Walker & Selfe, 1996 ;). Bien que les experts puissent commenter les items de l’outil par écrit en formulant des remarques dans le document (aspect qualitatif), certains aimeraient pouvoir les expliquer de vive voix à l’équipe de recherche, de manière à expliciter leurs points de vue (Hohmann et al., 2018). Toutefois, comme le protocole, qui est rigoureux et systématique, permet aux experts de s’exprimer librement sous le couvert de l’anonymat, il va de soi qu’ils ne peuvent pas entrer directement en contact avec l’équipe de recherche.

Il est donc essentiel, en tout début de parcours, d’expliquer la procédure de la méthode Delphi aux participants, en rappelant que l’équipe tente de trouver un consensus sur un concept, une question ou un problème. L’existence d’un consensus ne signifie pas que les personnes ont trouvé la bonne réponse, opinion ou jugement, mais qu’une majorité d’entre elles sont en accord sur un même construit (Hasson et al., 2000). Pour conclure, malgré quelques limites rattachées à la procédure utilisée, le nombre de travaux en éducation qui font appel à la méthode Delphi est assez limité, mais il est en augmentation. Si quelques travaux récents l’ont utilisée (Puertas-Aguilar et al., 2021), peu ont porté sur les contextes éducatifs de la petite enfance. Étant donné que la démarche a été définie selon des critères de validité rigoureux, il est possible de penser que d’autres équipes de recherche pourront s’inspirer de la présente étude, notamment dans la validation du contenu d’un nouvel instrument de mesure.

Conclusion

Cette étude a permis de valider une grille d’observation des FE chez les enfants âgés entre 3 et 6 ans en contextes éducatifs de la petite enfance. Initialement, 27 items composaient l’outil d’observation. Après la phase d’appréciation-quantification, 22 items ont été retenus dans la structure de l’instrument. Bien que des limites concernant l’application de la méthode Delphi aient été relevées dans la validation de l’outil d’observation, cette étude s’avère novatrice. Ayant réussi à obtenir un consensus à l’égard des composantes, des sous-composantes et des items qui composent l’instrument d’observation des FE chez les jeunes enfants (outil qui n’existait pas jusqu’alors), cette étude se révèle l’une des rares à avoir appliqué la méthode Delphi dans le champ de la petite enfance, une période pourtant critique pour les apprentissages et le développement des enfants.

En effet, à notre connaissance, une seule étude dans le champ de la petite enfance a utilisé cette méthode en misant sur l’évaluation de certaines habiletés développementales inhérentes à la préparation scolaire (traduction libre de school readiness) des jeunes enfants (Skelton & Leclair, 2019). Or, il serait souhaitable de s’intéresser davantage à la méthode Delphi en éducation à la petite enfance, car elle donnerait l’occasion à différents professionnels de développer une vision commune d’un concept ou d’un problème donné (ici, les FE), en plus de prendre des décisions éclairées et de faire des suggestions pertinentes pour soutenir les apprentissages et le développement des enfants, voire leur réussite éducative. Plus précisément, la méthode Delphi pourrait favoriser le développement ou l’évaluation d’outils efficients (p. ex. s’assurer de la validité de contenu d’un outil élaboré avant de le proposer aux intervenants). Elle pourrait également informer le milieu de la pratique (p. ex. le personnel enseignant) sur différents enjeux et, ainsi, améliorer les connaissances des praticiens sur le développement de l’enfant (Skelton & Leclair, 2019).

Enfin, pour reconnaitre les manifestations comportementales des FE en contextes éducatifs de la petite enfance et les soutenir au quotidien, il semble pertinent d’appliquer la méthode Delphi auprès de plusieurs types d’experts, c’est-à-dire auprès des professionnels du milieu de la pratique (intervenants, éducateurs, enseignants). En effet, après avoir sollicité un panel d’experts dans le milieu de la recherche, il serait pertinent de sonder les experts dans le milieu de la pratique, afin d’obtenir une validité éprouvée dans la consolidation de l’outil d’observation. Plus précisément, cela donnerait l’occasion d’envisager plusieurs perspectives au sujet d’un même objet (les FE), de contribuer à l’actualisation des connaissances dans un même champ et de réfléchir à leur transférabilité et à leur crédibilité (Nworie, 2011 ; Leigh, 2020). En somme, cela favoriserait le développement de liens entre la recherche et la pratique, en prenant en compte des expertises diversifiées et complémentaires (chercheurs universitaires, praticiens), qui auront, dans tous les cas, un impact sur la mise en place de l’outil dans les milieux de pratique (Green, 2014).