Tests adaptatifs informatisés - Computerized adaptive testing

Test adaptatif informatisé ( CAT ) est une forme d' informatique essai qui se adapte au niveau de la capacité du candidat. Pour cette raison, il a également été appelé test sur mesure . En d'autres termes, il s'agit d'une forme de test administré par ordinateur dans lequel le prochain élément ou ensemble d'éléments sélectionnés à administrer dépend de l'exactitude des réponses du candidat aux éléments les plus récents administrés.

Comment ça fonctionne

Le CAT sélectionne successivement les questions dans le but de maximiser la précision de l'examen en fonction de ce que l'on sait du candidat à partir des questions précédentes. Du point de vue du candidat, la difficulté de l'examen semble s'adapter à son niveau de compétence. Par exemple, si un candidat réussit bien sur un élément de difficulté intermédiaire, il lui sera alors présenté une question plus difficile. Ou, s'ils avaient de mauvais résultats, une question plus simple leur serait posée. Par rapport aux tests à choix multiples statiques que presque tout le monde a expérimentés, avec un ensemble fixe d'items administrés à tous les candidats, les tests adaptatifs par ordinateur nécessitent moins d'items de test pour arriver à des scores tout aussi précis. (Bien sûr, rien dans la méthodologie CAT n'exige que les éléments soient à choix multiples ; mais tout comme la plupart des examens sont à choix multiples, la plupart des examens CAT utilisent également ce format.)

La méthode de test adaptative par ordinateur de base est un algorithme itératif avec les étapes suivantes :

  1. Le pool d'éléments disponibles est recherché pour l'élément optimal, sur la base de l'estimation actuelle de la capacité du candidat
  2. L'item choisi est présenté au candidat, qui y répond alors correctement ou incorrectement
  3. L'estimation de la capacité est mise à jour, en fonction de toutes les réponses précédentes
  4. Les étapes 1 à 3 sont répétées jusqu'à ce qu'un critère de résiliation soit rempli

On ne sait rien du candidat avant l'administration du premier élément, de sorte que l'algorithme est généralement lancé en sélectionnant un élément de difficulté moyenne, ou moyenne-facile, comme premier élément.

En raison de l'administration adaptative, différents candidats reçoivent des tests très différents. La technologie psychométrique qui permet de calculer des scores équitables sur différents ensembles d'items est la théorie de la réponse aux items (IRT). L'IRT est également la méthodologie privilégiée pour sélectionner les éléments optimaux qui sont généralement sélectionnés sur la base d' informations plutôt que sur la difficulté en soi.

Aux États-Unis, le Graduate Management Admission Test est actuellement principalement administré en tant que test adaptatif par ordinateur. Une liste des programmes de TAO actifs se trouve à l'Association internationale pour les tests adaptatifs informatisés , ainsi qu'une liste des programmes de recherche de TAO actuels et une bibliographie quasi exhaustive de toutes les recherches de TAO publiées.

Une méthodologie connexe appelée test en plusieurs étapes (MST) ou CAST est utilisée dans l' examen uniforme d'expert-comptable . MST évite ou réduit certains des inconvénients de la TAO comme décrit ci-dessous. Voir le numéro spécial 2006 d'Applied Measurement in Education pour plus d'informations sur le MST.

Avantages

Les tests adaptatifs peuvent fournir des scores uniformément précis pour la plupart des candidats. En revanche, les tests fixes standard offrent presque toujours la meilleure précision pour les personnes testées de capacité moyenne et une précision de moins en moins bonne pour les personnes testées avec des scores de test plus extrêmes.

Un test adaptatif peut généralement être raccourci de 50 % tout en conservant un niveau de précision supérieur à celui d'une version fixe. Cela se traduit par un gain de temps pour le candidat. Les candidats ne perdent pas leur temps à essayer des éléments trop difficiles ou trivialement faciles. De plus, l'organisation de test bénéficie du gain de temps ; le coût du temps de siège du candidat est considérablement réduit. Cependant, comme le développement d'un CAT implique beaucoup plus de dépenses qu'un test standard à forme fixe, une population importante est nécessaire pour qu'un programme de test CAT soit financièrement fructueux.

De grandes populations cibles peuvent généralement être exposées dans des domaines scientifiques et basés sur la recherche. Les tests CAT dans ces aspects peuvent être utilisés pour détecter l'apparition précoce de handicaps ou de maladies. La croissance des tests CAT dans ces domaines a considérablement augmenté au cours des 10 dernières années. Autrefois non acceptés dans les établissements médicaux et les laboratoires, les tests CAT sont désormais encouragés dans le cadre des diagnostics.

Comme tout test informatisé , les tests adaptatifs peuvent afficher des résultats immédiatement après le test.

Les tests adaptatifs, selon l' algorithme de sélection d'items , peuvent réduire l'exposition de certains items parce que les candidats reçoivent généralement différents ensembles d'items plutôt que l'ensemble de la population recevant un seul ensemble. Cependant, cela peut augmenter l'exposition des autres (à savoir les items moyens ou moyens/faciles présentés à la plupart des candidats au début du test).

Désavantages

Le premier problème rencontré dans CAT est le calibrage du pool d'items. Afin de modéliser les caractéristiques des items (par exemple, pour choisir l'item optimal), tous les items du test doivent être pré-administrés à un échantillon important puis analysés. Pour y parvenir, de nouveaux items doivent être mélangés aux items opérationnels d'un examen (les réponses sont enregistrées mais ne contribuent pas aux scores des candidats), appelés « test pilote », « pré-test » ou « ensemencement » . Cela pose des problèmes de logistique, d'éthique et de sécurité. Par exemple, il est impossible de mettre en place un test adaptatif opérationnel avec des éléments tout neufs et invisibles ; tous les éléments doivent être prétestés avec un échantillon suffisamment grand pour obtenir des statistiques d'éléments stables. Cet échantillon peut être nécessaire pour être aussi grand que 1 000 candidats. Chaque programme doit décider quel pourcentage du test peut raisonnablement être composé d'items de test pilote non notés.

Bien que les tests adaptatifs aient des algorithmes de contrôle de l'exposition pour éviter la surutilisation de quelques éléments, l'exposition conditionnée par la capacité n'est souvent pas contrôlée et peut facilement devenir proche de 1. C'est-à-dire qu'il est courant que certains éléments deviennent très courants sur les tests pour les personnes de la même capacité. Il s'agit d'un grave problème de sécurité car les groupes partageant des éléments peuvent très bien avoir un niveau de capacité fonctionnelle similaire. En fait, un examen complètement aléatoire est le plus sûr (mais aussi le moins efficace).

L'examen des éléments passés est généralement interdit. Les tests adaptatifs ont tendance à administrer des éléments plus faciles après qu'une personne a répondu de manière incorrecte. Soi-disant, un candidat astucieux pourrait utiliser de tels indices pour détecter les réponses incorrectes et les corriger. Ou, les personnes testées pourraient être entraînées à choisir délibérément de mauvaises réponses, ce qui rendrait le test de plus en plus facile. Après avoir incité le test adaptatif à créer un examen d'une facilité maximale, ils pouvaient ensuite revoir les éléments et y répondre correctement, obtenant peut-être un score très élevé. Les personnes testées se plaignent fréquemment de l'incapacité de réviser.

En raison de la sophistication, le développement d'un CAT a un certain nombre de conditions préalables. Les grands échantillons (généralement des centaines de candidats) requis par les étalonnages IRT doivent être présents. Les articles doivent pouvoir être notés en temps réel si un nouvel article doit être sélectionné instantanément. Des psychométriciens expérimentés avec les étalonnages IRT et la recherche par simulation CAT sont nécessaires pour fournir une documentation de validité. Enfin, un système logiciel capable d'effectuer une véritable TAO basée sur l'IRT doit être disponible.

Dans un CAT avec une limite de temps, il est impossible pour le candidat de budgétiser avec précision le temps qu'il peut consacrer à chaque élément de test et de déterminer s'il est en mesure de terminer une section de test chronométrée. Les candidats peuvent ainsi être pénalisés s'ils passent trop de temps sur une question difficile qui est présentée au début d'une section, puis omettent de répondre à suffisamment de questions pour évaluer avec précision leurs compétences dans des domaines qui ne sont pas testés à l'expiration du temps imparti. Alors que les CAT non chronométrés sont d'excellents outils pour les évaluations formatives qui guident l'enseignement ultérieur, les CAT chronométrés ne conviennent pas aux évaluations sommatives à enjeux élevés utilisées pour mesurer l'aptitude à l'emploi et aux programmes éducatifs.

Composants

Il y a cinq composants techniques dans la construction d'un CAT (ce qui suit est adapté de Weiss & Kingsbury, 1984). Cette liste n'inclut pas les problèmes pratiques, tels que les tests préalables d'articles ou la diffusion en direct sur le terrain.

  1. Pool d'articles calibrés
  2. Point de départ ou niveau d'entrée
  3. Algorithme de sélection d'articles
  4. Procédure de notation
  5. Critère de résiliation

Pool d'articles calibrés

Un pool d'articles doit être disponible pour le CAT à choisir. Ces éléments peuvent être créés de manière traditionnelle (c'est-à-dire manuellement) ou via la génération automatique d'éléments . Le pool doit être calibré avec un modèle psychométrique, qui sert de base aux quatre composantes restantes. Typiquement, la théorie de la réponse aux items est utilisée comme modèle psychométrique. L'une des raisons pour lesquelles la théorie de la réponse aux éléments est populaire est qu'elle place les personnes et les éléments sur la même métrique (indiquée par la lettre grecque thêta), ce qui est utile pour les problèmes de sélection d'éléments (voir ci-dessous).

Point de départ

En CAT, les éléments sont sélectionnés en fonction des performances du candidat jusqu'à un point donné du test. Cependant, le CAT n'est évidemment pas en mesure de faire une estimation précise de la capacité du candidat lorsqu'aucun élément n'a été administré. Une autre estimation initiale de la capacité du candidat est donc nécessaire. Si certaines informations antérieures concernant le candidat sont connues, elles peuvent être utilisées, mais souvent le CAT suppose simplement que le candidat est de capacité moyenne - d'où le premier élément étant souvent de difficulté moyenne.

Algorithme de sélection d'articles

Comme mentionné précédemment, la théorie de la réponse aux éléments place les candidats et les éléments sur la même métrique. Par conséquent, si le CAT a une estimation de la capacité du candidat, il est en mesure de sélectionner un élément qui est le plus approprié pour cette estimation. Techniquement, cela se fait en sélectionnant l'élément avec le plus d' informations à ce stade. L'information est fonction du paramètre de discrimination de l'élément, ainsi que de la variance conditionnelle et du paramètre de pseudo-estimation (le cas échéant).

Procédure de notation

Une fois qu'un élément est administré, le CAT met à jour son estimation du niveau de capacité du candidat. Si le candidat a répondu correctement à l'item, le CAT estimera probablement sa capacité à être un peu plus élevée, et vice versa. Cela se fait en utilisant la fonction de réponse aux items de la théorie de la réponse aux items pour obtenir une fonction de vraisemblance de la capacité du candidat. Deux méthodes pour cela sont appelées estimation du maximum de vraisemblance et estimation bayésienne . Ce dernier suppose une distribution a priori des capacités des candidats et dispose de deux estimateurs couramment utilisés : l' espérance a posteriori et le maximum a posteriori . Le maximum de vraisemblance est équivalent à une estimation a posteriori maximale de Bayes si un a priori uniforme (f(x)=1) est supposé. Le maximum de vraisemblance est asymptotiquement sans biais, mais ne peut pas fournir une estimation thêta pour un vecteur de réponse non mixte (tout correct ou incorrect), auquel cas une méthode bayésienne peut devoir être utilisée temporairement.

Critère de résiliation

L' algorithme CAT est conçu pour administrer à plusieurs reprises des éléments et mettre à jour l'estimation de la capacité du candidat. Cela continuera jusqu'à ce que le pool d'articles soit épuisé, à moins qu'un critère de résiliation ne soit incorporé dans le CAT. Souvent, le test est terminé lorsque l'erreur standard de mesure du candidat tombe en dessous d'une certaine valeur spécifiée par l'utilisateur, d'où la déclaration ci-dessus selon laquelle un avantage est que les scores des candidats seront uniformément précis ou « équiprécis ». D'autres critères de terminaison existent pour différents objectifs du test, par exemple si le test est conçu uniquement pour déterminer si le candidat doit « réussir » ou « échouer » au test, plutôt que d'obtenir une estimation précise de ses capacités.

Autres issues

réussite-échec

Dans de nombreuses situations, le but du test est de classer les candidats en deux ou plusieurs catégories mutuellement exclusives et exhaustives . Cela inclut le "test de maîtrise" commun où les deux classifications sont "réussite" et "échec", mais comprend également des situations où il existe trois classifications ou plus, telles que les niveaux de connaissances "Insuffisant", "Basique" et "Avancé". ou compétence. Le type de TAO « adaptatif au niveau de l'élément » décrit dans cet article est le plus approprié pour les tests qui ne sont pas « réussite/échec » ou pour les tests de réussite/échec où fournir un bon retour est extrêmement important. Certaines modifications sont nécessaires pour un CAT réussite/échec, également appelé test de classification informatisé (CCT) . Pour les candidats dont les notes réelles sont très proches de la note de passage, les tests de classification informatisés donneront lieu à des tests longs, tandis que ceux dont les notes réelles sont bien supérieures ou inférieures à la note de passage auront les examens les plus courts.

Par exemple, un nouveau critère de terminaison et un algorithme de notation doivent être appliqués qui classent le candidat dans une catégorie plutôt que de fournir une estimation ponctuelle de la capacité. Deux méthodologies principales sont disponibles pour cela. Le plus important des deux est le test du rapport de probabilité séquentielle (SPRT). Cela formule le problème de classification du candidat en tant que test d'hypothèse selon lequel la capacité du candidat est égale à un point spécifié au-dessus du score de coupure ou à un autre point spécifié en dessous du score de coupure. Notez qu'il s'agit d'une formulation d'hypothèse ponctuelle plutôt que d'une formulation d'hypothèse composite qui est plus appropriée sur le plan conceptuel. Une formulation d'hypothèse composite serait que la capacité du candidat se situe dans la région au-dessus du seuil de coupure ou dans la région en dessous du seuil de coupure.

Une approche d' intervalle de confiance est également utilisée, où après que chaque élément est administré, l'algorithme détermine la probabilité que le vrai score du candidat soit supérieur ou inférieur au score de passage. Par exemple, l'algorithme peut continuer jusqu'à ce que l' intervalle de confiance à 95 % pour le vrai score ne contienne plus le score de passage. À ce stade, aucun autre élément n'est nécessaire car la décision de réussite-échec est déjà précise à 95 %, en supposant que les modèles psychométriques sous-jacents au test adaptatif conviennent au candidat et au test. Cette approche s'appelait à l'origine « test de maîtrise adaptatif », mais elle peut être appliquée à des situations de sélection et de classification d'éléments non adaptatifs de deux ou plusieurs scores (le test de maîtrise typique a un seul score).

En pratique, l'algorithme est généralement programmé pour avoir une durée de test minimum et maximum (ou un temps d'administration minimum et maximum). Sinon, il serait possible pour un candidat dont la capacité est très proche du score de coupure de se voir administrer chaque élément de la banque sans que l'algorithme ne prenne de décision.

L'algorithme de sélection d'articles utilisé dépend du critère de terminaison. La maximisation des informations au seuil de coupure est plus appropriée pour le SPRT car elle maximise la différence des probabilités utilisées dans le rapport de vraisemblance . La maximisation des informations au niveau de l'estimation de la capacité est plus appropriée pour l'approche par intervalle de confiance car elle minimise l'erreur type conditionnelle de mesure, ce qui diminue la largeur de l'intervalle de confiance nécessaire pour effectuer une classification.

Contraintes pratiques d'adaptabilité

Martha Stocking, chercheuse d' ETS , a plaisanté en disant que la plupart des tests adaptatifs sont en fait des tests à peine adaptatifs (BAT) car, dans la pratique, de nombreuses contraintes sont imposées au choix des éléments. Par exemple, les examens CAT doivent généralement répondre aux spécifications de contenu ; un examen verbal peut devoir être composé d'un nombre égal d'analogies, de types d'items à compléter et de synonymes. Les CAT ont généralement une certaine forme de contraintes d'exposition aux éléments, pour empêcher les éléments les plus informatifs d'être surexposés. En outre, sur certains tests, une tentative est faite pour équilibrer les caractéristiques de surface des éléments tels que le sexe des personnes dans les éléments ou les ethnies impliquées par leurs noms. Ainsi, les examens de TAO sont fréquemment limités dans les éléments qu'il peut choisir et pour certains examens, les contraintes peuvent être substantielles et nécessiter des stratégies de recherche complexes (par exemple, programmation linéaire ) pour trouver des éléments appropriés.

Une méthode simple pour contrôler l'exposition des objets est la méthode "randomesque" ou par strates. Plutôt que de sélectionner l'élément le plus informatif à chaque étape du test, l'algorithme sélectionne au hasard l'élément suivant parmi les cinq ou dix éléments suivants les plus informatifs. Cela peut être utilisé tout au long du test, ou seulement au début. Une autre méthode est la méthode Sympson-Hetter, dans lequel un nombre aléatoire est tiré de U (0,1), et comparée à un k i paramètre déterminé pour chaque élément par l'utilisateur de test. Si le nombre aléatoire est supérieur à k i , l'élément suivant le plus informatif est considéré.

Wim van der Linden et ses collègues ont proposé une approche alternative appelée shadow testing, qui consiste à créer des shadow tests complets dans le cadre de la sélection d'éléments. La sélection d'éléments à partir de tests fantômes permet aux tests adaptatifs de répondre aux critères de sélection en se concentrant sur des choix globalement optimaux (par opposition aux choix optimaux pour un élément donné ).

Multidimensionnel

Étant donné un ensemble d'éléments, un test informatique adaptatif multidimensionnel (MCAT) sélectionne ces éléments de la banque en fonction des capacités estimées de l'étudiant, ce qui donne lieu à un test individualisé. Les MCAT cherchent à maximiser la précision du test, sur la base de plusieurs capacités d'examen simultané (contrairement à un test informatique adaptatif - CAT - qui évalue une seule capacité) en utilisant la séquence d'items précédemment répondus (Piton-Gonçalves et Aluisio, 2012).

Voir également

Les références

Sources supplémentaires

Lectures complémentaires

Liens externes