Conference PaperPDF Available

Quand le numérique défie la mesure. Comment veiller à la qualité de certifications en langue professionnelle au format numérique

Authors:
  • Chambre de commerce et d'industrie de Paris Île-de-France
  • Chambre de commerce et d'industrie de Paris Île de France

Figures

: Cercle des corrélations pour les activités de la compétence « Comprendre et traiter l'information » Cette opposition concerne surtout la seconde production écrite et est peut-être due à un artefact. En effet, dans cette première version du test, le temps était partagé entre l'ensemble des activités et une partie des candidats est visiblement arrivée à cours de temps pour la seconde production écrite. Les résultats sont sensiblement plus faibles pour cette activité et les corrélations des scores de cette activité avec les scores de chacune des activités à correction automatique sont plus faibles que dans le cas de la première production écrite. Une troisième analyse factorielle multiple, limitée aux scores obtenus aux activités à correction automatique permet d'apporter une première réponse à l'hypothèse 1. Cette analyse factorielle met en évidence un facteur dominant (44,1% de variance expliquée) et un second facteur explique 14,7% de la variance, les autres dimensions ayant une inertie comparable. Le cercle des corrélations montre que ce second facteur met en opposition les activités 2 et 3, d'une part, et 5 et 6, d'autre part. Or, ce qui oppose ces activités n'est pas la modalité de réponse aux items, mais la nature du document support principal, qui est écrit pour les activités 2 à 4 et oral pour les activités 5 et 6 (pour l'activité 1 il s'agit d'un graphique). Cela montre qu'il serait trop restrictif de vouloir évaluer la compétence à comprendre et à traiter de l'information en se satisfaisant d'un seul type de support. En comparaison, les différences de modalités de réponse ne semblent pas, pour le public concerné, avoir un impact notable sur les performances des candidats.
… 
Content may be subject to copyright.
373
répondre aux défis de la révolution civilisationnelle provoquée par la présence des technologies
numériques et leur expansion irrémédiable dans nos pratiques culturelles, sociales, économiques,
politiques et pédagogiques quotidiennes. Le but de cette communication sera donc de stimuler le débat
sur la question des relations mutuelles entre révolution numérique et évaluation en contexte scolaire, en
termes dinnovations évolutives ou disruptives (Christensen, Johnson & Horn, 2008).
Références
Christensen, C. M., Johnson, C. W., & Horn, M. B. (2008). Disrupting class. New York : McGraw-Hill Professional
Publishing.
Cuban, L. (2003). Oversold and Underused : Computers in the Classroom. Cambridge, Mass.: Harvard
University Press.
Dräger, J., & Müller-Eiselt, R. (2015). Die digitale Bildungsrevolution : Der radikale Wandel des Lernens und wie
wir ihn gestalten können (3 edition). München : Deutsche Verlags-Anstalt.
Puentedura, R. R. (2006). Transformation, Technology, and Education. Retrieved October 28, 2017, from
http://hippasus.com/resources/tte/
Resnick, M. (2008). Sowing the Seeds for a More Creative Society. Learning & Leading with Technology, 35(4),
1822.
Serres, M. (2015). Petite poucette. Paris : Le pommier.
Trilling, B., & Fadel, C. (2009). 21st century skills : Learning for life in our times. New Jersey : John Wiley & Sons.
Quand le numérique défie la mesure. Comment veiller à la qualité de certifications en
langue professionnelle au format numérique ? (7602)
Dominique Casanova*, Alhassane Aw* & Marc Demeuse**
*Chambre de commerce et dindustrie de Paris Île-de-France, France
**Université de Mons, Belgique
Mots-clés : tests informatisés, dimensionnalité, modélisation psychométrique
Introduction
Dans des sociétés de plus en plus connectées, où de très nombreuses personnes sont en contact avec
des outils numériques pour léchange dinformations, la tentation est grande de sappuyer sur les
possibilités offertes par le numérique dans le domaine de lévaluation. Toutefois, lintroduction des outils
numériques dans lévaluation soulève inévitablement des questions concernant le construit du test, la
standardisation de sa diffusion et la mesure de la compétence testée.
Pour les tests informatisés à grande échelle dans le domaine des langues, qui souvent existaient
également au format papier, un des enjeux était de garantir léquivalence entre la version électronique
et la version papier-crayon (Mead et Drasgow, 1993 ; Houssemand et al., 2009 ; Casanova et al., 2011).
Cela a souvent conduit à une utilisation a minima des possibilités numériques, pour que les deux
versions restent les plus proches possibles et que les candidats puissent parcourir aisément le test au
moyen dune souris. Lobjectif était de limiter laltération du construit du test par les compétences
numériques et lapparition dune variance non souhaitée dans les scores.
374
Plusieurs concepteurs de tests de langue ont fait le choix de maintenir lépreuve dexpression écrite au
format papier-crayon, de crainte que les différences de familiarité avec lutilisation dun clavier (et, dans
le cas du français, les différences daccessibilité des caractères accentués selon les claviers) affectent
les résultats des candidats. Bennett (2003) fait état détudes qui montrent que des variations peuvent
être constatées dans le cas dépreuves de production écrite, dont une des sources supposées est la
familiarité avec l’utilisation dun clavier.
A linverse, Laurier et Diarra (2009) relatent des expérimentations qui montrent que les élèves habitués
à utiliser lordinateur pour rédiger leurs écrits ont de meilleures notes lorsquils sont soumis à des
épreuves utilisant le traitement de texte que dans une évaluation en mode papier-crayon (notamment
Russell et Haney, 2000). En effet, la manière décrire diffère à partir du moment où lordinateur permet
une restructuration en continu du texte avec des fonctionnalités comme le copier-coller (Diarra, 20012).
L’usage de lordinateur étant de plus en plus répandu, les candidats et la société civile sétonnent de la
persistance dévaluations papier/crayon.
Dans la cadre de la refonte de ses certifications de français professionnel, la CCI Paris Ile-de-France a
décidé de proposer les épreuves de la compétence « Comprendre et traiter de linformation »
exclusivement par voie numérique et dexploiter une variété de formats items (choix dans liste, glisser-
déposer, boîtes de saisie…). Ce recours à loutil numérique lui permet de proposer une évaluation par
tâches plus réaliste, reflétant davantage les processus cognitifs mis en œuvre dans la réalisation
d’activités langagières au sein de lentreprise et qui sont souvent difficilement modélisables en format
papier/crayon sans avoir recours à une évaluation humaine.
Ces certifications sadressent à une population détudiants et de salariés, dont la familiarité avec loutil
informatique, aujourdhui difficilement contournable dans le monde de lentreprise, est un prérequis. Les
candidats passent en général ces certifications à lissue dune formation durant laquelle ils ont la
possibilité de se familiariser avec les tâches proposées. Un tutoriel interactif leur est également proposé
en libre accès (https://www.lefrancaisdesaffaires.fr/ressources/les-tutoriels-d-entrainement/tutoriels-
dfp/). Les productions écrites doivent être réalisées sur ordinateur, en correspondance avec la majorité
des situations dans lesquelles les professionnels sont amenés à rédiger un écrit.
Il convient néanmoins de sassurer que les différentes modalités de réponse proposées (formats ditems)
n’introduisent pas une variance non souhaitée dans les résultats, certains candidats pouvant être moins
à laise avec certaines modalités. Ce peut être le cas notamment pour les items au format glisser-
déposer, pour lesquels la modalité de réponse peut apparaître moins intuitive que le choix dune option
dans une liste, et qui est susceptible dintroduire une seconde dimension dans le test.
L’évaluation par tâches soulève une autre question, qui est lidentification dun modèle de mesure
approprié pour rendre compte des propriétés psychométriques du test et constituer une banque calibrée
d’activités réutilisables. Les activités à correction automatique du Diplôme de français professionnel
Affaires B1, qui fait lobjet de cette étude, sappuient en effet sur un ou plusieurs documents supports
(graphiques et/ou écrits et/ou oraux) à partir desquels les candidats doivent compléter en plusieurs
endroits un document de réponse (formulaire, tableau, commentaire, courriel…). Il y a donc plusieurs
« items » se rapportant à un même document, ce qui est susceptible dintroduire une dépendance entre
les réponses à ces items. Or, un des postulats de la théorie classique des tests est que la corrélation
entre les erreurs aux différents items vaut zéro (Demeuse et Henry, 2004) et lindépendance locale est
une des conditions dapplication des modèles de réponses à litem (Grondin et al., 2017).
Dans cette étude, menée sur les résultats à la première version du Diplôme de français professionnel
Affaires B1, nous nous sommes attachés à vérifier la présence éventuelle dune seconde dimension
375
induite par les activités au format glisser-déposer et à identifier un modèle de mesure pouvant
s’appliquer aux données recueillies.
Le diplôme de français professionnel Affaires B1
Le diplôme de français professionnel Affaires vise à certifier le niveau de compétence en français des
personnes qui souhaitent exercer des tâches de communication professionnelles. Il sagit dun examen
ancré dans des pratiques professionnelles et qui sadresse aux étudiants ou professionnels qui
travaillent ou seront appelés à communiquer en français dans un contexte professionnel (francophone
ou non) et qui souhaitent valider leurs acquis par un diplôme en référence à un niveau donné du Cadre
Européen Commun de Référence pour les langues CECR (Conseil de lEurope, 2001).
L’adéquation du diplôme aux réalités professionnelles transparait non seulement dans le choix des
documents supports, lauthenticité de leur forme et de leur contenu, mais également dans le caractère
réaliste des mises en situation et des tâches de communication à réaliser indexées sur le CECR. En
conséquence, les activités proposées placent toujours les candidats dans la situation dacteurs du
monde des affaires en relation avec les différents interlocuteurs de lentreprise (collègues de travail,
responsables hiérarchiques, services internes et fournisseurs, clients et prospects, etc.).
Les activités du diplôme renvoient à des situations de communication transversales, communes aux
domaines dactivité les plus courants du monde de lentreprise et des affaires : ressources humaines,
management, marketing, finances, logistique, etc.
L’évaluation porte sur des compétences intégrées. La tâche de communication réalisée par le candidat
prend la forme dune production (écrite ou orale) conditionnée par la compréhension de documents
professionnels (écrits ou oraux) et par la sélection des informations nécessaires à la réalisation de la
tâche. Lévaluation sinscrit également dans une démarche actionnelle (Richer, 2014), cest-à-dire que
le candidat doit réaliser, dans chaque activité du diplôme, une tâche de communication professionnelle
définie par un contexte (situation professionnelle) et un ou plusieurs objectifs de communication. Pour
réaliser cette tâche, il doit mobiliser, de manière stratégique, ses compétences de réception, de
médiation, de production et/ou dinteraction. Il ne sagit plus de lire/écouter pour comprendre, mais de
comprendre (ce quon lit/écoute) pour agir. Ainsi, lévaluation porte non seulement sur la maîtrise des
moyens langagiers mais aussi sur le degré de réalisation de la tâche professionnelle. Quel que soit le
niveau du diplôme choisi, les deux mêmes compétences sont évaluées :
Comprendre et traiter de linformation
Interagir à loral
La première compétence correspond à des tâches où linteraction est en temps différé et dont le contenu
des échanges est davantage contrôlé. Le candidat construit seul son discours, sur la base des messages
à traiter et des consignes de réalisation et en ne perdant pas de vue son interlocuteur qui nest cependant
pas incarné et qui nintervient pas directement dans léchange. Cest sa capacité à traiter une variété
et/ou une masse dinformation, à la mettre en relation et à produire un discours en respectant des
contraintes qui est évaluée.
La seconde compétence se distingue par sa dimension interpersonnelle et interactive « en temps réel »,
avec nécessité dadapter son discours et son attitude aux réactions de linterlocuteur. Le candidat a par
ailleurs une plus grande latitude dans sa production langagière : il y a une plus grande variété de
productions correctes possibles, plus de créativité, plus de stratégies mobilisables, comme le recours
au non verbal et/ou à laccentuation du discours.
376
Le tableau 1 présente les activités de la compétence « Comprendre et traiter de linformation »
proposées pour le diplôme de niveau B1.
Tableau 1 : activités de la compétence « Comprendre et traiter de linformation » du Diplôme de français
professionnel Affaires B1
Habiletés Activités
Modalités de
réponse
NB réponses
attendues
Traiter
l’information
écrite
1 : Commenter un graphique
Choix dans
listes
5
2 : Apporter une réponse adaptée dans une situation
problématique
Glisser-déposer 10
3 : Réserver un espace dexposition sur un salon, en
tenant compte des instructions données
Choix dans
listes
10
4 : Compléter une fiche récapitulative de projet, établir
des conclusions opérationnelles à partir des
informations données
Glisser-déposer 12
Traiter
l’information orale
5 : Organiser ses notes
Glisser-déposer
5
6 : Transmettre la teneur du message dun client et des
instructions à un collègue
Choix dans
listes
8
7 : Rédiger un courriel de réponse à la demande, en
tenant compte dinformations complémentaires
Rédaction libre 1
Interagir à lécrit
8 : Rédiger une lettre de candidature
Rédaction libre
1
Les six premières activités sont à correction automatique et une pondération est utilisée de sorte que le
score maximum de chaque activité soit identique. Les modalités de réponse des activités 1, 3 et 6
consistent en des choix doption dans des listes (les listes sont différentes pour chaque item) alors que
la réponse aux activités 2, 4 et 5 seffectue sous forme de glisser-déposer. Pour lactivité 2, il s’agit de
glisser-déposer chaque option pertinente (il y a aussi des distracteurs) dans une des trois rubriques dun
tableau, alors que pour lactivité 4, il y a une zone de destination spécifique à chacune des options
pertinentes. Pour lactivité 5, les candidats utilisent les glisser-déposer pour ordonner après sélection
les options pertinentes.
Le tableau 2 présente les activités de la compétence « Interagir à loral » pour le diplôme de niveau B1.
Ces activités prennent la forme de jeux de rôles en présentiel où lexaminateur est linterlocuteur du
candidat. Les échanges sont enregistrés au moyen dune application mobile, sur laquelle lexaminateur
reporte le résultat de son évaluation à la fin de la passation. Lensemble des informations est ensuite
transmis automatiquement au système dinformation du Français des affaires de la CCI Paris Ile-de-
France.
377
Tableau 2 : activités de la compétence « Interagir à loral » du Diplôme de français professionnel Affaires B1
Activités
Présenter le parcours de candidats à un poste et argumenter
son choix auprès de la direction
Argumenter auprès dun décideur / dun client lors dun
entretien/dune vente
Dans le cadre de cette étude, nous avons formulé deux hypothèses que nous avons cherché à vérifier
à partir des données dévaluation de la première version du diplôme :
Hypothèse 1 : compte-tenu de la nature du public visé (étudiants, professionnels en activité,
passant lexamen à lissue d’une formation), en dépit de la différence des formats ditems utilisés,
le sous-test constitué des items à correction automatique peut être considéré comme
unidimensionnel.
Hypothèse 2 : il est possible didentifier un modèle de réponse à litem approprié pour le traitement
du sous-test constitué des items à correction automatique en vue de la constitution dune banque
d’activités et de versions équivalentes du diplôme.
Description des données
L’échantillon à notre disposition comportait les réponses de 192 individus, 64 % de femmes et 36%
d’hommes. 57% dentre eux avaient entre 19 et 26 ans et 94% entre 16 et 50 ans. 46% dentre eux ont
déclaré une motivation académique à leur inscription, 41% une motivation professionnelle et 13% une
motivation individuelle. Les épreuves ont été organisées dans 18 pays, principalement aux États-Unis
(28% des candidats), en France (14%), en Suisse (14%) et en Italie (12%). Les principales langues
maternelles des candidats étaient langlais (30%), lallemand (15%), litalien (13%) et larabe (10%),
parmi un total de 27 langues maternelles représentées.
Un quart des candidats a répondu en début de test à un questionnaire concernant leur profil. 51% se
sont déclarés élèves ou étudiants, 43% professionnels en activité. 73% ont déclaré un niveau détude
« enseignement supérieur », 11% « enseignement secondaire 2nd niveau » (soit léquivalent du lycée en
France), 9% « enseignement secondaire 1er niveau » (léquivalent du collège en France) et 7%
« enseignement primaire ». Les candidats se répartissent relativement uniformément (entre 6 et 12%)
selon une liste de 8 domaines dactivité pré-identifiés, 26% d’entre eux ayant choisi la catégorie
« Autre ». 29% des candidats ont déclaré navoir aucune expérience professionnelle, 25% une
expérience de moins dune année, 27% entre 1 et 4 années dexpérience et 27% plus de 4 années
d’expérience. Dans 40% des cas, leur objectif principal était de « valider un parcours de formation en
français professionnel », dans 36% des cas « faire reconnaître leurs compétences en français
professionnel », dans 17% des cas « favoriser leur insertion dans le monde du travail » et dans 7% des
cas « préparer une mobilité professionnelle ». Le prescripteur de lexamen était dans 45% des cas une
école ou une université, dans 45% des cas une administration et pour les 10% restants, il sagissait
d’une démarche personnelle.
Les données ont été analysées au moyen du logiciel jMetrik (Meyer, 2014), qui fournit un ensemble
étendu de fonctionnalités prêtes à lemploi et accessibles par interface graphique pour lanalyse ditems,
tant dans le cadre de la théorie classique des tests que pour une analyse avec des modèles de réponse
à litem. La figure 1 représente la répartition du score brut des candidats pour les activités à réponse
automatique (50 items).
378
Figure 1 : distribution du score brut des candidats pour les activités à correction automatique
La moyenne des candidats est de 39,6 points (écart-type de 6,8 points), soit 79,2%, sachant que le seuil
de réussite pour cette version du questionnaire était fixé à 35 points. La facilité des items (valeur p) de
ce questionnaire (pour cet échantillon) varie entre 0,52 et 0,98, avec une moyenne de 0,78 et un écart-
type de 0,13. La consistance interne du questionnaire (sous lhypothèse dune absence de corrélation
entre les erreurs des différents items) peut être estimée au moyen dun alpha de Cronbach à 0,85 et
l’erreur-type correspondante, liée à léchantillonnage des items, est de 2,68 points.
Aspects de dimensionnalité
Pour analyser la dimensionnalité de lexamen, nous avons considéré le score obtenu par les candidats
à chacune des activités et mené une analyse factorielle multiple à partir de ces sous-scores, au moyen
de la librairie FactoMineR. La figure 2 présente le diagramme en éboulis de linertie de chacune des
dimensions de lanalyse.
379
Figure 2 : pourcentage dinertie expliquée par chacune des dimensions de lanalyse factorielle
On constate trois dimensions dominantes, expliquant à elles seules 66,5% de la variance des scores
(38,1% pour la première dentre elles). Le cercle de corrélation de la figure 3 montre que la première
dimension est une dimension commune à laquelle contribuent chacune des activités. Cette dimension
peut être interprétée comme la compétence à communiquer en français en contexte professionnel. La
seconde dimension oppose clairement les activités de la compétence Interagir à loral (IO_1 et IO_2) de
celles de la compétence Comprendre et traiter de linformation. Cela est conforme à la structure de
l’examen et à la particularité mentionnée pour la compétence Interagir à loral, qui se distingue par sa
dimension interpersonnelle et interactive « en temps réel », avec nécessité dadapter son discours et
son attitude aux réactions de linterlocuteur.
380
Figure 3 : Cercle des corrélations pour les deux premières dimensions de lanalyse factorielle
La troisième dimension met en opposition les activités à correction automatique (activités 1 à 6) et les
activités conduisant à la rédaction dune production écrite (activités 7 et 8) de la compétence
« Comprendre et traiter linformation ». Pour mieux analyser cette opposition, nous avons procédé à une
nouvelle analyse factorielle multiple, en nous limitant aux scores obtenus aux activités de la compétence
« Comprendre et traiter linformation ». Deux dimensions principales se dégagent, qui expliquent 58%
de la variance des scores. Le cercle de corrélation de la figure 4 montre que la seconde dimension
oppose les activités de production écrite (PE_1 et PE_2) aux activités à correction automatique, qui sont
par ailleurs bien regroupées entre elles.
381
Figure 4 : Cercle des corrélations pour les activités de la compétence « Comprendre et traiter linformation »
Cette opposition concerne surtout la seconde production écrite et est peut-être due à un artefact. En
effet, dans cette première version du test, le temps était partagé entre lensemble des activités et une
partie des candidats est visiblement arrivée à cours de temps pour la seconde production écrite. Les
résultats sont sensiblement plus faibles pour cette activité et les corrélations des scores de cette activité
avec les scores de chacune des activités à correction automatique sont plus faibles que dans le cas de
la première production écrite.
Une troisième analyse factorielle multiple, limitée aux scores obtenus aux activités à correction
automatique permet dapporter une première réponse à lhypothèse 1. Cette analyse factorielle met en
évidence un facteur dominant (44,1% de variance expliquée) et un second facteur explique 14,7% de la
variance, les autres dimensions ayant une inertie comparable. Le cercle des corrélations montre que ce
second facteur met en opposition les activités 2 et 3, dune part, et 5 et 6, dautre part. Or, ce qui oppose
ces activités n’est pas la modalité de réponse aux items, mais la nature du document support principal,
qui est écrit pour les activités 2 à 4 et oral pour les activités 5 et 6 (pour lactivité 1 il sagit dun graphique).
Cela montre quil serait trop restrictif de vouloir évaluer la compétence à comprendre et à traiter de
l’information en se satisfaisant dun seul type de support. En comparaison, les différences de modalités
de réponse ne semblent pas, pour le public concerné, avoir un impact notable sur les performances des
candidats.
382
Figure 5 : Cercle des corrélations pour les activités à correction automatique
Une autre façon de questionner la dimensionnalité des activités à correction automatique est dappliquer
un modèle de Rasch aux données (en considérant cette fois-ci les scores par item) et de mener une
analyse en composantes principales sur les résidus standardisés. Cela permet notamment de tester
l’hypothèse dunidimensionnalité qui est une des conditions dapplication du modèle. Lanalyse menée
avec le logiciel jMetrik, en considérant les items comme dichotomiques, met en évidence 5 facteurs
principaux qui expliquent la variance résiduelle, mais de manière comparable, ce que résume le
tableau 3.
Tableau 3 : Inertie des facteurs principaux de lanalyse en composantes principales des résidus standardisés
(jMetrik)
F1 F2 F3 F4 F5
Eigen value 2,84 2,36 2,11 2,02 1,88
Proportion Var 0,06 0,05 0,04 0,04 0,04
Proportion Explained 0,25 0,21 0,19 0,18 0,17
Ce sont des items de lactivité 2 qui saturent le plus sur le premier facteur, en opposition avec des items
de lactivité 5 et 6, dans une moindre mesure. Or ces deux activités sont toutes deux des activités au
format glisser-déposer. Lactivité 2 se rapporte cependant à un support principal écrit alors que lactivité
5 se rapporte à un support principal oral. Encore une fois, cest davantage la différence de canal entre
documents supports (écrit versus oral) qui est susceptible dintroduire une seconde dimension dans le
test que les différences de modalité de réponse, du moins pour le public considéré. Les données
d’ajustement des items au modèle de Rasch sont par ailleurs satisfaisantes, à de rares exceptions près.
Modèle de mesure
L’un des objectifs de la CCI Paris Ile-de-France est de constituer une banque dactivités calibrée pour
favoriser la réutilisation des activités dans de nouveaux questionnaires de difficulté comparable et
383
faciliter la définition des points de césure en sappuyant sur les caractéristiques empiriques des items.
La théorie de réponses à litem fournit un cadre approprié pour une telle entreprise, comme Hambleton
et Swaminathan lont bien montré, dès 1985. Sa mise en œuvre nécessite toutefois de veiller au respect
de conditions dapplication que sont, en reprenant les définitions de Laveault et Grégoire (2014)
l’unidimensionnalité (« tous les items doivent mesurer un seul et même trait ») et lindépendance locale
le trait qui fait lobjet de lévaluation doit être le seul facteur qui détermine la variabilité des réponses
aux items dun test »). Compte-tenu de la taille de notre échantillon, nous privilégions lutilisation d’un
modèle de Rasch (Penta et al., 2005), qui ajoute une contrainte supplémentaire : la capacité
discriminatoire des items76 doit être comparable.
Les résultats de lanalyse en composantes principales des résidus standardisés, présentée en fin de
section précédente, nous rassure sur lunidimensionnalité du questionnaire. Lanalyse ne met pas en
évidence un facteur qui expliquerait de façon prépondérante la variance des résidus standardisés. Une
vérification plus approfondie de cette hypothèse mériterait toutefois dêtre entreprise en mobilisant des
techniques plus spécifiques, comme lanalyse factorielle non-linéaire ou lutilisation de la procédure
DIMTEST (Laveault et Grégoire, 2014, p. 295), qui ne sont pas disponibles dans jMetrik.
Un moyen de tester lhypothèse dindépendance locale est dobserver les corrélations entre les résidus
des candidats (Yen, 1984 ; Yen, 1993), ce que permet de faire aisément jMetrik. Lanalyse des données
du diplôme de français professionnel Affaires B1 montre (en considérant comme dépendants les items
pour lesquels la corrélation entre résidus est supérieure ou égale à 0,25) une dépendance locale entre
plusieurs items pour lactivité 2, lactivité 3 et une dépendance forte entre items pour lactivité 5. Cela
confirme quen faisant porter différents items sur un même (ensemble de) document(s) support(s), il y a
un risque élevé dintroduire une dépendance entre items. Limportance de cette dépendance pour les
items de lactivité 5 est probablement due à la nécessité dordonner les options sélectionnées : si une
option nest pas à sa place, la suivante risque de ne pas lêtre non plus. Or les dépendances entre items
peuvent avoir des conséquences importantes sur la validité des estimations (Tuerlinckx et de Boeck,
2001) et conduisent à une surestimation de linformation apportée par les items, donc à une sous-
estimation des erreurs de mesure. Cela peut également avoir un impact significatif sur les estimations
des individus (Sideridis, 2011) et donc sur la définition de points de césures sappuyant sur ces données
empiriques.
Verhelst et Verstralen (2008) proposent comme solution à ce problème de mettre en œuvre le modèle
à crédit partiels (généralisation du modèle de Rasch) proposé par Masters (1982), en regroupant les
items dune même activité en un item polytomique dont le score correspond au nombre de bonnes
réponses données par le candidat aux différents items constituant l’activité. La mise en œuvre dun tel
modèle peut être réalisée au moyen de jMetrik. Le tableau 4 compare les indices statistiques des deux
modèles : items dichotomiques (considérés, à tort, comme localement indépendants) dune part, et
mélange ditems dichotomiques et polytomiques (indépendants localement), dautre part.
76 Dans les modèles de réponse aux items, le paramètre « a », qui correspond à la pente de la courbe
caractéristique de litem en son point dinflexion est interprété comme la capacité discriminatoire de litem. Le
modèle de Rasch contraint cette valeur à 1.
384
Tableau 4 : statistiques relatives à la qualité des échelles des modèles
Items dichotomiques considérés comme
localement indépendants
Mélange ditems dichotomiques
et polytomiques
Items
Individus
Items
Individus
Variance observée
1,0592
1,2093
0,8453
1,0088
Écart-type
1,0292
1,0997
0,9194
1,0044
Erreur quadratique moyenne
0,0541
0,2247
0,0490
0,2085
Racine carrée de lerreur
quadratique moyenne
0,2326 0,4740 0,2214 0,4566
Variance ajustée
1,0051
0,9846
0,7963
0,8003
Écart-type ajusté
1,0025
0,9923
0,8924
0,8946
Indice de séparation
4,3104
2,0934
4,0311
1,9591
Nombre de strates
6,0805
3,1246
5,7082
2,9455
Fidélité de la séparation
0,9489
0,8142
0,9420
0,7933
Le modèle tenant compte de la dépendance locale entre items conduit à une moindre variance dans les
données et à des indices de fidélité légèrement plus faibles, notamment en ce qui concerne la séparation
des individus. En menant une analyse classique sur les items qui tient du regroupement polytomique,
une nouvelle estimation de la fidélité par consistance interne peut être obtenue (alpha de Cronbach de
0,76, contre 0,85 dans le modèle dichotomique), ainsi que de lerreur de mesure liée à léchantillonnage
(3,31 points contre 2,68 points). Ces différences sont appréciables et montrent limportance de contrôler
la présence dune dépendance locale entre items.
La dernière condition dapplication du modèle de Rasch est lhypothèse de capacité discriminatoire
équivalente des items. Cette hypothèse peut être vérifiée en appliquant un modèle à 2 paramètres aux
données (pour les items dichotomiques) et en analysant la dispersion des valeurs du paramètre de
discrimination. La figure 6 représente la distribution des valeurs de ce paramètre pour notre cas de
figure. La discrimination des items varie entre 0,47 et 1,62 et elle est comprise entre 0,79 et 1,24 pour
la moitié des items.
Figure 6 : Cercle des corrélations pour les activités à correction automatique
385
Si la condition d’égale discrimination des items ne semble quen partie satisfaite, il ny a pas de présence
de cas vraiment extrêmes, et compte-tenu de la taille de léchantillon, les estimations du paramètre « a »
comportent une erreur-type importante (entre 0,16 et 0,50). Cela ne nous semble pas justifier un rejet
du modèle proposé.
Conclusion
La CCI Paris Ile-de-France a fait le choix de tirer parti des possibilités de loutil informatique dans le
cadre de son projet de refonte des diplômes de français professionnels, en exploitant différents formats
d’items et en proposant une évaluation par des tâches plus complexes.
Compte-tenu de la nature du public ciblé par les diplômes de français professionnel, les différences
éventuelles de familiarité des candidats avec loutil informatique ne semblent pas, pour les activités
proposées dans le Diplôme de français professionnel Affaires B1, introduire une variance non souhaitée
dans les données. Cest davantage la nature écrite ou orale des documents supports, sur lesquels
s’appuient les tâches, qui explique les différences de performance entre individus selon les tâches.
La vérification de cette hypothèse a été menée au moyen dune analyse factorielle multiple sur les scores
aux activités, d’une part, et dune analyse en composantes principales des résidus standardisés après
application dun modèle de Rasch. Une façon supplémentaire de questionner la présence dune
dimension liée aux différences entre modalités de réponse serait dappliquer un modèle
multidimensionnel, en faisant pour cela lhypothèse que les items des activités utilisant des glisser-
déposer comme modalité de réponse contribuent à une seconde dimension et éventuellement que les
activités utilisant des listes de choix contribuent à une dimension supplémentaire. Si un tel modèle
s’avérait significativement mieux ajusté aux données, cela témoignerait de la présence de dimensions
liées aux modalités de réponse.
L’évaluation par tâches complexes, où les candidats ont à compléter en plusieurs endroits un document
de réponse (formulaire, tableau, commentaire, courriel…), sur la base dun même (ensemble de)
document(s) support(s), est cependant susceptible dintroduire des dépendances locales entre items, là
où les modèles de mesure habituels font lhypothèse de mesures indépendantes les unes des autres.
Si aucune précaution nest prise dans lapplication de ces modèles, les qualités métriques rapportées
risquent dêtre surestimées et les informations empiriques, sur lesquelles sappuie la prise de décision
concernant létablissement de points de césures, erronées.
Il convient donc de détecter les cas de dépendance locale entre items et, lorsque de telles dépendances
existent, didentifier un modèle de mesure plus approprié pour le traitement des données. Une solution
envisageable est de regrouper les items dépendants en items polytomiques et, lorsquon souhaite
s’appuyer sur la théorie de réponse à litem, dappliquer un modèle à crédits partiels. On obtient alors
un meilleur ajustement des données au modèle et des estimations plus fiables des propriétés métriques
de léchelle et des paramètres des items et des individus.
Références
Bennett, R. E. (2003), Online Assessment and the Comparability of Score Meaning, Educational Testing Service
Research Memorandum RM-03-05, [en ligne] [www.ets.org/Media/Research/pdf/RM-03-05-Bennett.pdf]
Casanova, D., Crendal, A., Holle, A., Demeuse, M. (2011). Élaboration dune version électronique équivalente à
la version papier-crayon dun test de français langue étrangère à enjeux critiques. In J.G. Blais et J.L. Gilles
(éds). Évaluation des apprentissages et technologies de linformation et de la communication. Québec : Les
presses de lUniversité Laval. (pp. 245-266).
386
Demeuse, M., et Henry, G. (2004). Théorie (classique) des scores de test (chap.5). In Demeuse (Dir.)
Introduction aux théories et aux méthodes de la mesure en sciences psychologiques et en sciences de
l’éducation. Notes de cours, Version janvier 2004, mise à jour janvier 2008, format PDF [http://iredu.u-
bourgogne.fr/images/stories/Documents/Cours_disponibles/Demeuse/Cours/racine.pdf].
Diarra, L. (2012). Comparabilité entre modalités dévaluation TIC et papier-crayon : cas de productions écrites en
français en cinquième secondaire au Québec. Thèse de doctorat, Université de Montréal.
Grondin, J., Dionne, E., Savard, J., et Casimiro, L. (2017). Démonstration dune méthodologie mettant à profit les
modèles de Rasch : l’exemple dune échelle de mesure de loffre active de services de santé en français
(chap.1). In E. Dionne et G. Raîche (éds.). Mesure et évaluation des compétences en éducation médicale :
Regards actuels et prospectifs. Presses de lUniversité du Québec.
Hambleton R.K., Swaminathan H. (1985). Item Banking. In R.K. Hambleton & H. Swaminathan. Item Response
Theory, p. 255-279. Dordrecht : Springer.
Houssemand, C., R. Meyers et R. Martin (2009). « L’évaluation du profil psychosocial de demandeurs demploi,
une population peu familiarisée à la technologie informatique ». In J.-G. Blais (éd.). Évaluation des
apprentissages et technologies de linformation et de la communication. Enjeux, applications et modèles de
mesure, p.137-158. Québec : Les Presses de lUniversité Laval.
Laurier, M. D. et Diarra, L. (2009). « L’apport des technologies dans lévaluation de la compétence à écrire ».
Dans J.-G. Blais (éd.). Évaluation des apprentissages et technologies de linformation et de la communication.
Enjeux, applications et modèles de mesure, p. 77- 104. Québec : Les Presses de lUniversité Laval.
Mead, A., D. et F. Drasgow (1993). « Equivalence of computerized and paper-and-pencil cognitive ability tests : a
meta-analysis ». Psychological Bulletin, 114(3), p. 449-458.
Meyer, J.P. (2014). Applied Measurement with jMetrik. New-York : Routledge.
Penta, M., Arnould, C., Decruyanaere, C. (2005). Développer et interpréter une échelle de mesure : applications
du modèle de Rasch. Sprimont : Mardaga.
Richer, J.J. (2014). Conditions dune mise en œuvre de la perspective actionnelle en didactique des langues ».
Recherche et pratiques pédagogiques en langues de spécialité [En ligne], Vol. XXXIII 1, mis en ligne le 03
mars 2014, consulté le 29 mars 2018. URL : http://journals.openedition.org/apliut/4162 ;
DOI:10.4000/apliut.4162
Russell, M. et Haney, W. (2000). Bridging the Gap Between Testing and Technology in Schools. Education
Policy Analysis Archives, 8(19).
Sideridis, G.D. (2011). The Effects of Local Item Dependence on Estimates of Ability in the Rasch Model. Rasch
Measurement Transactions, 2011, 25:3, 1334-6
Tuerlinckx, F., et De Boeck, P. (2001). The effect of ignoring item interactions on the estimated discrimination
parameters in item response theory. Psychological Methods, 6, 181-195.
Verhelst, N.D. et Verstralen, H.H.F.M. (2008). Some Considerations on the Partial Credit Model. Psicologica, 29,
229-254.
Yen, W.M. (1984). Effects of local item dependance on the Fit and Equating Performance of the Three-
Parameter Logistic Model. Applied Psychological Measurement, 53, 125-145.
Yen, W.M. (1993). Scaling performance assessments : Strategies for managing local item dependence. Journal
of Educational Measurement, 30, 187-213.
... Les items à correction automatisée du diplôme de français professionnel Affaires B1 Le second cas d'étude porte sur le diplôme de français professionnel Affaires B1, qui comporte 6 activités sur ordinateur à correction automatisée (listes déroulantes et glisserdéposer). Une étude préalable, au moyen d'analyses en composantes principales, avait mis en évidence une potentielle seconde dimension liée à la nature écrite ou orale du document support principal de ce sous-test (Casanova et al., 2018b), ce qui pose la question de la pertinence de restituer un score unique à ce sous-test. Cette éventuelle seconde dimension ne ressortant que faiblement des analyses, nous avons souhaité confirmer son existence et en apprécier l'importance au moyen d'un modèle à deux dimensions. ...
... A l'opposé, les résultats obtenus pour le diplôme (mais sur un échantillon limité et en privilégiant le maximum de vraisemblance pour les estimations) semblent confirmer la présence d'une seconde dimension non négligeable. Cela contredit les conclusions d'une analyse en composante principale des résidus menée sur les mêmes données (Casanova & al., 2018b). Cependant, étant donnée l'emplacement des items dans le questionnaire, on ne ...
Conference Paper
Full-text available
Dans le domaine de l’éducation, les tests sont créés afin d’évaluer le degré de maîtrise d’une compétence donnée (ou habileté). Cette compétence n’est pas directement observable (on parle de trait latent) mais se manifeste dans la réalisation d’activités, soit, dans le cas d’un test, les réponses données par le candidat à des stimuli variés (items) au sein de tâches. Les réponses aux items et les scores associés sont ainsi des indicateurs de l’habileté du candidat. Pour des raisons de couverture de la compétence évaluée et de précision dans l’estimation de l’habileté des candidats, un test comporte en général plusieurs tâches : on parle d’échantillonnage du contenu. Chaque tâche est constituée de plusieurs items (réponses à des stimuli différents) ou analysée au moyen d’une grille permettant la notation selon différents critères d’observation. Ces tâches et les items qui les constituent contribuent tous à la mesure d’une même compétence, mais sous des angles et dans des situations différentes. Dès lors on se s’attend pas à ce qu’elles donnent toutes exactement le même résultat, sinon il suffirait d’une unique observation pour déterminer l’habileté d’un candidat. Toutefois, lorsque les résultats entre tâches ou entre items sont trop différents, il pourra être utile de les regrouper en sous-tests car la restitution d’un simple score total risque de manquer de pertinence. Dans cette communication, nous proposons une méthodologie de mise en œuvre de modèles multidimensionnels de réponse aux items (Reckase, 2009) pour confirmer a présence d’une seconde dimension présumée et évaluer son impact sur les classements des performances au test.
Chapter
Il existe peu d’instruments servant à mesurer l’offre active de services sociaux et de santé en français dans les communautés francophones en situation minoritaire. Parmi ceux-ci, un seul outil publié a été construit afin d’évaluer les comportements individuels de l’offre active et les propriétés métriques de cet outil ont principalement été analysés à l’aide de la théorie classique des tests (TCT). L’objectif du présent texte consiste à mettre à profit une modélisation de type Rasch afin d’analyser les données recueillies à l’aide de ce questionnaire auprès d’intervenants en santé (n=152). Suivant les recommandations de Tennant et Conaghan (2007), sept aspects ont été pris en compte pour effectuer ces analyses : 1) le choix du modèle, 2) la qualité de l’ajustement pour les sujets et les items, 3) l’échelle de réponses, 4) la dimensionnalité et l’indépendance locale, 5) le fonctionnement différentiel des items, 6) la qualité de l’échelle de mesure, 7) la fidélité. Les analyses effectuées suggèrent que ce type de modélisation serait approprié pour étudier les propriétés de ce genre d’outil.
Book
jMetrik is a computer program for implementing classical and modern psychometric methods. It is designed to facilitate work in a production environment and to make advanced psychometric procedures accessible to every measurement practitioner. Applied Measurement with jMetrik reviews psychometric theory and describes how to use jMetrik to conduct a comprehensive psychometric analysis. Each chapter focuses on a topic in measurement, describes the steps for using jMetrik, and provides one or more examples of conducting an analysis on the topic. Recommendations and guidance for practice is provided throughout the book.
Article
La notion de competence, qui a vu dans le monde du travail ses traits definitoires se preciser a partir des annees 1980, permet de reunir un ensemble de notions eparses dans le Cadre europeen commun de reference en langues (2001) en un paradigme methodologique, denomme la Perspective actionnelle. Ce nouveau paradigme a pour caracteristique de permettre de depasser une approche encore tres linguistique de l’enseignement / apprentissage des langues meme temperee par l’introduction du socio-inter-culturel pour l’ouvrir sur une dimension cognitive et psychosociologique mieux a meme de preparer l’apprenant a devenir un « acteur social » a part entiere.
Article
Unidimensional item response theory (IRT) has be come widely used in the analysis and equating of edu cational achievement tests. If an IRT model is true, item responses must be locally independent when the trait is held constant. This paper presents several mea sures of local dependence that are used in conjunction with the three-parameter logistic model in the analysis of unidimensional and two-dimensional simulated data and in the analysis of three mathematics achievement tests at Grades 3 and 6. The measures of local depen dence (called Q2 and Q3) were useful for identifying subsets of items that were influenced by the same fac tors (simulated data) or that had similar content (real data). Item pairs with high Q2 or Q3 values tended to have similar item parameters, but most items with similar item parameters did not have high Q2 or Q3 values. Sets of locally dependent items tended to be difficult and discriminating if the items involved an accumulation of the skills involved in the easier items in the rest of the test. Locally dependent items that were independent of the other items in the test did not have unusually high or low difficulties or discrimina tions. Substantial unsystematic errors of equating were found from the equating of tests involving collections of different dimensions, but substantial systematic er rors of equating were only found when the two tests measured quite different dimensions that were presum ably taught sequentially.