ArticlePDF Available

Évaluer le français professionnel, une affaire de professionnels et une entreprise collective

Authors:

Abstract

Le travail au sein de l’équipe du français des affaires de la Chambre de commerce et d’industrie de région Paris Ile-de-France présente de multiples facettes. Il répond aux standards de qualité qui s’imposent à présent en matière de tests à forts enjeux. Cela nécessite la mobilisation d’une équipe pluridisciplinaire, au-delà de la production de nouvelles versions d’un même instrument. La palette de l’offre, notamment dans le domaine du français des affaires, continue à se développer, abordant de nouveaux domaines, mais celle-ci doit aussi faire face à de nombreux défis: généralisation de l’utilisation du numérique pour la gestion des épreuves, modification du format des interfaces destinées aux candidats, adaptation à l’évolution des exigences des prescripteurs et des référentiels, sécurisation accrue et recours à la technologie pour mieux assurer la qualité des corrections des productions complexes, tant orales qu’écrites... Tous ces développements ont pu se réaliser avec une équipe à la taille relativement réduite, si on la compare aux équipes qui assurent par exemple le développement des tests en langue anglaise. Par ailleurs, le monde francophone de l’évaluation a longtemps été réfractaire aux développements liés à la mesure et à l’évaluation, en particulier dans le domaine de l’évaluation linguistique. Il a donc fallu aussi développer en interne des compétences spécifiques qu’il était très difficile de trouver sur le marché francophone. Cet article a tenté d’offrir une réflexion nourrie par une vingtaine d’années de collaboration. Ce regard dans le rétroviseur, permet de mesurer le chemin accompli tout en entrevoyant les développements à venir. Ceux-ci impliqueront de plus en plus le traitement automatisé et l’intelligence artificielle. C’est assurément le tournant à ne pas manquer pour maintenir les produits de notre équipe au niveau d’exigence qu’ils ont pu atteindre jusqu’ici.
A preview of the PDF is not available
ResearchGate has not been able to resolve any citations for this publication.
Conference Paper
Full-text available
Dans le domaine de l’éducation, les tests sont créés afin d’évaluer le degré de maîtrise d’une compétence donnée (ou habileté). Cette compétence n’est pas directement observable (on parle de trait latent) mais se manifeste dans la réalisation d’activités, soit, dans le cas d’un test, les réponses données par le candidat à des stimuli variés (items) au sein de tâches. Les réponses aux items et les scores associés sont ainsi des indicateurs de l’habileté du candidat. Pour des raisons de couverture de la compétence évaluée et de précision dans l’estimation de l’habileté des candidats, un test comporte en général plusieurs tâches : on parle d’échantillonnage du contenu. Chaque tâche est constituée de plusieurs items (réponses à des stimuli différents) ou analysée au moyen d’une grille permettant la notation selon différents critères d’observation. Ces tâches et les items qui les constituent contribuent tous à la mesure d’une même compétence, mais sous des angles et dans des situations différentes. Dès lors on se s’attend pas à ce qu’elles donnent toutes exactement le même résultat, sinon il suffirait d’une unique observation pour déterminer l’habileté d’un candidat. Toutefois, lorsque les résultats entre tâches ou entre items sont trop différents, il pourra être utile de les regrouper en sous-tests car la restitution d’un simple score total risque de manquer de pertinence. Dans cette communication, nous proposons une méthodologie de mise en œuvre de modèles multidimensionnels de réponse aux items (Reckase, 2009) pour confirmer a présence d’une seconde dimension présumée et évaluer son impact sur les classements des performances au test.
Article
Full-text available
MOTS CLÉS : Activité évaluative, programme, « référentialisation » Nous proposons de distinguer, en nous inspirant des théorisations de l'évaluation, des éléments invariants qui seraient constitutifs de l'activité évaluative. Nous tentons ensuite de comparer la façon dont ils sont utilisés et nommés dans des pratiques d'évaluation de «programme/dispositif», en France et au Québec. Nous proposons enfin une modélisation de l'évaluation de «programme/dispositif», qui touche à la fois à l'objet et à l'activité d'évaluation sur la base de ses invariants (démarche théorique) et qui peut se décliner, dans la pratique, sous forme de pro-tocole méthodologique : la « référentialisation ». KEY WORDS : Evaluative practices, program, « référentialisation » Our purpose is to identify invariant elements describing evaluative practices within the evaluation theories. We try then to compare the way they are used and named in « program » evaluation practices in France and Quebec. We finally propose a model, called « référentialisation », of evaluation's object and practice based on these invariant elements. It can also be used as a method to evaluate. PALAVRAS-CHAVE : Actividade avaliativa, programa, « referencialização » Propomo-nos distinguir, inspirando-nos nas teorizações da avaliação, os elementos que serão constitutivos da actividade avaliativa. Seguidamente, tentamos comparar a forma como eles são utilizados e nomeados nas práticas de avaliação de «programa/dispositivo», em França e no Québec. Finalmente, propomos uma modelização da avaliação de «programa/dispositivo», que toca simultaneamente o objecto e a actividade de avaliação, na base das suas invariantes (procedimento teórico) e que pode declinar-se, na prática, sob a forma de protocolo metodológico: a « referencialização ».
Article
Full-text available
The purpose of the study is to give insights about the four language skills and language use assessed in achievement tests and the possible backwash effect of the items on both learning/teaching processes in English preparatory classes at the tertiary level. For this purpose, some samples of achievement tests from 13 institutions have been collected and analyzed in terms of test items used to assess four language skills, language use and vocabulary, and their potential backwash effect. The results have revealed that reading skill and subskills, language use and vocabulary knowledge are assessed in the achievement tests by all institutions. However, listening, writing and speaking skills are assessed by 70 % of the institutions. In addition, 15% of them also assess translation in their achievement tests. All in all, four language skills and their subskills are tested to some extent in almost all institutions. This is a very effective approach to create needs for the learners to focus on four language skills and to get them ready for their academic life as the tests items/tasks have tendency to assess performance rather than language knowledge solely. Keywords: backwash effect; achievement test; criterion referenced test; language skills test.
Article
Full-text available
L’évaluation des compétences linguistiques des adultes en français langue étrangère est l’objet de nombreux enjeux : reconnaissance et validation des acquis de l’expérience ou d’apprentissages formels non certifiés, notamment. Le Conseil de l’Europe, mais aussi les services canadiens de l’immigration (Citoyenneté et Immigration Canada) ou les autorité s responsables de l’enseignement supérieur des pays francophones (comme la France ou la Communauté française de Belgique), définissent des standards destinés à permettre l’évaluation des compétences linguistiques de sujets adultes dans le domaine du français. Les objectifs de ces organismes peuvent être très variables et les enjeux, pour les candidats à l’évaluation, plus ou moins importants (depuis la reconnaissance d’un niveau de français dans la perspective d’une valorisation barémique jusqu’à la possibilité d’accéder à des études supérieures en France ou en Belgique, ou à être admis comme immigrant économique sur le territoire canadien). Si, explicitement ou non, les différents organismes font recours à une approche par compétences, les référentiels peuvent se présenter de manière extrêmement variée : le Conseil de l’Europe, à travers son cadre commun de référence, et Citoyenneté et Immigration Canada, développent un document très complet et publié alors que les autorités académiques belges et françaises privilégient le travail de commissions chargées de créer ou d’agréer des outils (tests ou examens) d’évaluation. D’autres acteurs, publics ou privés, développent par ailleurs, en rapport avec les référentiels mentionnés, des outils qu’ils soumettent à l’agrément des différentes autorités publiques. C’est dans ce cadre, celui de l’opérationnalisation à travers un outil d’évaluation particulier, dont l’objectif est de correspondre à un ensemble de référentiels, que cette communication se situe. Elle mobilise à la fois une équipe de conception et un chercheur indépendant chargé d’assurer le contrôle qualité de la production et du suivi des tests. Après une mise en correspondance des différents référentiels externes et du référentiel propre de l’outil d’évaluation lui-même, les auteurs mettront en évidence les stratégies de développement des différentes formes équivalentes (formes parallèles) du test pour chacune des quatre composantes (expression et compréhension de l’oral et de l’écrit). A travers l’analyse de la mise en œuvre d’un test particulier de « français général » pour adultes dont la langue maternelle n’est pas le français, l’exposé tentera de mettre en évidence la complexité d’une réponse spécifique à des prescrits distincts, sous contrainte d’une procédure de qualité totale en voie de certification.
Article
Full-text available
Le contrôle de la qualité des évaluations des productions écrites en français langue étrangère pose de nombreuses questions, encore amplifiées lorsqu’il s’agit de tests à forts enjeux pour les candidats. Cet article illustre comment ce contrôle peut s’appuyer à la fois sur la théorie de la généralisabilité et sur le modèle multifacettes de Rasch pour relever les sources d’erreur (stabilité inter- et intracorrecteurs, variation des stimuli fournis aux candidats pour produire leurs textes…) et en estimer l’importance respective dans le cadre d’un monitorage de la qualité d’une épreuve de français langue étrangère.
Article
Full-text available
Using the method of qualitative metasynthesis, this study analyzes 49 qualitative studies to interrogate how high-stakes testing affects curriculum, defined here as embodying content, knowledge form, and pedagogy. The findings from this study complicate the understanding of the relationship between high-stakes testing and classroom practice by identifying contradictory trends. The primary effect of high-stakes testing is that curricular content is narrowed to tested subjects, subject area knowledge is fragmented into test-related pieces, and teachers increase the use of teacher-centered pedagogies. However, this study also finds that, in a significant minority of cases, certain types of high-stakes tests have led to curricular content expansion, the integration of knowledge, and more student-centered, cooperative pedagogies. Thus the findings of the study suggest that the nature of high-stakes-test-induced curricular control is highly dependent on the structures of the tests themselves.
Article
Dans le contexte d’évaluation à forts enjeux, où des garanties doivent être apportées sur la qualité du dispositif mis en œuvre, notamment pour des épreuves complexes recourant à un jugement humain, la formation, l’accompagnement et le suivi des évaluateurs sont essentiels. Ce travail est d’autant plus pertinent quand le profil des évaluateurs peut être mis en évidence à partir des données de leur activité quotidienne dans le cadre de la mise en œuvre d’un test dont les différentes formes sont administrées régulièrement. Cet article compare deux méthodes pour la détermination des profils de sévérité d’évaluateurs à partir de leurs données de production, dans le contexte d’une épreuve d’expression écrite en français langue étrangère où les jurys de correction regroupent deux évaluateurs. La première méthode s’inscrit dans le cadre de la théorie classique des tests et la seconde s’appuie sur la théorie de réponse aux items, par la mise en œuvre d’un modèle de Rasch multi-facettes. Les deux méthodes donnent des résultats concordants, mais les modèles de Rasch multifacettes imposent des contraintes sur les données initiales et les estimations des paramètres d’interactions peuvent poser problème lorsque trop de facettes sont considérées dans l’analyse. Les résultats montrent l’utilité de tenir compte de la sévérité des correcteurs aux différents points de césure pour améliorer la fidélité du test, même si elle n’explique qu’une part limitée de la variance d’erreur. Ces informations permettent également de dresser des profils d’évaluation individuels des correcteurs, qui peuvent être exploités dans le cadre de leur suivi pour la mise en œuvre d’actions de remédiation ciblées.
Thesis
En France, les étudiants candidatant pour la première fois dans l’enseignement supérieur doivent attester d’un niveau B2 de français. Cependant, les certifications actuellement en place n’ont pas encore intégré les discours universitaires dans leurs épreuves et proposent des évaluations de français général quand on sait qu’il existe un français spécifique à l’Université. Le taux de réussite aux examens des étudiants étrangers est de 40 % inférieur à celui des étudiants natifs. Ce taux d’échec s’explique par une série de facteurs, dont une partie est inhérente à l’aculturation de ces étudiants. En effet, la production de l’écrit en français relève d’une « norme native académique » qui implique la mobilisation de compétences langagières, stratégiques et méthodologiques spécifiques. Face à cette situation, le travail de recherche dans le cadre d’une thèse de doctorat à l’Université de Mons, en collaboration avec la Chambre de Commerce et d’Industrie de la région Paris Ile-de-France, a permis le développement d’une épreuve d’évaluation du niveau de la langue française, spécifique au milieu universitaire. Le test propose une vidéo d’un cours magistral sur un thème particulier que les étudiants visionnent et à laquelle sont associées différentes tâches de production écrite, dont un résumé. La grille critériée conçue pour évaluer ce dernier permet de déterminer le niveau moyen général correspondant à un niveau établi par le Cadre Européen Commun de Référence pour les Langues. Ainsi les résultats obtenus permettent de montrer si, au moment où il passe le test, un étudiant possède le niveau B2, sur une épreuve spécifique. Plusieurs expérimentations ont été menées afin de vérifier la validité écologique, la prédictibilité des résultats ou encore l’influence des sujets proposés. Ce travail présente les différents résultats obtenus ainsi que les poursuites envisagées de la recherche.
Article
Teach: If you teach someone something you give them instructions so they know about it or how to do it; you make them think, feel or act in a new or different way; you explain or show students how to do something. (Collins' COBUILD Dictionary)Test: To find out how much someone knows by asking them questions. (Longman's Active Study Dictionary).'Teach' and 'test' are quite close together in a dictionary, but in testing we do different things from the things we do when we teach. This article assesses the concept of 'backwash' in language teaching, looks at the consequences of testing on teaching in a broad educational context, and suggests that 'negative backwash' makes good language teaching more difficult. The two processes of testing and teaching are considered to be necessary but distinct. A system is described for distinguishing between them which is then applied to developing classroom activities for examination preparation classes, to help teachers move from testing to teaching procedures.