LA DOCIMOLOGIE EFFORT D'EXPLICITATION

LA DOCIMOLOGIE EFFORT D'EXPLICITATION

Depuis les premiers travaux de docimologie réalisés avant 1930 par H. PIERON, D. LAUGIER et J. WEINBERG, une évolution sensible a marqué le développement de cette «étude systéma­tique des examens ». La docimologie a vu son domaine s'élargir : elle ne concerne plus les seuls examens mais, de façon plus géné­rale, toutes les méthodes utilisées pour porter sur les élèves une appréciation. Les recherches entreprises, d'abord exclusive­ment ou essentiellement critiques, s'efforcent aujourd'hui d'ap­porter des contributions positives. Cette évolution résulte en par­tie des circonstances (notamment de l'intérêt accru qui s'est attaché à l'orientation scolaire) mais en partie aussi de la logique propre aux recherches docimologiques elles-mêmes. En effet, si l'on a étudié systématiquement et expérimentalement les mé­thodes d'examen ou d'appréciation, ce fut d'abord pour expliciter le degré d'objectivité des notes ou jugements qu'elles fournis­saient. C'est en se prenant à son propre jeu que la docimologie a évolué.

Le principe des premières expériences de docimologie (dont la répétition garde pour les enseignants un grand intérêt) est bien connu : deux appréciateurs différents notent indépendamment la même série de copies, et l'on compare leurs appréciations. Pour justifier le principe de telles expériences, on est conduit à dis­tinguer explicitement les rôles pouvant être assignés à de telles appréciations.

Elles peuvent avoir tout d'abord des fins proprement pédago­giques. Chaque enseignant a ressenti la nécessité de faire varier le niveau de ses critères suivant les circonstances de la vie de la classe. Cette variation délibérée des échelles d'appréciation ne relève naturellement que de l'art du pédagogue, et le problème de l'objectivité de telles notations ne se pose pas.

Une appréciation peut constituer aussi un pronostic d'adap­tation. Dans ce cas, elle ne tient pas seulement compte du résultat obtenu, mais des conditions dans lesquelles il l'a été (âge, condi­tions familiales, etc.) ainsi que de la nature et du niveau des exigences à satisfaire dans les études envisagées. Deux résultats identiques, obtenus dans des conditions différentes peuvent légi­timement donner lieu à des appréciations-pronostics différentes. Mais la valeur, la « validité » de ces pronostics est ici vérifiable : il suffit de les comparer, le moment venu, aux résultats réellement obtenus.

L'expérience montre que leur valeur moyenne, pour des popu­lations entières d'enfants, reste très faible.

Enfin une appréciation peut avoir pour objet un simple constat des résultats acquis. Dans ce cas, le critère de l'objectivité réside bien dans le degré d'accord entre appréciateurs indépendants, que les expériences docimologiques classiques permettent d'estimer.

Méthodologiquement, ces expériences obligent également à expliciter des notions comme celles de « valeur d'un pronostic » ou de « degré d'accord ». Il ne peut s'agir en effet de fonder ces notions sur une impression globale que chaque participant à ces expériences pourrait avoir éprouvée. Il ne peut suffire de justifier ces impressions par le récit de quelques cas. Alors que l'ensei­gnement lui-même est d'autant plus efficace et vivant qu'il est plus individualisé, une expérimentation ayant pour but de mettre à l'épreuve une technique pédagogique (ici les procédés d'appré­ciation) n'a de sens que dans la mesure où son résultat décrit et analyse des faits généraux : c'est la population générale des élè­ves d'un certain niveau que cette technique concerne. Bien en­tendu, la même technique ne conduira pas au même résultat pour tous les élèves, un grand nombre de circonstances imprévisibles entrant en ligne de compte dans chaque cas particulier. Les juge­ments que l'on peut porter en la matière sont donc nécessaire­ment de forme statistique. Les statistiques dont il s'agit n'ont rien en commun avec celles qui sont dressées à des fins administra­tives. La méthode statistique est ici une méthode d'analyse des résultats expérimentaux, qui est utilisée dans tous les domaines où les phénomènes observés sont affectés par des sources de va­riation nombreuses et incontrôlables, notamment en biologie et en psychologie. La pédagogie expérimentale fait un large usage des méthodes statistiques dans tous les pays où elle est pratiquée de façon systématique. Son utilisation en docimologie permet de résumer des ensembles d'observations envisagés sous des as­pects différents, qu'elle conduit à distinguer explicitement : deux professeurs peuvent noter autour de la même note moyenne, mais utiliser des échelles plus ou moins largement étalées ; ils peuvent utiliser deux moyennes différentes, mais cependant classer les élèves à peu près dans le même ordre, etc. Ces distinctions conduisent à préciser ce que l'on entend exactement par des ex­pressions telles, par exemple, que « degré d'accord ». Elles per­mettent de distinguer explicitement la valeur que peuvent avoir des notes considérées dans les fonctions différentes : ordonner les élèves d'une classe ou situer chacun d'eux dans l'ensemble des élèves du département ou de l'Académie. L'expérience montre que les notes scolaires traditionnelles n'assument pas ces différentes fonctions avec la même efficacité.

Cet instrument d'analyse des observations qu'est la statis­tique permet aussi de comparer le degré d'objectivité ou la valeur pronostique de procédés d'appréciation différents. C'est la voie ouverte à une docimologie constructive, qui va rechercher quels sont les procédés les plus objectifs ou les plus valides parmi ceux qui sont employés, proposer et mettre à l'épreuve expérimentale des procédés nouveaux, en précisant explicitement dans quelles circonstances, à quels points de vue et dans quelle mesure ils peuvent apporter une amélioration aux procédures actuelles.

Des recherches entreprises dans cet esprit ont été peu favo­rables à certaines solutions couramment préconisées sur des bases intuitives. C'est ainsi que le fait de supprimer les notes chiffrées et de les remplacer par des appréciations verbales diminue le degré d'accord entre notateurs indépendants, au lieu de l'améliorer. Les entretiens d'un candidat avec un jury donnent lieu à des diffé­rences d'appréciation considérables lorsque les mêmes candidats sont examinés successivement par deux jurys. Les appréciations portées par les professeurs sur leurs élèves à l'issue d'une année de scolarité sont plus difficiles à étudier expérimentalement. On a pu constater cependant que la valeur pronostique des jugements d'instituteurs de Cours Moyen 2e année, concernant la réussite de leurs élèves en 6e et 5e, est très faible, plus faible que celle d'un simple questionnaire de connaissances. Il est très probable que ce genre d'appréciations, à tous les niveaux de la scolarité, est profondément affecté par les énormes différences qui ont été constatées entre le niveau moyen de classes portant la même déno­mination, dans des établissements de même type.

En fait, deux catégories de mesures paraissent actuellement possibles pour améliorer, sur des points explicitement délimités, les procédures actuelles d'appréciation.

On peut tout d'abord fournir aux professeurs chargés d'exa­miner ou d'apprécier, des informations de nature statistique, sus­ceptibles de faciliter leur tâche. Voici quelque exemples :

Si des candidats sont répartis au hasard (ordre alphabétique) entre plusieurs examinateurs les interrogeant sur le même pro­gramme, les différences entre les moyennes des notes attribuées par ces différents examinateurs ne peut être que faible, la diffé­rence la plus probable étant nulle. On peut donc proposer à chaque examinateur, à l'issue des interrogations, d'ajouter (ou de retran­cher) à l'ensemble de ses notes le nombre de points nécessaires pour que sa moyenne individuelle devienne égale à la moyenne générale. Il convient de préciser que cette mesure est seulement a plus probablement équitable, qu'elle constitue seulement le meilleur parti que l'on peut prendre ; et d'autre part qu'elle n'égalise (dans ces limites) que le niveau moyen des appréciations des différents examinateurs, restant sans effet sur la dispersion de leurs notes (qui pourrait être égalisée par un procédé de même nature) et sur leur façon de classer les candidats.

Chaque professeur témoigne d'une relative stabilité quant au niveau moyen de son échelle d'appréciation. Il est sans doute pos­sible d'informer chacun sur la position relative de sa moyenne habituelle, en améliorant la procédure de l'expérience consistant à soumettre un même échantillon de copies à un grand nombre de professeurs et à informer ensuite chacun de la distribution des notes observées pour l'ensemble des participants.

Il est possible également d'informer chaque professeur sur le niveau moyen de la classe qui lui est confiée. Il suffit de sou­mettre un large groupe de classes à une même épreuve normali­sée dans sa présentation et son barême de notation. La publication de l'ensemble des résultats obtenus permet à chacun de situer sa propre classe (l'expérience peut être organisée de façon telle qu'il soit seul à connaître la position de sa classe dans l'ensem­ble). Cette information laisse au professeur la liberté de classer ses élèves comme il l'entend mais le met en mesure, si ses notes doivent être comparées à celles qui sont attribuées dans d'autres classes, d'adopter un niveau moyen de notation qui tienne compte de la position de sa classe dans l'ensemble.

On voit que les deux derniers procédés qui viennent d'être suggérés présentent des limites comparables à celles qui ont été explicitées pour le premier : il s'agit toujours d'une approximation (que l'on peut seulement espérer améliorer puisqu'elle est ici défi­nissable et peut être estimée par une procédure expérimentale) et d'une approximation portant seulement sur le choix d'une échelle numérique de notation. Cette seconde limitation est la plus sé­vère : rien, dans les procédés de cette première catégorie ne permet de rendre plus objectif, c'est-à-dire d'abord plus explicites, les critères qui conduisent un professeur à classer ses élèves, ou les copies qui lui sont soumises, dans un ordre plutôt que dans un autre. Ce problème est plus fondamental que le premier, en ce sens qu'il met en cause de contenu même des échelles de valeur utilisées, et plus seulement la forme, numérique ou non, sous laquelle elles s'expriment. Une seconde catégorie de procédés permet de l'aborder, sinon de le résoudre.

On a étudié des épreuves de forme nouvelle dans lesquelles la réponse du sujet à une question ne peut prendre qu'un nombre limité de formes différentes. Souvent, ces différentes réponses possibles sont même proposées au candidat, qui se borne à choi­sir entre elles. Une convention explicite peut donc ici être établie à l'avance, accordant un certain nombre de points pour chacun des choix possibles. La construction et l'expérimentation préalable d'une telle épreuve est une tâche difficile, exigeant la collabora­tion entre des spécialistes de la matière sur laquelle porte l'épreuve et un technicien spécialisé dans ce genre de travaux. Les avantages et les limites de ces épreuves doivent être rappelés.

Ces épreuves ne laissent évidemment plus aucune place aux divergences entre utilisateurs. Leur notation peut être confiée à un personnel non qualifié ou, plus avantageusement encore, à une machine. Appliquées à des populations étendues, elles peuvent fournir à chaque enseignant des informations statistiques précises sur la position de ses élèves dans la population à laquelle ils appartiennent. L'utilité proprement pédagogique d'informations de ce type ne doit pas être perdue de vue. Elles peuvent concerner en effet chacun des points du programme et permettre par consé­quent à chaque enseignant d'être explicitement informé sur ceux de ces points pour lesquels sa classe présente en moyenne une lacune relative par rapport à son niveau moyen global. De telles lacunes peuvent fort bien passer inaperçues si l'information du professeur se fonde uniquement sur des comparaisons entre ses propres élèves.

Les limites de ces épreuves normalisées paraissent aussi évidentes, mais elles valent qu'on y réfléchisse. Il n'est pas dou­teux qu'il est plus facile de construire de telles épreuves pour dresser un bilan de connaissances acquises que pour apprécier la façon dont ces connaissances sont utilisées ou les qualités d'esprit et de sensibilité dont l'enfant témoigne. Pour mesurer équitablement le poids de cette objection, il faut bien entendu tenir compte des progrès qui ont été réalisés dans la construction des épreuves de ce type. Une réponse de forme simple n'implique pas nécessairement que le raisonnement qui conduit à cette ré­ponse soit lui-même simple. Une mise en oeuvre complexe de connaissances diverses peut être exigée. D'autres questions peu­vent fournir dans leur énoncé, toutes les connaissances nécessai­res, et ne porter donc que sur les qualités d'esprit qui permettront de les utiliser (on rejoint là les tests d'intelligence et d'aptitudes des psychologues). Ce type d'objection reste cependant fondé, dans la mesure où l'on peut reprocher aux épreuves normalisées de ne pas refléter fidèlement les objectifs de l'éducation (et, en particulier, de susciter un travail de préparation dont l'esprit soit différent de celui que l'on entend donner à l'enseignement).

La portée de cette objection est alors considérable. Les épreu­ves dont il s'agit sont en effet, de nouveau, des procédures tota­lement explicites. Pour montrer qu'elles ne répondent pas aux objectifs de l'éducation, et pour permettre ainsi de les améliorer, il devient inévitable de formuler explicitement ces objectifs. C'est une tâche facile si l'on se borne à utiliser un vocabulaire très générai, en évitant de se demander si des éducateurs différents entendent bien de la même façon les mots qu'ils emploient, et s'ils tirent bien les mêmes conséquences concrètes des principes qu'ils énoncent. Mais si, pris au jeu de l'explication, on se pose de telles questions, on est amené à craindre que les difficultés de la notation soient beaucoup plus fondamentales qu'il n'y paraît d'abord, et qu'elles mettent en cause l'idée que chaque éduca­teur se fait de la tâche qui lui est confiée. Des expériences ont été faites dans ce domaine, dont on voit combien elles élargissent la portée de la docimologie classique. Des professeurs enseignant en seconde ont été priés de définir explicitement l'état des con­naissances qu'ils jugeaient souhaitable pour des élèves entrant dans cette classe. Leurs réponses ont été divergentes à un tel point que la définition des objectifs éducatifs de la classe de 3e semble à peu près indéterminable. On conçoit que la composition d'une épreuve de connaissances adaptée à ce niveau soit un pro­blème qui ne comporte dans ces conditions aucune solution. Par des méthodes différentes da pédagogie américaine notamment tra­vaille aussi à expliciter une « taxonomie des buts de l'éducation » pour chaque matière et à chaque niveau (BLOOM).

On voit comment la docimologie, en posant la question « Com­ment apprécier les résultats de l'éducation ? » conduit, par le simple jeu de sa logique propre, à poser une question beaucoup plus fon­damentale. « Quels sont des buts de l'éducation ? ». Se trouvera-t-il des éducateurs pour affirmer que tous les buts de l'éducation ne peuvent pas être formulés explicitement, qu'ils ne doivent pas l'être ? L'adoption d'un tel postulat constituerait certainement une mauvaise attitude méthodologique. Je me range parmi les éduca­teurs qui penseront, en outre, qu'ils ont socialement le devoir de chercher à expliciter le rôle qu'ils jouent.

M. REUCHLIN.

aller à la page suivante du dossier

retour à l'introduction du dosier

retour à la page d'accueil