Depuis les premiers
travaux de docimologie réalisés avant 1930 par H. PIERON, D. LAUGIER et J.
WEINBERG, une évolution sensible a marqué le développement de cette «étude
systématique des examens ». La docimologie a vu son domaine s'élargir : elle
ne concerne plus les seuls examens mais, de façon plus générale, toutes les
méthodes utilisées pour porter sur les élèves une appréciation. Les recherches
entreprises, d'abord exclusivement ou essentiellement critiques, s'efforcent
aujourd'hui d'apporter des contributions positives. Cette évolution résulte en
partie des circonstances (notamment de l'intérêt accru qui s'est attaché à
l'orientation scolaire) mais en partie aussi de la logique propre aux
recherches docimologiques elles-mêmes. En effet, si l'on a étudié
systématiquement et expérimentalement les méthodes d'examen ou d'appréciation,
ce fut d'abord pour expliciter le degré d'objectivité des notes ou
jugements qu'elles fournissaient. C'est en se prenant à son propre jeu que la
docimologie a évolué.
Le principe des premières
expériences de docimologie (dont la répétition garde pour les enseignants un
grand intérêt) est bien connu : deux appréciateurs différents notent
indépendamment la même série de copies, et l'on compare leurs appréciations.
Pour justifier le principe de telles expériences, on est conduit à distinguer
explicitement les rôles pouvant être assignés à de telles appréciations.
Elles peuvent avoir tout
d'abord des fins proprement pédagogiques. Chaque enseignant a ressenti la
nécessité de faire varier le niveau de ses critères suivant les circonstances
de la vie de la classe. Cette variation délibérée des échelles d'appréciation
ne relève naturellement que de l'art du pédagogue, et le problème de
l'objectivité de telles notations ne se pose pas.
Une appréciation peut
constituer aussi un pronostic d'adaptation. Dans ce cas, elle ne tient pas
seulement compte du résultat obtenu, mais des conditions dans lesquelles il l'a
été (âge, conditions familiales, etc.) ainsi que de la nature et du niveau des
exigences à satisfaire dans les études envisagées. Deux résultats identiques,
obtenus dans des conditions différentes peuvent légitimement donner lieu à des
appréciations-pronostics différentes. Mais la valeur, la « validité » de ces
pronostics est ici vérifiable : il suffit de les comparer, le moment venu, aux
résultats réellement obtenus.
L'expérience montre que
leur valeur moyenne, pour des populations entières d'enfants, reste très
faible.
Enfin une appréciation
peut avoir pour objet un simple constat des résultats acquis. Dans ce cas, le
critère de l'objectivité réside bien dans le degré d'accord entre appréciateurs
indépendants, que les expériences docimologiques classiques permettent
d'estimer.
Méthodologiquement, ces
expériences obligent également à expliciter des notions comme celles de «
valeur d'un pronostic » ou de « degré d'accord ». Il ne peut s'agir en effet de
fonder ces notions sur une impression globale que chaque participant à ces
expériences pourrait avoir éprouvée. Il ne peut suffire de justifier ces
impressions par le récit de quelques cas. Alors que l'enseignement lui-même
est d'autant plus efficace et vivant qu'il est plus individualisé, une
expérimentation ayant pour but de mettre à l'épreuve une technique pédagogique
(ici les procédés d'appréciation) n'a de sens que dans la mesure où son
résultat décrit et analyse des faits généraux : c'est la population générale
des élèves d'un certain niveau que cette technique concerne. Bien entendu, la
même technique ne conduira pas au même résultat pour tous les élèves, un grand
nombre de circonstances imprévisibles entrant en ligne de compte dans chaque
cas particulier. Les jugements que l'on peut porter en la matière sont donc
nécessairement de forme statistique. Les statistiques dont il s'agit n'ont
rien en commun avec celles qui sont dressées à des fins administratives. La méthode
statistique est ici une méthode d'analyse des résultats expérimentaux, qui est
utilisée dans tous les domaines où les phénomènes observés sont affectés par
des sources de variation nombreuses et incontrôlables, notamment en biologie
et en psychologie. La pédagogie expérimentale fait un large usage des méthodes
statistiques dans tous les pays où elle est pratiquée de façon systématique.
Son utilisation en docimologie permet de résumer des ensembles d'observations
envisagés sous des aspects différents, qu'elle conduit à distinguer
explicitement : deux professeurs peuvent noter autour de la même note moyenne,
mais utiliser des échelles plus ou moins largement étalées ; ils peuvent
utiliser deux moyennes différentes, mais cependant classer les élèves à peu
près dans le même ordre, etc. Ces distinctions conduisent à préciser ce que
l'on entend exactement par des expressions telles, par exemple, que « degré
d'accord ». Elles permettent de distinguer explicitement la valeur que peuvent
avoir des notes considérées dans les fonctions différentes : ordonner les
élèves d'une classe ou situer chacun d'eux dans l'ensemble des élèves du
département ou de l'Académie. L'expérience montre que les notes scolaires
traditionnelles n'assument pas ces différentes fonctions avec la même
efficacité.
Cet instrument d'analyse
des observations qu'est la statistique permet aussi de comparer le degré
d'objectivité ou la valeur pronostique de procédés d'appréciation différents.
C'est la voie ouverte à une docimologie constructive, qui va rechercher quels
sont les procédés les plus objectifs ou les plus valides parmi ceux qui sont
employés, proposer et mettre à l'épreuve expérimentale des procédés nouveaux,
en précisant explicitement dans quelles circonstances, à quels points de vue et
dans quelle mesure ils peuvent apporter une amélioration aux procédures
actuelles.
Des recherches entreprises
dans cet esprit ont été peu favorables à certaines solutions couramment
préconisées sur des bases intuitives. C'est ainsi que le fait de supprimer les
notes chiffrées et de les remplacer par des appréciations verbales diminue le
degré d'accord entre notateurs indépendants, au lieu de l'améliorer. Les
entretiens d'un candidat avec un jury donnent lieu à des différences
d'appréciation considérables lorsque les mêmes candidats sont examinés
successivement par deux jurys. Les appréciations portées par les professeurs
sur leurs élèves à l'issue d'une année de scolarité sont plus difficiles à
étudier expérimentalement. On a pu constater cependant que la valeur
pronostique des jugements d'instituteurs de Cours Moyen 2e année,
concernant la réussite de leurs élèves en 6e et 5e, est
très faible, plus faible que celle d'un simple questionnaire de connaissances.
Il est très probable que ce genre d'appréciations, à tous les niveaux de la
scolarité, est profondément
affecté par les énormes différences qui ont été constatées entre le niveau moyen
de classes portant la même dénomination, dans des établissements de même
type.
En fait, deux catégories
de mesures paraissent actuellement possibles pour améliorer, sur des points
explicitement délimités, les procédures actuelles d'appréciation.
On peut tout d'abord
fournir aux professeurs chargés d'examiner ou d'apprécier, des informations de
nature statistique, susceptibles de faciliter leur tâche. Voici quelque
exemples :
Si des candidats sont
répartis au hasard (ordre alphabétique) entre plusieurs examinateurs les
interrogeant sur le même programme, les différences entre les moyennes des
notes attribuées par ces différents examinateurs ne peut être que faible, la
différence la plus probable étant nulle. On peut donc proposer à chaque
examinateur, à l'issue des interrogations, d'ajouter (ou de retrancher) à
l'ensemble de ses notes le nombre de points nécessaires pour que sa moyenne
individuelle devienne égale à la moyenne générale. Il convient de préciser que
cette mesure est seulement a plus probablement équitable, qu'elle constitue
seulement le meilleur parti que l'on peut prendre ; et d'autre part qu'elle
n'égalise (dans ces limites) que le niveau moyen des appréciations des
différents examinateurs, restant sans effet sur la dispersion de leurs notes
(qui pourrait être égalisée par un procédé de même nature) et sur leur façon de
classer les candidats.
Chaque professeur témoigne
d'une relative stabilité quant au niveau moyen de son échelle d'appréciation.
Il est sans doute possible d'informer chacun sur la position relative de sa
moyenne habituelle, en améliorant la procédure de l'expérience consistant à
soumettre un même échantillon de copies à un grand nombre de professeurs et à
informer ensuite chacun de la distribution des notes observées pour l'ensemble
des participants.
Il est possible également
d'informer chaque professeur sur le niveau moyen de la classe qui lui est
confiée. Il suffit de soumettre un large groupe de classes à une même épreuve
normalisée dans sa présentation et son barême de notation. La publication de
l'ensemble des résultats obtenus permet à chacun de situer sa propre classe
(l'expérience peut être organisée de façon telle qu'il soit seul à connaître la
position de sa classe dans l'ensemble). Cette information laisse au professeur
la liberté de classer ses élèves comme il l'entend mais le met en mesure, si
ses notes doivent être comparées à
celles qui sont attribuées dans d'autres classes, d'adopter un niveau moyen de
notation qui tienne compte de la position de sa classe dans l'ensemble.
On voit que les deux
derniers procédés qui viennent d'être suggérés présentent des limites
comparables à celles qui ont été explicitées pour le premier : il s'agit
toujours d'une approximation (que l'on peut seulement espérer améliorer
puisqu'elle est ici définissable et peut être estimée par une procédure
expérimentale) et d'une approximation portant seulement sur le choix d'une
échelle numérique de notation. Cette seconde limitation est la plus sévère :
rien, dans les procédés de cette première catégorie ne permet de rendre plus
objectif, c'est-à-dire d'abord plus explicites, les critères qui conduisent un
professeur à classer ses élèves, ou les copies qui lui sont soumises,
dans un ordre plutôt que dans un autre. Ce problème est plus fondamental que le
premier, en ce sens qu'il met en cause de contenu même des échelles de valeur
utilisées, et plus seulement la forme, numérique ou non, sous laquelle elles
s'expriment. Une seconde catégorie de procédés permet de l'aborder, sinon de le
résoudre.
On a étudié des épreuves
de forme nouvelle dans lesquelles la réponse du sujet à une question ne peut
prendre qu'un nombre limité de formes différentes. Souvent, ces différentes
réponses possibles sont même proposées au candidat, qui se borne à choisir
entre elles. Une convention explicite peut donc ici être établie à l'avance,
accordant un certain nombre de points pour chacun des choix possibles. La
construction et l'expérimentation préalable d'une telle épreuve est une tâche
difficile, exigeant la collaboration entre des spécialistes de la matière sur
laquelle porte l'épreuve et un technicien spécialisé dans ce genre de travaux.
Les avantages et les limites de ces épreuves doivent être rappelés.
Ces épreuves ne laissent
évidemment plus aucune place aux divergences entre utilisateurs. Leur notation
peut être confiée à un personnel non qualifié ou, plus avantageusement encore,
à une machine. Appliquées à des populations étendues, elles peuvent fournir à
chaque enseignant des informations statistiques précises sur la position de ses
élèves dans la population à laquelle ils appartiennent. L'utilité proprement
pédagogique d'informations de ce type ne doit pas être perdue de vue. Elles
peuvent concerner en effet chacun des points du programme et permettre par
conséquent à chaque enseignant d'être explicitement informé sur ceux de ces
points pour lesquels sa classe présente en moyenne une lacune relative par
rapport à son niveau moyen global. De telles lacunes peuvent fort bien passer
inaperçues si l'information du professeur se fonde uniquement sur des
comparaisons entre ses propres élèves.
Les limites de ces
épreuves normalisées paraissent aussi évidentes, mais elles valent qu'on y
réfléchisse. Il n'est pas douteux qu'il est plus facile de construire de
telles épreuves pour dresser un bilan de connaissances acquises que pour
apprécier la façon dont ces connaissances sont utilisées ou les qualités
d'esprit et de sensibilité dont l'enfant témoigne. Pour mesurer équitablement
le poids de cette objection, il faut bien entendu tenir compte des progrès qui
ont été réalisés dans la construction des épreuves de ce type. Une réponse de
forme simple n'implique pas nécessairement que le raisonnement qui conduit à
cette réponse soit lui-même simple. Une mise en oeuvre complexe de
connaissances diverses peut être exigée. D'autres questions peuvent fournir
dans leur énoncé, toutes les connaissances nécessaires, et ne porter donc que
sur les qualités d'esprit qui permettront de les utiliser (on rejoint là les
tests d'intelligence et d'aptitudes des psychologues). Ce type d'objection
reste cependant fondé, dans la mesure où l'on peut reprocher aux épreuves
normalisées de ne pas refléter fidèlement les objectifs de l'éducation (et, en
particulier, de susciter un travail de préparation dont l'esprit soit différent
de celui que l'on entend donner à l'enseignement).
La portée de cette
objection est alors considérable. Les épreuves dont il s'agit sont en effet,
de nouveau, des procédures totalement explicites. Pour montrer qu'elles ne
répondent pas aux objectifs de l'éducation, et pour permettre ainsi de les
améliorer, il devient inévitable de formuler explicitement ces objectifs. C'est
une tâche facile si l'on se borne à utiliser un vocabulaire très générai, en
évitant de se demander si des éducateurs différents entendent bien de la même
façon les mots qu'ils emploient, et s'ils tirent bien les mêmes conséquences
concrètes des principes qu'ils énoncent. Mais si, pris au jeu de l'explication,
on se pose de telles questions, on est amené à craindre que les difficultés de
la notation soient beaucoup plus fondamentales qu'il n'y paraît d'abord, et
qu'elles mettent en cause l'idée que chaque éducateur se fait de la tâche qui
lui est confiée. Des expériences ont été faites dans ce domaine, dont on voit
combien elles élargissent la portée de la docimologie classique. Des professeurs
enseignant en seconde ont été priés de définir explicitement l'état des connaissances
qu'ils jugeaient souhaitable pour des élèves entrant dans cette classe. Leurs
réponses ont été divergentes à un tel point que la définition des objectifs
éducatifs de la classe de 3e semble à peu près indéterminable. On
conçoit que la composition d'une épreuve de connaissances adaptée à ce niveau
soit un problème qui ne comporte dans ces conditions aucune solution. Par des
méthodes différentes da pédagogie américaine notamment travaille aussi à
expliciter une « taxonomie des buts de l'éducation » pour chaque matière et à
chaque niveau (BLOOM).
On voit comment la
docimologie, en posant la question « Comment apprécier les résultats de
l'éducation ? » conduit, par le simple jeu de sa logique propre, à poser une
question beaucoup plus fondamentale. « Quels sont des buts de l'éducation ? ».
Se trouvera-t-il des éducateurs pour affirmer que tous les buts de l'éducation
ne peuvent pas être formulés explicitement, qu'ils ne doivent pas l'être
? L'adoption d'un tel postulat constituerait certainement une mauvaise attitude
méthodologique. Je me range parmi les éducateurs qui penseront, en outre,
qu'ils ont socialement le devoir de chercher à expliciter le rôle qu'ils jouent.
M. REUCHLIN.
aller à la page suivante du dossier