作問を勉強したことのある先生はほとんどいない
学校の先生は生徒に授業を行うだけではなくて、成績をつけるために試験もします。試験内容は教材業者のものをそのまま使う(主に小学校)ことも多いですが、自分たちで作成することもあります。そういう行為を「作問」と呼びます。
そういうことなので、作問は授業と並んで先生たちの日常業務なのですが、教職課程(学校の先生になる資格)を終えた学生に尋ねると、作問の勉強はしていないと皆証言します。大学ではかなりきちんとした教職課程のカリキュラムが定められており、いろんな勉強をします。もちろん授業というものがどのような構成になっているかとか、代表的な教授法とそのポイントなんかも具体的に学びます。しかし、「作問」は習わないそうです。
作問の場面は結構あります。定期試験の作問は代表的ですが、機会は多くありません。機会が多いのは「小テスト」の作問です。作問は簡単だ、と思ってみんななめていると思います。
試験の分類
学校で実施する試験には主に3つの種類があります。入学試験など行われる学力判定試験、期末テストなどの定期試験、小規模で日常的に行われる小テストです。これらは同じような形式で実施されますが、目的が明確に異なり、それに応じて内容が調整されねばなりません。
学力判定試験は、受験者の学力を計量する目的行われます。理想を言えば得点が受験者の学力に比例するような結果を望むものです。満点以上の学力は計量することができないため、満点がほとんど取れない設定になっていることが普通です。また、判定したい学力の範囲の中心あたりが平均点になるように調整されます。さらに、得点分布がなるべく広い(標準偏差が大きい)ように問題が設定されます。一方で、得点と学力に精密な正の相関がようにも調整されます。これは得点分布の広さと両立しにくい特性であり、私立大学の入試ではお粗末なものが散見されます。
一方、小テストは、授業内容に関して受験者の理解を確認するもので、得点に応じたフィードバックを受験者に促す目的で行われます。理想的には全員満点を目標にします。平均点が低い場合は授業が失敗していることを意味します。なので、小テストで試験されているのは本当は教師です。そんなわけなので小テストの点数を成績に反映させるというのは望ましくありません。
定期試験はこれら二種類の複合で、授業内容に関して受験者の理解度を計量することを目的としています。授業内容に関して受験者の理解度のチェックは小テストであるということを指摘したことからもわかるように、定期試験は小テストの集合体として構成されるべきものです。ただ、生徒の意欲と好奇心を刺激するための設問を追加してもよいでしょう。
試験の機能
好むと好まざるとにかかわらわず、試験には受験者の能力を計量するという機能があります。一方で体調や運で結果が変化するというノイズも存在します。なので、ノイズを減らし、測定精度を向上させる努力が常に求められます。
ノイズの原因として体調と運を挙げました。体調は受験者の問題なので、試験を実施する側にはどうしようもありません。なので、これは無視します。一方で運は可能な限り排除すべき要素です。運の要素を排除する基本的な手段は選択問題を減らすことです。
共通一次試験でマークシート方式が導入されたときに大きな議論になったのが、運の要素です。単純な選択問題では運の要素が大きなウェイトを占めてしまいます。また、マークの記入ミスも運の要素となります。現在の共通テストでも採用されているマークシート方式は試験方法として根本的な問題を抱えていることになります。
テストにおける運の要素も信号理論におけるホワイトノイズのようにふるまいます。信号理論の帰結としてノイズを抑えて信号の信頼性を向上させる単純な方法は、計数回数を増やすことです。試験においては問題を多く設定することに対応します。単純選択問題は解答に要する時間が短いこともあり、同じ方式の設問が2~4個設定されることが普通です。こういう事情があるので、社会科目では問題量が増え、設問が細かくなりました。さらに問題に採用する範囲が枯渇し、重箱の隅をつつくようなマイナーなトピックスが多くなった結果、大きな批判を浴びてセンター試験は廃止に追いやられました。
共通テストでは、さらに複数選択問題(選択する数が不明)や、複式選択問題(2つ以上の選択肢全てを正解しないと得点にならない)などを採用して、運の排除を試みています。評判は良くなさそうですけど。
マークシート方式のもう一つの問題は、難易度を上げられないことです。試験時間は決まっているので設問数を無限に増やすことはできません。そのため単純選択方式で計量できる得点の範囲は自動的に定まってしまうのです。その結果、得点分布を大きくすることができません。
様々な試行錯誤があったのだと思いますが、センター試験の作問者たちは禁断の間違ったやり方を採用してしまいました。それは「依存性」です。ある設問に正解しないと次の設問に正解できないという設定は得点分布を大きくするのに有効です。しかしながら、運の要素を増大させます。その結果、得点分布が大きくてもノイズも大きくなり、測定精度が低い試験となりました。苦労したのは受験生たち。最悪です。
おそらく作問に関するノウハウが、体系化された学問として教育されてこなかったからこうした良くない試験が横行しているのだと僕は思います。そうした作問教育の不在は実際に教職課程の学生が学んでいないという事実から明らかであり、僕の子供たちに施された学校教育でも感じました。定期試験の作問がダメすぎると高校の先生に面と向かって叱責したことすらあります。
平均点と標準偏差と問題数の関係
作問を考えるときの基本は「確率・統計」です。試験では多くの受験者が存在し、試験の結果は統計として整理できます。作問は試験結果の統計を左右する要素と位置付けられます。
受験者の50%が正解する問題が1つあったときの平均点は、50点(100点満点)になります。標準偏差は50($=\sqrt{100^2\times0.5-50^2}$)点です。このように、それぞれの問題に関して、問題の正答率(得点率)で標準偏差は自動的に定まります。
受験者の50%が正解する問題が$N$個あり、すべての問題の配点が同じだとすると、1問当たりの配点は$100/N$です。一問当たりの標準偏差は$\sqrt{(100/N)^2\times0.5-(100/N)^2}=\sqrt{100^2\times0.5-50^2}/N=50/N$となります。統計学の定理により、標準偏差の2乗に加法性があるので、テスト全体の標準偏差は$\sqrt{(50/N)^2\times N}=\sqrt(50^2)/\sqrt{N}=50/\sqrt N$となります。つまり、問題数が多くなると標準偏差が下がるということです。
共通テストに関する考察
共通テストでは平均点50点、標準偏差10点を目指しています。要は、得点と偏差値が一致するように設計しているわけです。文科省の役人あたりが、どうせ成績は偏差値を目安にするんだか、得点=偏差値だったらわかりやすいんじゃね?とか言ったんじゃないかな。浅はかすぎる。
先の例で、標準偏差が10点に達するのは、問題数が25個の場合です。これはすべての設問の難易度が同程度の場合のレアケースで、実際には難易度にばらつきがあります。設問の難易度にばらつきがあると標準偏差は低下します。つまり、共通テストでは問題数の制限と難易度のばらつきの制限ができてしまっている、ということです。
幅広い分野の習熟度の計測を目的とするなら、難易度のばらつきをなくして問題数を最大化することが理にかないます。一方、習熟度自体の計量を目的とするなら、難易度はばらついていた方が合理的です。その場合は問題数を少なくしないといけません。すると、幅広い分野にわたる問題設定が難しくなります。共通テストの理念としては前者なのですが、共通テストの役割は後者です。平均点と標準偏差に数値目標を設定してしまったために、理念と役割がコンフリクトしているのです。
また、あらゆる測定においてノイズの影響を排除したいように、テストでは「運」というノイズを除去したいわけです。4者択一を基本とするマークシート方式のテストではどうしても運の要素を排除できません。選択式の設問の場合、運の要素があると、平均点が上げ底され、標準偏差が低下します。50%が実力で正解する問題の場合、不正解の50%のうちの25%、すなわち12.5%ほどが「運」で正解します。すると正答率は62.5%になり、平均点は62.5点になります。標準偏差は約48.4で元々の50より下がります。
平均点を50点に戻そうとすると、正答率を33%程度にしないといけません。この時の標準偏差は約70でかなり難易度が上がります。つまり、相当難しい問題が混ざってくるということです。
そもそも平均50点、偏差値10点というテストの設定にどれほどの意味があるのでしょう?偏差値$X$と確率$P(x)$の間には大雑把に言って次のような関係があります。
\begin{equation}P(X)\approx 1/10^{|X-50|/(10\sigma)}\end{equation}
ただし、$\sigma$は標準偏差で、$P(X)$は偏差値がXを超えている確率です。偏差値70だと指数部分は2になり、$P(X)=1/100$です。正確ではありませんが概算ではあっているとします。ここから平均50点、偏差値10点というテストにおける上位10人の得点を考察してみます。共通テストの受験者数はおよそ50万人なので、上位10人の確率は、10/500000。$log_10{50000}\approx 4.69$なので、$X=97$ということになります。800点満点に換算すると776点で、上位10人あたりだと2点くらいの差で順位がつく計算になります。テストの機能の一つに能力の順位付けがありますが、入試に限っては合否判定あたりの順位付けという意味であり、最上位陣の順位付けは意味がありません。にもかかわらず、共通テストは合否判定に関係しないような成績優秀者の順位付けに最適な設計になっているというわけです。
テストとクイズは違う
英語では小テストのことをQuizと呼ぶので、テスト=クイズと短絡しても仕方ないかもしれませんが、いわゆるクイズとテストは全く別物です。クイズとは単なる遊びです。問題に重要な意味があることはほとんどありません。懸賞クイズなんかで、正解に利益が発生することもありますが、不正解で不利益があったりしません。しかし、テストは問題そのものに意味があったり、不正解だと落第や不合格なんていう不利益が生じます。テストには責任があるのです。
テストで生じる利害関係の責任はテストの実施者とテストの作問者が負うことになります。特にテスト内容に関しては作問者に大きな責任があります。作問者はテストの機能や役割をきちんと理解してその機能と役割にふさわしい問題を設定しないといけません。そのためにはテストをどのように設計するかということが大事になります。設問の具多的な内容より前にきちんと設計することが必要です。その設計に応じて、設問の難易度や数が決まるのです。
誰しもテストを受けた経験はありますが、テストの作問をした経験はあまりありません。教員等になって、作問をする立場になって初めて作問のミッションが与えられるわけで、作り方とか知らないわけです。適当にクイズっぽいものを並べたら、それなりにテストっぽいものができるので、それで安心しているというのが大半だと思います。でもそんなテストをさせられる側が不幸でなりません。作問者はテストされる人たちの利益と不利益を差配する立場にあり、不手際があれば訴えられてもおかしくありません。そういう真剣さが作問者に求められると思うのです。
そのためにも、テストの作り方について、きちんと体系化された教育がなされるべきだと僕は思うのです。
0 件のコメント:
コメントを投稿