2025年8月26日火曜日

テストの作り方

作問を勉強したことのある先生はほとんどいない

学校の先生は生徒に授業を行うだけではなくて、成績をつけるために試験もします。試験内容は教材業者のものをそのまま使う(主に小学校)ことも多いですが、自分たちで作成することもあります。そういう行為を「作問」と呼びます。

そういうことなので、作問は授業と並んで先生たちの日常業務なのですが、教職課程(学校の先生になる資格)を終えた学生に尋ねると、作問の勉強はしていないと皆証言します。大学ではかなりきちんとした教職課程のカリキュラムが定められており、いろんな勉強をします。もちろん授業というものがどのような構成になっているかとか、代表的な教授法とそのポイントなんかも具体的に学びます。しかし、「作問」は習わないそうです。

作問の場面は結構あります。定期試験の作問は代表的ですが、機会は多くありません。機会が多いのは「小テスト」の作問です。作問は簡単だ、と思ってみんななめていると思います。


試験の分類

学校で実施する試験には主に3つの種類があります。入学試験など行われる学力判定試験、期末テストなどの定期試験、小規模で日常的に行われる小テストです。これらは同じような形式で実施されますが、目的が明確に異なり、それに応じて内容が調整されねばなりません。

学力判定試験は、受験者の学力を計量する目的行われます。理想を言えば得点が受験者の学力に比例するような結果を望むものです。満点以上の学力は計量することができないため、満点がほとんど取れない設定になっていることが普通です。また、判定したい学力の範囲の中心あたりが平均点になるように調整されます。さらに、得点分布がなるべく広い(標準偏差が大きい)ように問題が設定されます。一方で、得点と学力に精密な正の相関がようにも調整されます。これは得点分布の広さと両立しにくい特性であり、私立大学の入試ではお粗末なものが散見されます。

一方、小テストは、授業内容に関して受験者の理解を確認するもので、得点に応じたフィードバックを受験者に促す目的で行われます。理想的には全員満点を目標にします。平均点が低い場合は授業が失敗していることを意味します。なので、小テストで試験されているのは本当は教師です。そんなわけなので小テストの点数を成績に反映させるというのは望ましくありません。

定期試験はこれら二種類の複合で、授業内容に関して受験者の理解度を計量することを目的としています。授業内容に関して受験者の理解度のチェックは小テストであるということを指摘したことからもわかるように、定期試験は小テストの集合体として構成されるべきものです。ただ、生徒の意欲と好奇心を刺激するための設問を追加してもよいでしょう。


試験の機能

好むと好まざるとにかかわらわず、試験には受験者の能力を計量するという機能があります。一方で体調や運で結果が変化するというノイズも存在します。なので、ノイズを減らし、測定精度を向上させる努力が常に求められます。

ノイズの原因として体調と運を挙げました。体調は受験者の問題なので、試験を実施する側にはどうしようもありません。なので、これは無視します。一方で運は可能な限り排除すべき要素です。運の要素を排除する基本的な手段は選択問題を減らすことです。

共通一次試験でマークシート方式が導入されたときに大きな議論になったのが、運の要素です。単純な選択問題では運の要素が大きなウェイトを占めてしまいます。また、マークの記入ミスも運の要素となります。現在の共通テストでも採用されているマークシート方式は試験方法として根本的な問題を抱えていることになります。

テストにおける運の要素も信号理論におけるホワイトノイズのようにふるまいます。信号理論の帰結としてノイズを抑えて信号の信頼性を向上させる単純な方法は、計数回数を増やすことです。試験においては問題を多く設定することに対応します。単純選択問題は解答に要する時間が短いこともあり、同じ方式の設問が2~4個設定されることが普通です。こういう事情があるので、社会科目では問題量が増え、設問が細かくなりました。さらに問題に採用する範囲が枯渇し、重箱の隅をつつくようなマイナーなトピックスが多くなった結果、大きな批判を浴びてセンター試験は廃止に追いやられました。

共通テストでは、さらに複数選択問題(選択する数が不明)や、複式選択問題(2つ以上の選択肢全てを正解しないと得点にならない)などを採用して、運の排除を試みています。評判は良くなさそうですけど。

マークシート方式のもう一つの問題は、難易度を上げられないことです。試験時間は決まっているので設問数を無限に増やすことはできません。そのため単純選択方式で計量できる得点の範囲は自動的に定まってしまうのです。その結果、得点分布を大きくすることができません。

様々な試行錯誤があったのだと思いますが、センター試験の作問者たちは禁断の間違ったやり方を採用してしまいました。それは「依存性」です。ある設問に正解しないと次の設問に正解できないという設定は得点分布を大きくするのに有効です。しかしながら、運の要素を増大させます。その結果、得点分布が大きくてもノイズも大きくなり、測定精度が低い試験となりました。苦労したのは受験生たち。最悪です。

おそらく作問に関するノウハウが、体系化された学問として教育されてこなかったからこうした良くない試験が横行しているのだと僕は思います。そうした作問教育の不在は実際に教職課程の学生が学んでいないという事実から明らかであり、僕の子供たちに施された学校教育でも感じました。定期試験の作問がダメすぎると高校の先生に面と向かって叱責したことすらあります。


平均点と標準偏差と問題数の関係

作問を考えるときの基本は「確率・統計」です。試験では多くの受験者が存在し、試験の結果は統計として整理できます。作問は試験結果の統計を左右する要素と位置付けられます。

受験者の50%が正解する問題が1つあったときの平均点は、50点(100点満点)になります。標準偏差は50($=\sqrt{100^2\times0.5-50^2}$)点です。このように、それぞれの問題に関して、問題の正答率(得点率)で標準偏差は自動的に定まります。

受験者の50%が正解する問題が$N$個あり、すべての問題の配点が同じだとすると、1問当たりの配点は$100/N$です。一問当たりの標準偏差は$\sqrt{(100/N)^2\times0.5-(100/N)^2}=\sqrt{100^2\times0.5-50^2}/N=50/N$となります。統計学の定理により、標準偏差の2乗に加法性があるので、テスト全体の標準偏差は$\sqrt{(50/N)^2\times N}=\sqrt(50^2)/\sqrt{N}=50/\sqrt N$となります。つまり、問題数が多くなると標準偏差が下がるということです。


共通テストに関する考察

共通テストでは平均点50点、標準偏差10点を目指しています。要は、得点と偏差値が一致するように設計しているわけです。文科省の役人あたりが、どうせ成績は偏差値を目安にするんだか、得点=偏差値だったらわかりやすいんじゃね?とか言ったんじゃないかな。浅はかすぎる。

先の例で、標準偏差が10点に達するのは、問題数が25個の場合です。これはすべての設問の難易度が同程度の場合のレアケースで、実際には難易度にばらつきがあります。設問の難易度にばらつきがあると標準偏差は低下します。つまり、共通テストでは問題数の制限と難易度のばらつきの制限ができてしまっている、ということです。

幅広い分野の習熟度の計測を目的とするなら、難易度のばらつきをなくして問題数を最大化することが理にかないます。一方、習熟度自体の計量を目的とするなら、難易度はばらついていた方が合理的です。その場合は問題数を少なくしないといけません。すると、幅広い分野にわたる問題設定が難しくなります。共通テストの理念としては前者なのですが、共通テストの役割は後者です。平均点と標準偏差に数値目標を設定してしまったために、理念と役割がコンフリクトしているのです。

また、あらゆる測定においてノイズの影響を排除したいように、テストでは「運」というノイズを除去したいわけです。4者択一を基本とするマークシート方式のテストではどうしても運の要素を排除できません。選択式の設問の場合、運の要素があると、平均点が上げ底され、標準偏差が低下します。50%が実力で正解する問題の場合、不正解の50%のうちの25%、すなわち12.5%ほどが「運」で正解します。すると正答率は62.5%になり、平均点は62.5点になります。標準偏差は約48.4で元々の50より下がります。

平均点を50点に戻そうとすると、正答率を33%程度にしないといけません。この時の標準偏差は約70でかなり難易度が上がります。つまり、相当難しい問題が混ざってくるということです。

そもそも平均50点、偏差値10点というテストの設定にどれほどの意味があるのでしょう?偏差値$X$と確率$P(x)$の間には大雑把に言って次のような関係があります。

\begin{equation}P(X)\approx 1/10^{|X-50|/(10\sigma)}\end{equation}

ただし、$\sigma$は標準偏差で、$P(X)$は偏差値がXを超えている確率です。偏差値70だと指数部分は2になり、$P(X)=1/100$です。正確ではありませんが概算ではあっているとします。ここから平均50点、偏差値10点というテストにおける上位10人の得点を考察してみます。共通テストの受験者数はおよそ50万人なので、上位10人の確率は、10/500000。$log_10{50000}\approx 4.69$なので、$X=97$ということになります。800点満点に換算すると776点で、上位10人あたりだと2点くらいの差で順位がつく計算になります。テストの機能の一つに能力の順位付けがありますが、入試に限っては合否判定あたりの順位付けという意味であり、最上位陣の順位付けは意味がありません。にもかかわらず、共通テストは合否判定に関係しないような成績優秀者の順位付けに最適な設計になっているというわけです。


テストとクイズは違う

英語では小テストのことをQuizと呼ぶので、テスト=クイズと短絡しても仕方ないかもしれませんが、いわゆるクイズとテストは全く別物です。クイズとは単なる遊びです。問題に重要な意味があることはほとんどありません。懸賞クイズなんかで、正解に利益が発生することもありますが、不正解で不利益があったりしません。しかし、テストは問題そのものに意味があったり、不正解だと落第や不合格なんていう不利益が生じます。テストには責任があるのです。

テストで生じる利害関係の責任はテストの実施者とテストの作問者が負うことになります。特にテスト内容に関しては作問者に大きな責任があります。作問者はテストの機能や役割をきちんと理解してその機能と役割にふさわしい問題を設定しないといけません。そのためにはテストをどのように設計するかということが大事になります。設問の具多的な内容より前にきちんと設計することが必要です。その設計に応じて、設問の難易度や数が決まるのです。

誰しもテストを受けた経験はありますが、テストの作問をした経験はあまりありません。教員等になって、作問をする立場になって初めて作問のミッションが与えられるわけで、作り方とか知らないわけです。適当にクイズっぽいものを並べたら、それなりにテストっぽいものができるので、それで安心しているというのが大半だと思います。でもそんなテストをさせられる側が不幸でなりません。作問者はテストされる人たちの利益と不利益を差配する立場にあり、不手際があれば訴えられてもおかしくありません。そういう真剣さが作問者に求められると思うのです。

そのためにも、テストの作り方について、きちんと体系化された教育がなされるべきだと僕は思うのです。



2025年8月21日木曜日

やべぇ物理学

僕は「科学」について、いくつか「非主流」な考え方を持っています。「似非科学」との境界ギリギリを攻めていると言うとわかりやすいかも。僕自身がそれに傾倒しているわけでもなくて、「主流」に対して懐疑的な立場を担保していて、「主流」のアンチテーゼとしていくつかの仮説を持っているという程度です。だから、僕の「非主流」な考え方が正しいと強弁することはありません。でも、つねにそういう「余地」を残すことが、正しい科学につながると思うのです。

かつてアインシュタインはニュートン力学に盾突きました。時間は絶対的なものではなく、空間は平坦ではない、という考え方です。特殊相対性理論と一般相対性理論ですね。ニュートン力学はおよそ300年にわたって正しいと信じられてきました。だから、ニュートン力学にいちゃもんをつけるのはとても勇気が必要だったと思います。アインシュタインが特殊相対性理論を発表したとき、アインシュタイン自身は理論の正しさにどれだけの自信があったのでしょう。僕はそんなに自信を持っていなかったかもしれないと思っています。というのもの、理論物理学者は自身の理論を仮説として提案するのが仕事であり、その仮説が間違っていてもあんまり気にしないからです。ま、特殊相対性理論に関しては、電磁気学においてすでに発見されていたローレンツ変換を電子以外の運動にも適用するような修正なので、当時の物理学者にとっては割と受け入れやすかったのかもしれません。

とはいうものの、当時絶対的に信じられていたニュートン力学という「主流」に対して修正を強いる提案ができたのは、「主流」に対して懐疑的な立場を容認するというメンタリティーが重要だったと僕は思います。アインシュタインが何を信じ、何をなそうとしていたのかは凡人の僕には思い及ばないですが、「主流」に対して何らかの不満があったのでしょうね。


とっかかり

今朝、以下の記事を見つけました。

「物理学者らは未だ量子力学の奇妙さに困惑しており、その真の意味について合意できていないことが『Nature』の調査で判明」

https://xenospectrum.com/physicists-remain-perplexed-by-the-peculiarities-of-quantum-mechanics-and-have-yet-to-reach-a-consensus-on-its-true-meaning-according-to-a-survey-by-nature/

量子力学と言うと、微分方程式と並んで、多くの理系大学生に絶望を与えてきた分野です。どこまで勉強したとしても、「波動関数」が何かわからないし、「スピン」も実体が説明されません。そのくせ、いろんな分野に量子力学の考え方が幅を利かせます。よくわからないけど、受け入れるしかしょうがなくて、みんな正しいと言っているので大丈夫なはず、という分野だと僕は思っています。そして、僕が感じていることは正しいということが、Natureの調査で判明しているという記事です。

日本の同僚たちとの会話で、日本では確実に「そうだ!」とわかっていました。全世界的にそういう状態になっているということは家内(モスクワ大学卒)との会話から感じていましたが、Natureによる全世界的な調査でそれが裏付けられた形です。

量子力学にまつわるあいまいさは今に始まった話ではありません。そもそも波動関数の意味と実体について、考案者のシュレーディンガー自身も良くわからなくて、当時の物理学界での最高権威者であったニールスボーアに教えを乞うたという伝説があるくらいです。その時のボーアの説明は、現在コペンハーゲン「解釈」として多くの科学者に受け入れられています。そう、「解釈」なのです。「仮説」よりはマシですが「説」よりも確度が低い説明という扱いなのです。そして「解釈」はいまだに「解釈」であって、確定した説明になっていません。だから、量子力学はちゃんと理解できなくてもしょうがないのです。


絶望的な状況

通常、科学の世界では研究が進むと理解が深くなり、より世界が整理されていきます。しかし、量子力学には当てはまっていないようです。

量子力学では「観測」によって事象が確定するという奇妙なふるまいが知られています。これにより波動関数は何らかの確率を表すのだと解釈されています。波動関数が確率的にふるまうのは、観測にかからない「隠れた変数」が内部に存在し、それによって観測結果が変化するのだ、と説明する仮説がありました。そのような「隠れた変数」が存在するならば、特定の不等式を満たすはずだということがスチュアートベルによって示されました(ベルの不等式)。このあたりの議論は極めて哲学的で科学の範疇に収まらないと思われていましたが、当時大学院生だったアランアスペが実験によってベルの不等式が成立していないことを示しました。複数の研究グループによる検証の結果、ベルの不等式の不成立が確定し、「隠れた変数」説が完全否定されました。その結果、波動関数に関する理解はシュレーディンガー以前の混沌とした状態に戻ってしまいました。

この混沌とした状態からトンでも仮説がいろいろ飛び出しました。最も有名なのは「多世界解釈」です。パラレルワールドが実在するとする完全にSFのような世界観をまじめに議論するという、わけのわからない状況が生まれてしまっています。「主流」に余地を残しておくというのは健全な科学の在り方ですが、これはやりすぎだと多く科学者が思っています。


非主流の告白

僕自身は「隠れた変数」が存在すると思っています。というかそういうものがなければならないと思っています。実験事実として否定された「隠れた変数」説を改めて支持するというのは科学者として正しい態度ではないという批判はあると思います。

でも僕の考える「隠れた変数」は「観測結果を確定させる」ものではありません。僕は、観測結果は「常に」確定的なんだけど、観測可能な世界の中では確定できない、と考えています。その場合、ベルの不等式は修正を受け、成立しなくなると思っています。

大統一理論の議論中で世界は10次元+1次元であるという説があります。10次元を扱う候補の理論が複数提案されているなかで、次元の選び方を変更すると、候補の理論が相互に変換され、11次元から眺めると一つの理論に見えると言われています。詳しい理論は僕にはわからないですけどね。その余分の1次元とは何だろう?と思うわけです。

どんな理論においても、「時間」は「空間」と区別のつかないパラメータになります。そのような理論においては、過去も未来もすべて確定的な事象になります。つまり、大統一理論が成立した暁には過去も未来も確定してしまうのです。しかしながら、量子力学は「観測」しないと事象が確定しません。つまり、そもそも矛盾をはらんでいるのです。

時間と空間をすべて等価に取り扱う「時空図」を考える(世界を4次元として眺める)と、すべての物体は「線」になります。そして「線」は物体の運動を表すことになります。運動は物理法則に従わなければならないので、「線」にはかなり強い制限が伴います。そしてその線は過去から未来のすべての時間にわたってその強い制限を満たさなければなりません。無数に存在するはずのすべての物体について、そのような制限を「一発」で満たすのは至難の業です。

通常の物理学の考え方であれば、物体の位置や速度が時々刻々変化するとして、時間に関する微分方程式を解くことになります。だから、ある時点でのパラメータがすべて判明すればその後の展開(線)を予測できます。物理法則のほとんどは時間に関して可逆的なので、時間を反転して計算すれば、過去の「線」も遡れます。もし未来や過去において計算が破綻するとしても現在の近傍では問題はありません。

でも「時空図」を描くとき、そこには過去も未来もすべて確定的です。もし遠い過去や未来において現象が破綻する(例えば、ビッグバンとかビッグクランチとか)と、現在の「線」の存在が否定されてしまいます。現在を肯定的に説明するためには、何らかの仕組みによって現在近傍の「線」が確定するような「動的」な仕組みがあるはずだと僕は思っています。「動的」とは通常は時間的な変化を指しますが、「時空図」において時間はすでに使用済みなので、ここでいう「動的」というのは「時間のような何か」を時間に見立てた概念になります。そういう「時間のような何か」が、僕たちに影響する物理法則の埒外にあるもう一つの次元であると僕は思っています。

その「時間のような何か」が変化すると、時空図中の「線」がうにょうにょ動くと考えます。僕たちの主観は「線」に沿って時間方向に移動します。光などの「観測」は「線」と「線」の間をつなぐ「線分」になります。「線分」の両端は発光点と吸収点に対応します。量子力学的には吸収点が「観測」に対応し、吸収点の正確な位置が観測結果に対応します。発光時点と吸収時点における「時間のような何か」が同じであれば、観測結果は「確定的」です。不確定性は発生しません。発光時点と吸収時点とで「時間のような何か」が異なっていれば、観測結果は「別の法則」の影響を受けます。すなわち、「時空図」において「時間のような何か」の変化にともない「線」が変化する「何かの法則」があって、「観測」はその法則に影響を受けると考えらえれます。その「何らかの法則」という僕たちが感知できない全く未知の法則性に支配された観測結果は不確定に見えるでしょう。

突拍子がないわけではない

このような僕の意見は別に突拍子がないものと言うわけでもありません。アインシュタインが時間と空間の等価性を示した時点で「時空図」の概念は確定的です。時間と空間をともに一つの図の中に収めると、通常の意味での「点」は存在できません。「時空図」中に点が存在するとは、ある瞬間に現れて次の瞬間にはパッと消えてしまう何かの存在を認めることになります。量子的なゆらぎとかの概念かもしれませんが、通常物質ではありえません。「時空図」において、すべての物質は「線」になります。その「線」は過去から未来にずっとつながっているはずです(質量保存則)。

一方、光も「線」になります。光には発光点と消光(吸収)点があるので、「線分」になります。時間と空間を直交座標系にとれば、その「線分」の傾きは光速を表します。この概念は「光円錐」として相対論で導入済みです。相対論では「光円錐」は導入されるけど、物体は依然として「点」として説明されており、あんまりよくないと思います。「光円錐」はとても分かりやすい概念ですが、直交座標系の時空において光線が特定の角度をもつという極めて非対称な現象を認めてしまうという気持ち悪さがあります。これは修正されねばならないと僕は思っています。

「時空図」に光線を描きこめば、線分になるのは自明です。それが直線なのか曲線なのか、円錐なのか、どれが最も自然かと言えば、直線だと思います。そのような図形で相対論を説明する試みもあるのですが、あんまり対称性がたかくないんですよね。だから、「時空図」というものを持ち出す人が少ないのだと思います。

僕が正しいわけではない

ここで僕が示したいのは僕の主張の正しさではなくて、世間で流通している説以外にも説得力がある説が存在しうるということです。量子力学の理解にあいまいさが残るのは量子力学が難しいからではなくて、もっとよい説明があるのに僕たちが気づいていないだけ、かもしれません。もっとよい説明ってのは、トンデモ学説かもしれません。量子力学だって最初はトンデモ学説だったのです。シュレディンガーが水素原子の電子軌道を鮮やかに示し、炭素の結合手が4本であって正四面体をなすことをうまく説明できたことで、量子力学は正しいとみんなが信じているにすぎません。シュレディンガーも量子力学が完全に正しいなんて思っていなかったと思います。量子力学の理解が難しいのならば、よりシンプルでわかりやすい説明を探し続けるべきだと僕は思います。

微分方程式の議論において、一般解の選択は世界をどのように解釈するかの選択であり、一つの微分方程式が複数種類の一般解によってさまざまに解けるという事実は、世界を解釈する方法は一つだけではないということを数学的に示していると指摘したことがあります。実際、大学院の講義ではその話をしています。これも非主流の考え方ですね。

実際のところ、量子力学は世界を理解するための一つの解釈であり、別の解釈方法も存在すると思います。もしかすると、別の解釈方法の方がシンプルでわかりやすいかもしれません。量子力学がわかりにくいのであれば、量子力学以外の理解の仕方を模索すべきであり、その努力は決して無駄ではないと思うのです。

一般に優秀な人ほど既存の説明をキャッチアップするのに優れます。というのも「優秀」の基準が「既存の説明をキャッチアップする」能力だからです。でもそういうのにすぐれない人が画期的な進歩をもたらすこともあります。

かつてアインシュタインは就職がうまくいかず大学を出てから郵便局に就職しました。郵便局の職員時代に書いた3つの論文こそ、奇跡の年の3論文です。いずれも「既存の説明」をぶっ壊す革新的なアイデアに満ちています。アインシュタインは正直言って「コミュ障」で、「既存の説明をキャッチアップする」能力に劣っていました。自閉気味の人が些細なことにこだわって周囲とトラブルになるというタイプでした。奇跡の年の3論文のうち最も地味な成果がブラウン運動の解明なんですが、この論文のきっかけはなんと浸透圧でした。アインシュタインは浸透圧について理論的な考察を深めた結果ブラウン運動を説明してしまったのです。浸透圧なんて高校の化学で習う内容であり、計算が簡単なことから、試験で出たらラッキー問題扱いです。でも浸透圧とは何なのか、なぜ浸透圧のようなものが観測されるのか、浸透圧にまつわる奇妙な性質はちゃんと説明できるのか、といったことをきちんと説明するのは大変困難です。アインシュタインは心の滓のように引っ掛かっていたそれらの疑問を、希望通りにならなかった就職先でウジウジと考え続けたに違いありません。

浸透圧に思いをはせた科学者はそれまでにもたくさんいたはずです。でもブラウン運動に到達した人はいませんでした。僕も浸透圧を習ったときに「不思議な現象だな」とは思いましたが、真剣に考察することはありませんでした。僕はアインシュタインとの決定的な差をこの時初めて認めました。

相対性理論や光電効果において同じような偏執的な洞察と深い考察を見て取ることができます。その根底には「理解した」として終わりにしないというアインシュタインの独特のメンタリティーがあるのだと僕は思っています。

ひとかどの物理学者にとって「量子力学がわからない」と告白するのは極めて恥ずかしいことです。Natureの記事では1万1千人にアンケートを実施し、回答があったのは千人ちょっととあります。この千人の方々は、ちょっと恥ずかしいけどこの流れに乗れば恥ずかしい告白も目立たない、と考えたはずです。それこそが科学者の良心だと思います。ただ、回答しなかった90%の人々は心配です。