項目反応理論(項目応答理論)

CBT

項目反応理論(項目応答理論)

項目反応理論は、TOEFLを始めとして、多くのテストで採用されている理論ですが、テスト理論の中では比較的新しいものです。IRT(Item Response Theory)または、「項目応答理論」とも呼ばれます。項目反応理論が何かを説明する前に、テスト理論の生い立ちに少し触れたいと思います。

テスト理論の生い立ち

テスト理論はテストやテストの得点を科学的対象として扱う学問分野として、19世紀末から発達してきたもので、大きく分けると古典的テスト理論(以下「CTT(Classical Test Theoryの略)」と呼びます)と項目反応理論を始めとする現代テスト理論に分かれます。CTTは、19世紀末から1950年台までに発達してきたもので、テストの各設問(「項目」と呼びます)の特徴を、正答率や項目識別力などの統計量で表し、テスト全体の性質を信頼性係数で表します。CTTでは、正答率や項目識別力で各設問の良し悪しを判断したり、信頼性係数でそのテストの信頼性(*1)(同一受験者に同じ内容のテストを実施した場合に同じ結果を得る性質)を簡単に判断したりすることができるため、多くのテスト開発で利用されています。

現在、日本で実施されているテストは、古典的テスト理論に基づいて開発されているものが多くあります。しかし、CTTは、受験者の能力をテストの得点で表現することが基本となっていますので、同じ種類の英語のテストでも、問題や受験者が異なると、その得点を比較して英語の能力を比べることができないという問題がありました。

例えば、中学2年生が英語のテストを行う場合、あるクラスで実施したテストでAさんが80点だったとします。別のクラスでは先ほどとは異なる問題のテストでBさんが75点だったとします。この時、Aさんの方がBさんより5点分英語の能力が高いと言えるでしょうか?もしかしたら、Bさんの方が能力が高いのにもかかわらず、たまたまBさんのクラスで実施したテストがとても難しくてBさんの得点が低くなったのかも知れませんが、CTTではその比較を正確に行うことはできませんでした。

項目反応理論の発展

このようなCTTの欠点を補うべく発展してきたテスト理論が項目反応理論です。項目反応理論では、受験者の能力値と項目毎の難易度などの尺度の関係を確率変数のような数学モデルで表現することで、CTTでは困難であった、異なる集団や異なる問題での結果を比較可能な形に分析することができるようになりました。古くは1940年台頃から発達してきたものですが、近年のコンピュータの発達により、複雑な計算を伴う項目反応理論を利用する環境が整備されてきたこと、ならびに、異なる項目からなるテストを受験した結果から受験者の能力を客観的に評価したいというニーズが増えてきたことから、近年多くのテストが項目反応理論を利用して開発されるようになって来ました。

項目反応理論では、異なる問題を使用したテストであっても、異なる受験者による受験であっても、受験者の能力を共通の尺度で測ることができます。例えば受験結果を紐付けるために一部の問題を共通化する「共通項目」を設けたり、異なる問題のテストである場合には両方のテストを受験する「共通受験者」を設けたりと、分析のためのデータを得られるように考慮した設計をするのです。また、予め各項目の難易度などの特性を特定した項目を多数用意しプールしておき、その項目のプール(「項目プール」または「項目バンク(Item Bank)」とも呼びます)から抽出した項目でテストを実施することにより、受験者毎に異なる問題を出題し、受験者の回答結果から受験者の能力レベルをリアルタイムに推定し、その結果に基いて出題する項目を変化させて、短時間で精度高く能力を測定する適応型テスト(CAT:Computer Adaptive Test)が可能となります。

項目反応理論の適用例

項目反応理論を適用したテストの代表的なものとしては、TOEFLがあります。TOEFLは、1978年から項目反応理論を使用して異なる試験回の結果を比較可能なスコアを出しています。これにより、TOEFLを採用して入学希望者の英語能力を判断する各学校では、年度内の入学希望者同士の比較のような相対評価ではなく、入学年度に関わらず一定の尺度で表される絶対評価で入学希望者の英語能力を判断することができるようになりました。また、その後、TOEFLはCBTを使用した適応型テスト(CAT)を採用することにより、単時間で能力を測れる仕組みを導入しました。その後、専用会場を必要とするCBT方式に代わり、大学、学校のコンピュータを使用して実施ができるIBT(Internet Based Testing)形式の次世代型TOEFL(TOEFL iBT®)の導入時にCATは不採用となりましたが、項目反応理論は引き続き使われています。

日本では、ITパスポート試験などでも採用されていますが、欧米に比べるとあまり普及していません。普及が進まない理由の一つとしては、大学入試など、重要な試験において、試験終了後に試験問題を公開することが当然とされる慣習があります。項目反応理論を使用する場合、あらかじめ項目の性質を特定した問題を繰り返し使用するため、問題の再利用が必須となり、そのためには、試験問題は非公開が原則となります。今後、大学入試改革で採用される新テストでも、項目反応理論の採用が検討されていますが、試験問題非公開の原則が日本の中でどこまで受け入れられるか、というのが項目反応理論の普及の鍵になるかも知れません。

今後について

現在、大学入試改革の新テストでも検討されているように、従来、紙で行われていた試験をCBT化することにより、公平性を担保しつつ複数回受験できるようにする動きは確実に進んでくると思われます。そのために項目反応理論は欠かせない技術となります。


*1 信頼性とは?

「信頼性」という言葉は、一般的には、例えば機械であれば故障が少ないとか、ニュースであれば真実である可能性が高い、というように広い意味で使われますが、テスト理論の世界では、ある特別な意味を持ちます。テスト理論での信頼性というのは、「再現性」または「安定性」と同じような意味となり、同じ能力の受験者が受験した場合に、同じ結果が得られる確からしさを表すものです。少し誤解を恐れずに噛み砕いて言うと「ブレがない」度合いを表すものとも言えます。したがって、信頼性が高いという分析結果が得られたとしても、必ずしもテストの内容が目的に合っているかどうかは分かりません。結果が目的に合っているか、というのは、「妥当性」という別の概念になります。例えば、中学2年生で学習すべき英語能力が身についているかを測る目的のテストがあったとします。結果を分析すると非常に信頼性が高いという結果が得られたとしても、そのテストが、ある出版社が出している参考書からのみ出題されていて、その参考書を使った人だけが良い得点をとれるようなテストだった場合には、目的とは合っていないテスト(すなわち妥当性の低いテスト)と考えられます。