教育評価と学習成果
教育評価とは、定められた学習成果に対して、学習者が何を知っており、何ができるかについての証拠を収集し、解釈するプロセスです。これは、学習を支援する評価(形成的評価)と達成度を認定する評価(総括的評価)を区別し、妥当性、信頼性、教育的影響などの質によって判断されます。
Definition
教育評価とは、意図された学習成果に対して、学習の証拠を体系的に収集し解釈することであり、さらなる学習を支援するため(形成的評価)または達成度と進級に関する決定を下すため(総括的評価)に用いられます。学習成果とは、評価が測定するように設計された、学習者ができるようになるべきことを述べたものです。
Scope
このトピックでは、保健医療教育における評価の目的と質、評価対象の枠組み、形成的評価と総括的評価の対比、およびプログラム評価という関連する概念について扱います。評価を方法論的なトピックとして扱い、特定のコースの採点や試験のためのガイドではありません。
Core questions
- 特定の評価の目的は何ですか?学習を支援することですか、それとも認定することですか?
- 評価はどの能力レベルを対象としていますか?
- 評価を妥当で、信頼性があり、擁護可能なものにするにはどうすればよいですか?
- 個々の評価はどのように組み合わされて一貫したプログラムを形成しますか?
Key concepts
- 形成的評価と総括的評価
- 妥当性と信頼性
- 学習成果と目標
- ミラーの能力ピラミッド
- 職場ベースの評価
- プログラム評価
- プログラム評価
Key theories
- ミラーのピラミッド
- 臨床評価の4つの上昇レベル(知っている、やり方を知っている、やり方を示す、実行する)を記述するフレームワークで、評価方法を判断される能力レベルに合わせるために使用されます。
- プログラム評価
- 個々の評価を時間の経過とともに意図的に組み合わせたデータポイントとして扱うアプローチであり、孤立した高リスクテストに頼るのではなく、学習と意思決定の両方のためにプログラム全体を最適化します。
- 評価の有用性
- 評価の価値は、妥当性、信頼性、教育的影響、受容性、コストといったいくつかの質の産物であり、個々に最大化するのではなく、バランスを取る必要があるという見方です。
Mechanisms
評価は、方法を目的と判断される能力レベルに合わせることで設計されます。ミラーのピラミッド(Miller, 1990)は、知識のテスト(知っている、やり方を知っている)からパフォーマンスの観察(やり方を示す、実行する)へと方法を順序付けます。例えば、筆記試験は低いレベルに適しており、職場での観察は高いレベルに適しています。選択された方法は、有用性(妥当性、信頼性、学習への影響、受容性、コスト)について評価され、プログラム的アプローチでは、学習と確実な意思決定の両方を支援する、低リスクおよび高リスクのデータポイントの意図的なシーケンスに組み合わされます(Epstein, 2007; Van der Vleuten et al., 2012)。プログラム評価は、同じ論理を教育プログラム自体の評価に拡張します(Frye & Hemmer, 2012)。
Clinical relevance
評価は学習者が何を学ぶか、教育者が能力をどのように判断するかを形成するため、その原則を理解することは、保健医療教育における公正で擁護可能な評価の設計と批判を支援します。このトピックは、学習がどのように測定されるかを説明するものであり、個々の臨床的決定の根拠となるものではありません。
Evidence & guidelines
医療専門職における評価の実践は、広く引用されているフレームワークによって導かれています。能力と方法を対応させるためのミラーのピラミッド(Miller, 1990)、評価の有用性の概念と評価方法のレビュー(Epstein, 2007)、そして時間の経過とともに証拠を組み合わせるためのプログラム評価(Van der Vleuten et al., 2012)などです。プログラム評価は、FryeとHemmer(2012)によってまとめられたものなど、確立されたモデルに基づいています。これらの証拠の多くは、実験的なものというよりも概念的でコンセンサスに基づいています。
History
20世紀後半、医療専門職における評価は、知識テストに焦点を当てることから、パフォーマンスの直接観察へと移行し、1990年のミラーのピラミッドによって具体化されました。その後の数十年間は、評価の多次元的な有用性、職場ベースの方法、そして最近では、単一の高リスク試験に頼るのではなく、多くの評価を時間とともに統合するプログラム的アプローチが強調されました。
Debates
- 妥当性と信頼性を同時に最大化することは可能か?
- 真正なパフォーマンスベースの評価は、標準化と信頼性をある程度犠牲にして妥当性を高めることが多いため、設計者は、いずれか一つを最適化するのではなく、評価の質をバランスさせる必要があります。これは、有用性の概念とプログラム的アプローチの中心的な課題です。
Key figures
- George Miller
- Cees van der Vleuten
- Ronald Epstein
- Lambert Schuwirth
Related topics
Seminal works
- miller-1990
- epstein-2007
- vandervleuten-2012
Frequently asked questions
- 形成的評価と総括的評価の違いは何ですか?
- 形成的評価はフィードバックを通じてさらなる学習を支援し、導くことを目的としているのに対し、総括的評価は達成度を認定し、合格や進級などの決定を下すために使用されます。
- ミラーのピラミッドは何を説明していますか?
- これは、臨床能力の4つのレベル(知っている、やり方を知っている、やり方を示す、実行する)を説明しており、評価方法を評価される能力レベルに合わせるのに役立ちます。