信頼性と妥当性の違いは何ですか？

信頼性は測定の一貫性（ランダム誤差の影響をどれだけ受けにくいか）であり、妥当性は得点から導かれる推論が正当であるかどうかです。テストは特定の目的のために妥当でなくても信頼できる場合がありますが、合理的に信頼できなければ妥当であることはできません。

構成概念妥当性とは何を意味しますか？

それは、テストが意図された理論的に定義された属性を測定していると解釈できる程度であり、テストが理論が予測するように他の変数と関連するという証拠を蓄積することによって確立されます。

心理検査と精神測定学

精神測定学は、心理学的属性を測定する科学であり、検査がどのように構成され、その得点がどのように定量化され、信頼性、妥当性、公平性がどのように確立されるかによって、検査から得られた数値を確信を持って解釈できるようになります。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

精神測定学は、心理学的測定の理論と技術に関わる心理学の一分野であり、テストの設計、実施、採点、妥当性確認、および観察された得点と根底にある属性を関連付ける統計モデルを含みます。

Scope

このトピックでは、回答を解釈可能な得点に変換する理論と方法について扱います。具体的には、古典的テスト理論と真の得点モデル、信頼性と測定誤差、妥当性の枠組み、項目レベル分析、規範化と標準化、およびテストの公平性です。これは測定に関する方法論的な項目であり、個人のためのテストの選択や採点に関するガイダンスではありません。

Core questions

観察された得点のどの程度が属性を反映し、どの程度が測定誤差を反映しているのでしょうか？
得点が意図された構成概念を測定していると解釈される前に、どのような証拠が必要とされますか？
テスト項目はどのように分析され、選択され、尺度化されますか？
規範と標準化を通じて、人々の間で得点はどのように比較可能にされますか？

Key concepts

真の得点と測定誤差
信頼性（内的整合性、再テスト信頼性、評価者間信頼性）
内容妥当性、基準関連妥当性、構成概念妥当性
項目分析と難易度/弁別度
規範、標準化、および標準得点
項目反応理論
測定不変性とテストの公平性

Key theories

古典的テスト理論: 古典的テスト理論は、観察された得点を真の得点とランダム誤差の合計としてモデル化し、そこから信頼性は、観察された得点分散のうち真の得点分散に起因する割合として定義されます。LordとNovickは、この分野に厳密な統計的定式化を与えました。
統一された構成概念妥当性: CronbachとMeehlは、テストが推論する構成概念を中心に妥当性を位置づけ、Messickは内容、基準、構成概念の証拠を、得点解釈の正当化と結果に関する単一の議論に統合しました。

Mechanisms

古典的モデルでは、観察された得点は真の得点とランダム誤差の合計として扱われ、信頼性は真の得点分散である分散の割合を定量化します。LordとNovickはこれを形式化し、後の項目反応モデルも同様です。妥当性は、得点が意図された推論を裏付ける保証であり、CronbachとMeehlはそれを構成概念とそのノモロジカルネットワークに位置づけ、Haynesらは内容妥当性を項目と目標領域の体系的な一致として詳細に説明し、Messickは証拠の種類を統合して、解釈の結果も考慮に入れる議論を提示しました。規範と標準化は、定義された集団を参照することで得点を比較可能にします。

Clinical relevance

精神測定学的特性は、臨床検査の得点が信頼できるかどうか、そしてそれが何を意味すると解釈できるかを決定するため、信頼性と妥当性の証拠は、臨床心理学におけるテストのすべての正当な使用の基礎となります。この項目は、これらの特性を測定概念として説明するものであり、特定の個人に対する特定の機器やカットオフを推奨するものではありません。

Evidence & guidelines

「教育的および心理学的テストの基準 (The Standards for Educational and Psychological Testing)」は、テスト開発と使用における信頼性、妥当性、および公平性に関する期待を体系化しています。CronbachとMeehl、Messick、およびHaynesらは、妥当性の枠組みに関する標準的な方法論的参考文献であり、LordとNovickは、古典的テスト理論と項目反応テスト理論の規範的な記述です。

History

精神測定は、19世紀の個人差に関する研究から生まれ、20世紀前半に古典的テスト理論として体系化されました。CronbachとMeehlの1955年の論文は構成概念妥当性を中心的なものとし、LordとNovickの1968年のモノグラフは、この分野に厳密な統計的および項目反応の基礎を与え、Messickの後期の統合は、推論の正当化とその社会的結果を中心に妥当性の概念を統一しました。

Debates

妥当性はテストの特性か、それとも推論の特性か？: この分野は、有効なテストについて語ることから、得点から導かれる推論と使用を妥当化することへと大きく移行しており、テストの結果が妥当性の概念内にどの程度含まれるべきかについては継続的な議論があります。

Key figures

Lee Cronbach
Paul Meehl
Samuel Messick
Frederic Lord
Melvin Novick

Seminal works

cronbach-meehl-1955
lord-novick-1968
messick-1995

Frequently asked questions

信頼性と妥当性の違いは何ですか？: 信頼性は測定の一貫性（ランダム誤差の影響をどれだけ受けにくいか）であり、妥当性は得点から導かれる推論が正当であるかどうかです。テストは特定の目的のために妥当でなくても信頼できる場合がありますが、合理的に信頼できなければ妥当であることはできません。
構成概念妥当性とは何を意味しますか？: それは、テストが意図された理論的に定義された属性を測定していると解釈できる程度であり、テストが理論が予測するように他の変数と関連するという証拠を蓄積することによって確立されます。