測定は信頼性があるが妥当性がないということはありえますか？

はい、ありえます。測定は非常に一貫した結果を出す一方で、常に間違ったものを捉えている可能性があります。信頼性は妥当性のために必要ですが、それを保証するものではありません。測定は、それが評価すると主張する構成概念を反映していることも示されなければなりません。

評価者間の一致を評価する際に、偶然を補正するのはなぜですか？

特にカテゴリが少ない場合、2人の評価者は純粋に偶然によって一致することがあります。コーエンのカッパは、観察された一致を偶然によって期待される一致で調整し、真の信頼性についてより正直な推定値を提供します。

測定の妥当性と信頼性

妥当性と信頼性は、品質測定が信頼できるかどうかを決定する2つの中核的な特性です。妥当性は、測定が主張する品質の側面を実際に捉えているかに関わり、信頼性は、同じ条件下で繰り返し適用された場合に測定が一貫した結果を生み出すかに関わります。測定結果が品質に関する判断や行動決定を正当化するためには、測定が信頼性と妥当性の両方を備えている必要があります。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

信頼性とは、測定が繰り返し適用された場合、異なる評価者によって、または異なる項目間で、一貫性のある再現可能な結果をもたらす程度を指します。妥当性とは、測定が、それが評価しようとしている根底にある構成概念（ここでは医療の質の側面）を正確に反映している程度を指します。

Scope

この項目では、品質指標および測定器に適用される妥当性と信頼性の主要な形式、それらを定量化するために一般的に使用される統計、そして結果を伴う測定にとって両方の特性が重要である理由について説明します。これは方法論的な参考文献であり、特定の測定器に対する臨床的なスコアリング閾値を提供するものではありません。

Core questions

品質測定が妥当であるとはどういう意味ですか、また妥当性はどのように評価されますか？
信頼性は妥当性とどのように区別され、なぜ両方が必要なのでしょうか？
内的整合性と評価者間の一致を定量化する統計は何ですか？
妥当性や信頼性が低いと、品質に関する判断がどのように誤解を招く可能性がありますか？

Key concepts

内容妥当性
構成概念妥当性
基準関連妥当性
内的整合性（クロンバックのアルファ）
評価者間信頼性（コーエンのカッパ）
再テスト信頼性
測定誤差とランダム変動

Key theories

信頼性の古典的テスト理論: 古典的テスト理論は、観測された測定値を真の値とランダム誤差の合計として捉えます。したがって、信頼性とは、観測された分散のうち、誤差ではなく真の差異に起因する割合です。クロンバックの係数アルファは、同じ構成概念を測定することを意図した項目間の内的整合性として、この一形式を操作化します。

Mechanisms

信頼性は、測定の繰り返しにおける一貫性を調べることによって評価されます。これには、項目間の内的整合性、評価者間の一致、および根底にある状態が変化していない場合の経時的な安定性が含まれます。クロンバックのアルファは多項目尺度における内的整合性を要約し、コーエンのカッパは2人の評価者によるカテゴリカルな判断における一致度を、偶然の一致を補正して定量化します。妥当性は、測定が意図する構成概念を反映しているという証拠を蓄積することによって評価されます。これには、内容妥当性（概念の包括的な網羅）、構成概念妥当性（他の測定との期待される関係）、および基準関連妥当性（参照標準との一致）が含まれます。測定は信頼性があるにもかかわらず妥当性がない場合があり、その場合、常に間違ったものを測定していることになりますが、信頼性なしに妥当であることはできません。なぜなら、ランダム誤差が測定がその目標をどれだけうまく追跡できるかの上限を定めるからです。

Clinical relevance

品質指標や患者報告型測定器が報告、認定、またはインセンティブのために使用される前に、その妥当性と信頼性が確立されている必要があります。これにより、観察された差異が測定ノイズではなく、品質の真の変動を反映していることが保証されます。これらの特性は、あらゆる品質測定プログラムを解釈する上で中心的です。この項目は測定特性を説明するものであり、個々の患者に対する臨床スコアリング規則の出典ではありません。

Evidence & guidelines

統計的基礎はクロンバックの係数アルファとコーエンのカッパに由来し、健康測定への応用に関するガイダンスはStreinerとNormanのテキストにまとめられています。指標分類ガイダンスは、これらの特性を品質測定の中に位置づけています。これらの出典は、その方法論的コンテンツのために引用されており、臨床的指示ではありません。

History

妥当性と信頼性の概念は、20世紀半ばに心理測定学の分野で形式化され、1951年のクロンバックのアルファと1960年のコーエンのカッパが標準的なツールとなりました。医療分野が患者報告型測定器や品質指標を採用するにつれて、これらの心理測定学的原則は医療測定に導入され、StreinerとNormanの著書のような実用的なガイドで体系化されました。

Debates

クロンバックのアルファは信頼性の十分な尺度か？: アルファは広く報告されていますが、項目数に依存し、単一の根底にある次元を仮定します。高いアルファは、良好な測定ではなく冗長性を反映している可能性があり、単一性や妥当性を確立するものではないため、補完的な証拠を求める声があります。

Key figures

Lee Cronbach
Jacob Cohen
David Streiner
Geoffrey Norman

Seminal works

cronbach-1951
cohen-1960
streiner-norman-2015

Frequently asked questions

測定は信頼性があるが妥当性がないということはありえますか？: はい、ありえます。測定は非常に一貫した結果を出す一方で、常に間違ったものを捉えている可能性があります。信頼性は妥当性のために必要ですが、それを保証するものではありません。測定は、それが評価すると主張する構成概念を反映していることも示されなければなりません。
評価者間の一致を評価する際に、偶然を補正するのはなぜですか？: 特にカテゴリが少ない場合、2人の評価者は純粋に偶然によって一致することがあります。コーエンのカッパは、観察された一致を偶然によって期待される一致で調整し、真の信頼性についてより正直な推定値を提供します。