中心傾向の尺度
中心傾向の尺度とは、データセットの大部分がどこに位置するか、つまり他の観測値がその周りに集まる典型的な、あるいは中心的な観測値を要約する単一の値です。古典的な3つの尺度は、平均、中央値、および最頻値であり、それらの選択は測定水準と分布の形状に依存します。
Definition
中心傾向の尺度とは、分布の中心を特定する単一の値です。算術平均は、値の合計をその数で割ったものであり、中央値は観測値を順序付けたときの中央の値であり、最頻値は最も頻繁に出現する値です。
Scope
この項目では、平均、中央値、最頻値について、それぞれの計算方法、表すもの、およびいつが適切な要約であるかを扱います。これは方法論的な参照であり、臨床的ガイダンスを提供するものではありません。
Core questions
- この変数に最も適した位置の尺度はどれか?
- 分布の形状は平均と中央値の選択にどのように影響するか?
- 最頻値が最も情報量の多い要約となるのはいつか?
Key concepts
- 算術平均
- 中央値
- 最頻値
- 外れ値に対する頑健性
- 歪度が平均と中央値に与える影響
- 測定水準と平均の選択
Mechanisms
平均はすべての観測値を使用し、対称的な間隔尺度または比率尺度データにとって自然な要約ですが、すべての値を取り込むがゆえに極端な観測値に引きずられ、歪度や外れ値によって歪められます。順序付けられたデータの中央値は、極端な値の大きさを無視するため頑健であり、歪んだ連続データや順序変数にとって好ましい要約となります。最も一般的な値である最頻値は、名義データに適用できる唯一の尺度であり、最も典型的なカテゴリや分布のピークを特定するのに役立ちます。完全に左右対称な単峰性分布では、これら3つは一致します。歪度が増加すると、平均は裾の方向に最も大きくずれます。
Clinical relevance
報告される平均値(平均血圧、中央生存期間、最も一般的な診断など)は、臨床所見がどのように伝達されるかにおいて中心的であり、どの尺度が使用されたかを認識することは、歪んだデータの誤読を防ぐ上で重要です。この項目は、評価のために位置がどのように要約されるかを説明するものであり、個別の診断や治療の決定の根拠となるものではありません。
Epidemiology
多くの健康測定値は歪んでいるため、中央値が典型的な値のより忠実な要約となることが多く、そのようなデータに対して平均を報告すると中心値が過大評価される可能性があります。したがって、尺度の選択は、集団の特性と結果がどのように伝えられるかに影響します。
History
算術平均は古代から測定値を結合するために使用されており、平均、中央値、最頻値の間の正式な区別は、19世紀から20世紀初頭にかけて記述統計学が成熟するにつれて確立されました。中央値が歪んだ分布をよりよく表すという認識は、応用統計学の文献全体で繰り返し述べられている長年の原則です。
Debates
- 歪んだ臨床データには平均か中央値か?
- 医療でよく見られる右に歪んだ量(費用、入院期間、バイオマーカーレベルなど)の場合、平均は裾によって膨張するのに対し、中央値は典型的な値を追跡するため、一般的に中央値が推奨され、平均はほぼ対称的なデータに限定されます。
Key figures
- S. Manikandan
Related topics
Seminal works
- manikandan-2011-mean
- manikandan-2011-median-mode
Frequently asked questions
- 平均の代わりに中央値を報告すべきなのはいつですか?
- 分布が歪んでいる場合、外れ値が含まれている場合、または変数が順序尺度である場合です。これらの状況では、中央値は極端な値に引きずられる平均よりも、典型的な値をより忠実に表します。
- 最頻値はあらゆる種類のデータに使用できますか?
- はい。最頻値は名義(カテゴリ)データに適用できる唯一の中心傾向の尺度であり、数値データにおけるピークや最も一般的な値を強調することもできます。