単回帰分析
単回帰分析は、連続的な結果変数の期待値を、単一の説明変数の直線関数としてモデル化します。これは、最小二乗法によって切片と傾きを推定し、傾きは予測変数が1単位増加するごとに結果変数が平均してどの程度変化するかを示します。これは、より精巧なモデルが構築される基礎となる回帰モデルです。
Definition
単回帰分析は、E(Y) = a + bX というモデルを適合させ、残差平方和(通常の最小二乗法)を最小化することによって切片 a と傾き b を推定します。これにより、傾きは単一の予測変数 X が1単位増加するごとに連続的な結果変数 Y が平均してどの程度変化するかを定量化します。
Scope
この項目では、1つの予測変数を持つ直線モデルについて扱います。具体的には、切片と傾きの意味、最小二乗推定、線形性、独立性、等分散性、および近似的に正規分布する残差の仮定、ならびに信頼区間、予測、決定係数を通じた適合の解釈について説明します。これは方法論的なトピックであり、臨床的なガイダンスではありません。
Core questions
- データに直線をどのように適合させるのか、また「最小二乗法」は何を最小化するのか?
- 切片と傾きは実質的に何を意味するのか?
- 推定値とその信頼区間が有効であるためには、どのような仮定が満たされなければならないのか?
- 単回帰分析は相関係数とどのように関連しているのか?
- 適合した線は推定と予測のためにどのように使用されるのか?
Key concepts
- 切片と傾き
- 通常の最小二乗法
- 残差
- 仮定:線形性、独立性、等分散性、正規誤差
- 傾きの信頼区間
- 決定係数(R二乗)
- 信頼区間と予測区間
- 平均への回帰
Mechanisms
このモデルは、結果変数の平均が予測変数において直線上にあり、個々の観測値はその線の周りに散らばっていると仮定します。通常の最小二乗法は、観測値と適合値の間の垂直距離(残差)の平方和を最小化する切片と傾きを選択します。傾きの推定値には標準誤差があり、残差が独立しており、ほぼ一定の分散を持ち、近似的に正規分布している場合に有効な信頼区間と仮説検定が導き出されます。決定係数(R二乗)は、予測変数によって説明される結果変数の分散の割合を報告し、単一予測変数の場合、ピアソン相関係数の二乗に等しくなります。信頼区間は、特定の予測変数における平均結果の不確実性を記述するのに対し、より広い予測区間は、個々の将来の観測値の不確実性を記述します。
Clinical relevance
単回帰分析は、ある連続的な測定値が別の測定値とどのように関連しているかを記述し、参照関係や校正曲線を構築するために、医療文献全体で広く用いられています。その仮定を認識することは、そのような分析を評価する上で重要です。この項目は方法を説明するものであり、個別の診断や治療の決定の根拠となるものではありません。
Evidence & guidelines
標準的な医療統計の教科書やBMJ Statistics Notesシリーズでは、回帰直線、傾き、およびそれらの信頼区間をどのように報告し解釈すべきかについて記述されており、適合した線に依拠する前に残差をチェックすることの重要性が強調されています。
History
直線モデルは、フランシス・ゴルトンが19世紀に遺伝的形質における「平均への回帰」を観察したことに端を発します。この現象が回帰という名前の由来となり、また、それ以前に天文学や測地学で開発された最小二乗法にも関連しています。ピアソンとその後の研究者たちは傾きの推論を形式化し、このモデルは現代の生物統計学におけるより広範な回帰分析の出発点となりました。
Key figures
- Francis Galton
- Karl Pearson
- Douglas Altman
- Martin Bland
Related topics
Seminal works
- altman-1991
- kutner-2005
Frequently asked questions
- 単回帰分析における傾きは何を意味しますか?
- 傾きは、予測変数が1単位増加するごとに結果変数が平均して変化する量です。その信頼区間とp値は、推定の精度と、その関連が関係がない状態と区別できるかどうかを示します。
- 回帰直線における信頼区間と予測区間の違いは何ですか?
- 信頼区間は、特定の予測変数における平均結果に関する不確実性を表すのに対し、より広い予測区間は、その値における個々の新しい観測値に関する不確実性を表します。これは、線の周りの点のばらつきも含むためです。