回帰と相関
回帰と相関は、変数が互いにどのように関連しているかを定量化するための中心的な生物統計学的ツールです。相関は2つの量の間の関連の強さと方向を測定し、回帰は1つまたは複数の説明変数が変化するにつれて結果がどのように変化するかをモデル化し、説明と予測の両方をサポートします。これらは、健康科学で報告される多変量解析のほとんどを支えています。
Definition
回帰と相関は、変数間の関連を要約する(相関と共分散)統計的手法であり、結果を1つまたは複数の説明変数に関連付ける関数を推定する(回帰)ことで、結果を説明したり、交絡因子を調整したり、予測したりすることができます。
Scope
この分野では、関連を記述し、予測因子から結果をモデル化するために使用される手法群、すなわち相関と共分散、連続的結果のための単回帰および重回帰、二値結果のためのロジスティック回帰、そしてモデル選択と診断という横断的な懸念事項について読者の理解を深めます。これは臨床的ガイダンスではなく方法論的な地図であり、各手法が詳細に展開されている個々のトピックエントリにリンクしています。
Sub-topics
Core questions
- 2つの変数はどの程度強く、どのような方向に相関していますか?
- 他の変数を一定に保った場合、説明変数が変化すると結果はどのように変化しますか?
- 分析される結果のタイプにどのモデル形式(線形、ロジスティック、その他)が適合しますか?
- 回帰係数は効果として、または予測としてどのように解釈されますか?
- 適合されたモデルはどのようにチェックされ、選択され、過学習を防ぐことができますか?
Key concepts
- 共分散と相関係数
- 最小二乗推定
- 回帰係数(傾き)と切片
- 重回帰による調整と交絡制御
- リンク関数と一般化線形モデルのフレームワーク
- 予測と説明
- 過学習とモデル検証
- 残差とモデル診断
Mechanisms
相関は、2つの変数の結合変動(共分散)を、-1から+1の間のスケールフリーな係数に還元します。回帰はさらに進んで、予測因子が与えられた場合の結果の期待値を記述する関数(多くの場合、線または重み付けされた予測因子の合計)を適合させます。線形回帰は、連続的な結果に対して最小二乗法によってこの関数を推定します。ロジスティック回帰やその他の一般化線形モデルは、線形予測因子と結果のスケールを接続するリンク関数を介して、二値、カウント、およびその他の結果タイプに同じ考え方を拡張します。これらすべてにおいて、係数は実質的な解釈を担い、診断は、その解釈を正当化する仮定が成り立つかどうかをチェックします。
Clinical relevance
臨床および公衆衛生研究におけるほとんどの定量的知見、すなわち調整された関連、リスク因子、用量反応関係、および予測モデルは、回帰によって生成されます。これらのモデルがどのように構築され、解釈されるかを理解することは、文献を批判的に評価する上で不可欠です。この分野は、そのようなエビデンスがどのように生成されるかを記述するものであり、個々の診断や治療の決定の根拠となるものではありません。
Evidence & guidelines
回帰ベースの研究に関する報告ガイダンスには、観察研究のためのSTROBE声明と、予測モデル研究のためのTRIPOD声明が含まれます。HarrellやVittinghoffらの標準的な教科書では、推奨されるモデリング戦略が示されています。方法論的な解説では、連続的な予測因子を二値化するなど、情報を破棄し推定された効果を歪める可能性のある避けるべき慣行に対して注意を促しています。
History
相関と回帰は、フランシス・ゴルトンが19世紀後半に行った遺伝に関する研究に端を発し、そこで彼は「平均への回帰」を記述し、カール・ピアソンによって正式な基礎が築かれました。20世紀には線形モデルが複数の予測因子に拡張され、その後、一般化線形モデルのフレームワークが線形、ロジスティック、および関連するモデルを統合しました。生物統計学において、これらの手法は調整分析とリスク予測のための標準的な装置となりました。
Key figures
- Francis Galton
- Karl Pearson
- David Cox
- Frank Harrell
- Douglas Altman
Related topics
Seminal works
- altman-bland-2005
- harrell-2015
Frequently asked questions
- 相関と回帰の違いは何ですか?
- 相関は、2つの変数間の関連の強さと方向を単一の対称的な係数で要約しますが、回帰は、結果が1つまたは複数の予測因子にどのように依存するかをモデル化し、調整または予測に使用できる係数を生成します。相関は結果と予測因子を区別しませんが、回帰は区別します。
- どの回帰モデルを使用すべきですか?
- 選択は結果のタイプに従います。連続的な結果には線形回帰、二値の結果にはロジスティック回帰、カウントデータやイベント発生までの時間データにはその他の一般化線形モデルまたは生存モデルが使用されます。個々のトピックエントリでそれぞれについて詳しく説明しています。