カテゴリカルデータ解析
カテゴリカルデータ解析は、連続的な数値ではなく、離散的なカテゴリに分類されるデータ(疾患の有無、腫瘍の良性・悪性、複数の治療群のいずれかに割り当てられた患者など)を扱う生物統計学の分野です。その中心的な対象は度数分割表であり、その手法は、他の変数を制御しながら、カテゴリカル変数間の関連を検定し、定量化します。
Definition
カテゴリカルデータ解析とは、通常、度数分割表として整理された、順序付けられていない、または順序付けられた離散カテゴリ内の度数である値を持つ変数間の関連を記述、検定、およびモデル化するための一連の統計的手法です。
Scope
この分野では、読者が以下のトピックページ全体にわたって繰り返し現れる中心的なアイデアに焦点を当てます。カテゴリカルな観測値がどのように分割表に配置されるか、表内の関連がどのように検定されるか(カイ二乗検定および正確検定)、関連が効果量(リスク比およびオッズ比)によってどのように要約されるか、そして交絡するカテゴリカル変数が層別化(Mantel-Haenszel法)によってどのように処理されるか、といった点です。これらは、健康研究を読み、作成するための方法論的ツールとして位置づけられており、臨床的ガイダンスではありません。
Sub-topics
Core questions
- 2つのカテゴリカル変数間に何らかの関連があるのか、それとも独立しているのか?
- リスクまたはオッズの比率または差として表現される関連の大きさはどのくらいか?
- 第三のカテゴリカル変数で層別化した後も、見かけの関連は持続するのか、それともその変数によって交絡または修飾されているのか?
- セル度数が小さい場合、大標本近似に代わる正確な手順は何か?
Key concepts
- 度数分割表
- カテゴリカル変数の独立性
- 関連のカイ二乗検定
- 疎な表の正確検定
- 効果量:リスク比とオッズ比
- 層別化とMantel-Haenszel推定量
- 層間の交絡と効果修飾
- 表のための対数線形モデルとロジスティックモデル
Mechanisms
カテゴリカルな観測値は、そのセルに度数を持つ表に交差分類されます。関連の検定では、観測されたセル度数を、行変数と列変数が独立している場合に期待される度数と比較します。ピアソンのカイ二乗統計量は、その自由度に関するフィッシャーの明確化によって漸近的に正当化され、二乗標準化差の合計を計算します。一方、正確検定は、度数が近似には小さすぎる場合に、表の条件付き分布を列挙します。関連の強さは、リスク比またはオッズ比といった表から導出される効果量によって要約されます。第三の変数が関連を交絡させる恐れがある場合、データはその変数によって定義される層に分割され、層全体でプールされた推定値が形成されます。Mantel-Haenszel法は、このような層別検定と要約推定値を提供します。これらの要素は、複数のカテゴリカル予測変数を一度に扱う対数線形モデルおよびロジスティック回帰モデルに一般化されます。
Clinical relevance
健康科学におけるほとんどの診断、予後、およびリスク因子のエビデンスは、カテゴリカル変数間の関連(曝露群対非曝露群、イベント発生対非発生など)として報告されるため、この分野の手法は、そのエビデンスがどのように生成され、評価されるかの基礎となります。これらは関連がどのように測定され、検定されるかを記述するものであり、研究を解釈するためのツールであって、個々の診断や治療の決定の基礎となるものではありません。
Epidemiology
分割表法は疫学の日常的な仕組みです。コホート研究、症例対照研究、横断研究はすべて、最も単純な形では、曝露とアウトカムの2×2表に帰着し、層別解析(Mantel-Haenszel法)は、回帰分析以前の交絡に対する古典的な非モデルアプローチです。同じ手法は、二値エンドポイントを報告する臨床試験や診断テストの評価にも繰り返し現れます。
History
この分野は、20世紀初頭のカール・ピアソンのカイ二乗統計量と、分割表における自由度に関するフィッシャーの1922年の修正、それに続く小標本のためのフィッシャーの正確検定から始まりました。世紀半ばの疫学は、効果量フレームワーク(コーンフィールドのオッズ比の議論と1959年のMantel-Haenszel層別推定量)を提供し、20世紀後半には、これらの手法が一般化線形モデルのフレームワーク内で統一され、アグレスティの教科書で体系化されました。
Key figures
- Karl Pearson
- Ronald A. Fisher
- Jerome Cornfield
- Nathan Mantel
- William Haenszel
- Alan Agresti
- Joseph Fleiss
Related topics
Seminal works
- fisher-1922
- mantel-haenszel-1959
- agresti-2013
Frequently asked questions
- データが「カテゴリカル」であるとはどういうことですか?
- データは、測定された数値を取るのではなく、各観測値が離散的なクラスのセット(疾患あり/なし、治療群A/B/Cなど)のいずれかに分類される場合にカテゴリカルです。解析は各クラスの度数を用いて行われます。
- この分野は、連続アウトカムの回帰分析とどう異なりますか?
- ここでのアウトカムは連続的な測定値ではなく、カテゴリまたは度数であるため、手法は平均値や通常の線形回帰ではなく、分割表、リスクとオッズの比率、ロジスティック回帰や対数線形回帰などのモデルを中心とします。