تحلیل دادههای طبقهای
تحلیل دادههای طبقهای شاخهای از آمار زیستی است که به دادههایی میپردازد که به جای مقادیر عددی پیوسته، در دستههای گسسته قرار میگیرند — مثلاً وجود یا عدم وجود یک بیماری، خوشخیم یا بدخیم بودن یک تومور، یا اختصاص بیمار به یکی از چندین گروه درمانی. هدف اصلی آن جدول توافقی (contingency table) فراوانیها است و روشهای آن به آزمون و اندازهگیری ارتباط بین متغیرهای طبقهای میپردازند، در حالی که سایر متغیرها کنترل میشوند.
Definition
تحلیل دادههای طبقهای مجموعهای از روشهای آماری برای توصیف، آزمون و مدلسازی ارتباطات بین متغیرهایی است که مقادیر آنها فراوانیهایی در دستههای گسسته نامرتب یا مرتب هستند که معمولاً به صورت جداول توافقی فراوانیها سازماندهی میشوند.
Scope
این حوزه خواننده را با ایدههای اصلی که در صفحات موضوعی زیر آن تکرار میشوند آشنا میکند: چگونگی تنظیم مشاهدات طبقهای در جداول توافقی، چگونگی آزمون ارتباط در یک جدول (آزمونهای کایدو و دقیق)، چگونگی خلاصهسازی یک ارتباط با یک معیار اثر (نسبتهای خطر و نسبتهای شانس)، و چگونگی مدیریت یک متغیر طبقهای مخدوشکننده از طریق طبقهبندی (روشهای منتل-هنزِل). این موارد به عنوان ابزارهای روششناختی برای خواندن و تولید تحقیقات سلامت مطرح میشوند، نه به عنوان راهنمای بالینی.
Sub-topics
Core questions
- آیا ارتباطی بین دو متغیر طبقهای وجود دارد، یا آنها مستقل هستند؟
- این ارتباط چقدر بزرگ است، که به صورت نسبت یا تفاوت خطرات یا شانسها بیان میشود؟
- آیا یک ارتباط ظاهری پس از طبقهبندی بر اساس یک متغیر طبقهای سوم باقی میماند، یا توسط آن مخدوش یا تعدیل میشود؟
- هنگامی که فراوانیهای خانه کوچک هستند، کدام روش دقیق جایگزین تقریب نمونه بزرگ میشود؟
Key concepts
- جدول توافقی فراوانیها
- استقلال متغیرهای طبقهای
- آزمون کایدو برای ارتباط
- آزمونهای دقیق برای جداول پراکنده
- معیارهای اثر: نسبت خطر و نسبت شانس
- طبقهبندی و برآوردگر منتل-هنزِل
- مخدوشکنندگی و تعدیل اثر در بین لایهها
- مدلهای لگخطی و لجستیک برای جداول
Mechanisms
مشاهدات طبقهای به صورت متقاطع در جدولی طبقهبندی میشوند که خانههای آن حاوی فراوانیها هستند. آزمون ارتباط، فراوانیهای مشاهدهشده در خانهها را با فراوانیهای مورد انتظار در صورت مستقل بودن متغیرهای سطر و ستون مقایسه میکند: آماره کایدو پیرسون، که به صورت مجانبی با توضیح فیشر در مورد درجات آزادی آن توجیه میشود، مجموع تفاوتهای استاندارد شده مربع را محاسبه میکند، در حالی که آزمونهای دقیق، توزیع شرطی جداول را زمانی که فراوانیها برای تقریب بسیار کوچک هستند، شمارش میکنند. سپس قدرت ارتباط با یک معیار اثر مشتق شده از جدول — نسبت خطر یا نسبت شانس — خلاصه میشود. هنگامی که یک متغیر سوم تهدید به مخدوش کردن ارتباط میکند، دادهها به لایههایی (strata) تقسیم میشوند که توسط آن متغیر تعریف شدهاند و یک برآورد تجمیعشده در بین لایهها تشکیل میشود؛ روش منتل-هنزِل چنین آزمون طبقهبندیشده و برآورد خلاصهای را ارائه میدهد. این اجزا به مدلهای رگرسیون لگخطی و لجستیک تعمیم مییابند که چندین پیشبینیکننده طبقهای را به طور همزمان مدیریت میکنند.
Clinical relevance
بیشتر شواهد تشخیصی، پیشآگهی و عوامل خطر در علوم سلامت به صورت ارتباط بین متغیرهای طبقهای گزارش میشوند — مثلاً در معرض قرار گرفته در مقابل در معرض قرار نگرفته، رویداد در مقابل عدم رویداد — بنابراین روشهای این حوزه زیربنای چگونگی تولید و ارزیابی این شواهد هستند. آنها چگونگی اندازهگیری و آزمون ارتباطات را توصیف میکنند؛ آنها ابزارهایی برای تفسیر تحقیقات هستند و مبنایی برای تصمیمگیریهای تشخیصی یا درمانی فردی نیستند.
Epidemiology
روشهای جدول توافقی، ابزار روزمره اپیدمیولوژی هستند: مطالعات کوهورت، مورد-شاهدی و مقطعی، در سادهترین حالت خود، به یک جدول دو در دو از مواجهه در برابر پیامد تقلیل مییابند، و تحلیل طبقهبندیشده (منتل-هنزِل) رویکرد کلاسیک غیرمدل برای مخدوشکنندگی قبل از رگرسیون است. همین روشها در کارآزماییهای بالینی که نقاط پایانی دودویی را گزارش میکنند و در ارزیابی آزمونهای تشخیصی تکرار میشوند.
History
این حوزه با آماره کایدو کارل پیرسون در آغاز قرن بیستم و تصحیح فیشر در سال ۱۹۲۲ برای درجات آزادی آن در جداول توافقی آغاز شد، و سپس آزمون دقیق فیشر برای نمونههای کوچک ارائه شد. اپیدمیولوژی میانه قرن چارچوب معیار اثر را فراهم کرد — استدلال نسبت شانس کورنفیلد و برآوردگر طبقهبندیشده منتل-هنزِل در سال ۱۹۵۹ — و اواخر قرن بیستم این روشها را در چارچوب مدل خطی تعمیمیافته یکپارچه کرد که در کتاب درسی آگرستی سنتز شده است.
Key figures
- Karl Pearson
- Ronald A. Fisher
- Jerome Cornfield
- Nathan Mantel
- William Haenszel
- Alan Agresti
- Joseph Fleiss
Related topics
Seminal works
- fisher-1922
- mantel-haenszel-1959
- agresti-2013
Frequently asked questions
- چه چیزی دادهها را «طبقهای» میکند؟
- دادهها زمانی طبقهای هستند که هر مشاهده در یکی از مجموعهای از دستههای گسسته قرار میگیرد — مانند بیمار/سالم یا گروه درمانی A/B/C — به جای اینکه یک مقدار عددی اندازهگیری شده را بگیرد؛ تحلیل با فراوانیها در هر طبقه کار میکند.
- این حوزه چه تفاوتی با رگرسیون برای پیامدهای پیوسته دارد؟
- پیامد در اینجا یک طبقه یا یک فراوانی است، نه یک اندازهگیری پیوسته، بنابراین روشها بر جداول توافقی، نسبتهای خطرات و شانسها، و مدلهایی مانند رگرسیون لجستیک و لگخطی متمرکز هستند، نه بر میانگینها و رگرسیون خطی معمولی.