چه چیزی دادهها را «طبقهای» میکند؟

دادهها زمانی طبقهای هستند که هر مشاهده در یکی از مجموعهای از دستههای گسسته قرار میگیرد — مانند بیمار/سالم یا گروه درمانی A/B/C — به جای اینکه یک مقدار عددی اندازهگیری شده را بگیرد؛ تحلیل با فراوانیها در هر طبقه کار میکند.

این حوزه چه تفاوتی با رگرسیون برای پیامدهای پیوسته دارد؟

پیامد در اینجا یک طبقه یا یک فراوانی است، نه یک اندازهگیری پیوسته، بنابراین روشها بر جداول توافقی، نسبتهای خطرات و شانسها، و مدلهایی مانند رگرسیون لجستیک و لگخطی متمرکز هستند، نه بر میانگینها و رگرسیون خطی معمولی.

تحلیل داده‌های طبقه‌ای

تحلیل داده‌های طبقه‌ای شاخه‌ای از آمار زیستی است که به داده‌هایی می‌پردازد که به جای مقادیر عددی پیوسته، در دسته‌های گسسته قرار می‌گیرند — مثلاً وجود یا عدم وجود یک بیماری، خوش‌خیم یا بدخیم بودن یک تومور، یا اختصاص بیمار به یکی از چندین گروه درمانی. هدف اصلی آن جدول توافقی (contingency table) فراوانی‌ها است و روش‌های آن به آزمون و اندازه‌گیری ارتباط بین متغیرهای طبقه‌ای می‌پردازند، در حالی که سایر متغیرها کنترل می‌شوند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

تحلیل داده‌های طبقه‌ای مجموعه‌ای از روش‌های آماری برای توصیف، آزمون و مدل‌سازی ارتباطات بین متغیرهایی است که مقادیر آن‌ها فراوانی‌هایی در دسته‌های گسسته نامرتب یا مرتب هستند که معمولاً به صورت جداول توافقی فراوانی‌ها سازماندهی می‌شوند.

Scope

این حوزه خواننده را با ایده‌های اصلی که در صفحات موضوعی زیر آن تکرار می‌شوند آشنا می‌کند: چگونگی تنظیم مشاهدات طبقه‌ای در جداول توافقی، چگونگی آزمون ارتباط در یک جدول (آزمون‌های کای‌دو و دقیق)، چگونگی خلاصه‌سازی یک ارتباط با یک معیار اثر (نسبت‌های خطر و نسبت‌های شانس)، و چگونگی مدیریت یک متغیر طبقه‌ای مخدوش‌کننده از طریق طبقه‌بندی (روش‌های منتل-هنزِل). این موارد به عنوان ابزارهای روش‌شناختی برای خواندن و تولید تحقیقات سلامت مطرح می‌شوند، نه به عنوان راهنمای بالینی.

Sub-topics

Core questions

آیا ارتباطی بین دو متغیر طبقه‌ای وجود دارد، یا آن‌ها مستقل هستند؟
این ارتباط چقدر بزرگ است، که به صورت نسبت یا تفاوت خطرات یا شانس‌ها بیان می‌شود؟
آیا یک ارتباط ظاهری پس از طبقه‌بندی بر اساس یک متغیر طبقه‌ای سوم باقی می‌ماند، یا توسط آن مخدوش یا تعدیل می‌شود؟
هنگامی که فراوانی‌های خانه کوچک هستند، کدام روش دقیق جایگزین تقریب نمونه بزرگ می‌شود؟

Key concepts

جدول توافقی فراوانی‌ها
استقلال متغیرهای طبقه‌ای
آزمون کای‌دو برای ارتباط
آزمون‌های دقیق برای جداول پراکنده
معیارهای اثر: نسبت خطر و نسبت شانس
طبقه‌بندی و برآوردگر منتل-هنزِل
مخدوش‌کنندگی و تعدیل اثر در بین لایه‌ها
مدل‌های لگ‌خطی و لجستیک برای جداول

Mechanisms

مشاهدات طبقه‌ای به صورت متقاطع در جدولی طبقه‌بندی می‌شوند که خانه‌های آن حاوی فراوانی‌ها هستند. آزمون ارتباط، فراوانی‌های مشاهده‌شده در خانه‌ها را با فراوانی‌های مورد انتظار در صورت مستقل بودن متغیرهای سطر و ستون مقایسه می‌کند: آماره کای‌دو پیرسون، که به صورت مجانبی با توضیح فیشر در مورد درجات آزادی آن توجیه می‌شود، مجموع تفاوت‌های استاندارد شده مربع را محاسبه می‌کند، در حالی که آزمون‌های دقیق، توزیع شرطی جداول را زمانی که فراوانی‌ها برای تقریب بسیار کوچک هستند، شمارش می‌کنند. سپس قدرت ارتباط با یک معیار اثر مشتق شده از جدول — نسبت خطر یا نسبت شانس — خلاصه می‌شود. هنگامی که یک متغیر سوم تهدید به مخدوش کردن ارتباط می‌کند، داده‌ها به لایه‌هایی (strata) تقسیم می‌شوند که توسط آن متغیر تعریف شده‌اند و یک برآورد تجمیع‌شده در بین لایه‌ها تشکیل می‌شود؛ روش منتل-هنزِل چنین آزمون طبقه‌بندی‌شده و برآورد خلاصه‌ای را ارائه می‌دهد. این اجزا به مدل‌های رگرسیون لگ‌خطی و لجستیک تعمیم می‌یابند که چندین پیش‌بینی‌کننده طبقه‌ای را به طور همزمان مدیریت می‌کنند.

Clinical relevance

بیشتر شواهد تشخیصی، پیش‌آگهی و عوامل خطر در علوم سلامت به صورت ارتباط بین متغیرهای طبقه‌ای گزارش می‌شوند — مثلاً در معرض قرار گرفته در مقابل در معرض قرار نگرفته، رویداد در مقابل عدم رویداد — بنابراین روش‌های این حوزه زیربنای چگونگی تولید و ارزیابی این شواهد هستند. آن‌ها چگونگی اندازه‌گیری و آزمون ارتباطات را توصیف می‌کنند؛ آن‌ها ابزارهایی برای تفسیر تحقیقات هستند و مبنایی برای تصمیم‌گیری‌های تشخیصی یا درمانی فردی نیستند.

Epidemiology

روش‌های جدول توافقی، ابزار روزمره اپیدمیولوژی هستند: مطالعات کوهورت، مورد-شاهدی و مقطعی، در ساده‌ترین حالت خود، به یک جدول دو در دو از مواجهه در برابر پیامد تقلیل می‌یابند، و تحلیل طبقه‌بندی‌شده (منتل-هنزِل) رویکرد کلاسیک غیرمدل برای مخدوش‌کنندگی قبل از رگرسیون است. همین روش‌ها در کارآزمایی‌های بالینی که نقاط پایانی دودویی را گزارش می‌کنند و در ارزیابی آزمون‌های تشخیصی تکرار می‌شوند.

History

این حوزه با آماره کای‌دو کارل پیرسون در آغاز قرن بیستم و تصحیح فیشر در سال ۱۹۲۲ برای درجات آزادی آن در جداول توافقی آغاز شد، و سپس آزمون دقیق فیشر برای نمونه‌های کوچک ارائه شد. اپیدمیولوژی میانه قرن چارچوب معیار اثر را فراهم کرد — استدلال نسبت شانس کورنفیلد و برآوردگر طبقه‌بندی‌شده منتل-هنزِل در سال ۱۹۵۹ — و اواخر قرن بیستم این روش‌ها را در چارچوب مدل خطی تعمیم‌یافته یکپارچه کرد که در کتاب درسی آگرستی سنتز شده است.

Key figures

Karl Pearson
Ronald A. Fisher
Jerome Cornfield
Nathan Mantel
William Haenszel
Alan Agresti
Joseph Fleiss

Seminal works

fisher-1922
mantel-haenszel-1959
agresti-2013

Frequently asked questions

چه چیزی داده‌ها را «طبقه‌ای» می‌کند؟: داده‌ها زمانی طبقه‌ای هستند که هر مشاهده در یکی از مجموعه‌ای از دسته‌های گسسته قرار می‌گیرد — مانند بیمار/سالم یا گروه درمانی A/B/C — به جای اینکه یک مقدار عددی اندازه‌گیری شده را بگیرد؛ تحلیل با فراوانی‌ها در هر طبقه کار می‌کند.
این حوزه چه تفاوتی با رگرسیون برای پیامدهای پیوسته دارد؟: پیامد در اینجا یک طبقه یا یک فراوانی است، نه یک اندازه‌گیری پیوسته، بنابراین روش‌ها بر جداول توافقی، نسبت‌های خطرات و شانس‌ها، و مدل‌هایی مانند رگرسیون لجستیک و لگ‌خطی متمرکز هستند، نه بر میانگین‌ها و رگرسیون خطی معمولی.