ScholarGate
دستیار

تحلیل داده‌های طبقه‌ای

تحلیل داده‌های طبقه‌ای شاخه‌ای از آمار زیستی است که به داده‌هایی می‌پردازد که به جای مقادیر عددی پیوسته، در دسته‌های گسسته قرار می‌گیرند — مثلاً وجود یا عدم وجود یک بیماری، خوش‌خیم یا بدخیم بودن یک تومور، یا اختصاص بیمار به یکی از چندین گروه درمانی. هدف اصلی آن جدول توافقی (contingency table) فراوانی‌ها است و روش‌های آن به آزمون و اندازه‌گیری ارتباط بین متغیرهای طبقه‌ای می‌پردازند، در حالی که سایر متغیرها کنترل می‌شوند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

تحلیل داده‌های طبقه‌ای مجموعه‌ای از روش‌های آماری برای توصیف، آزمون و مدل‌سازی ارتباطات بین متغیرهایی است که مقادیر آن‌ها فراوانی‌هایی در دسته‌های گسسته نامرتب یا مرتب هستند که معمولاً به صورت جداول توافقی فراوانی‌ها سازماندهی می‌شوند.

Scope

این حوزه خواننده را با ایده‌های اصلی که در صفحات موضوعی زیر آن تکرار می‌شوند آشنا می‌کند: چگونگی تنظیم مشاهدات طبقه‌ای در جداول توافقی، چگونگی آزمون ارتباط در یک جدول (آزمون‌های کای‌دو و دقیق)، چگونگی خلاصه‌سازی یک ارتباط با یک معیار اثر (نسبت‌های خطر و نسبت‌های شانس)، و چگونگی مدیریت یک متغیر طبقه‌ای مخدوش‌کننده از طریق طبقه‌بندی (روش‌های منتل-هنزِل). این موارد به عنوان ابزارهای روش‌شناختی برای خواندن و تولید تحقیقات سلامت مطرح می‌شوند، نه به عنوان راهنمای بالینی.

Sub-topics

Core questions

  • آیا ارتباطی بین دو متغیر طبقه‌ای وجود دارد، یا آن‌ها مستقل هستند؟
  • این ارتباط چقدر بزرگ است، که به صورت نسبت یا تفاوت خطرات یا شانس‌ها بیان می‌شود؟
  • آیا یک ارتباط ظاهری پس از طبقه‌بندی بر اساس یک متغیر طبقه‌ای سوم باقی می‌ماند، یا توسط آن مخدوش یا تعدیل می‌شود؟
  • هنگامی که فراوانی‌های خانه کوچک هستند، کدام روش دقیق جایگزین تقریب نمونه بزرگ می‌شود؟

Key concepts

  • جدول توافقی فراوانی‌ها
  • استقلال متغیرهای طبقه‌ای
  • آزمون کای‌دو برای ارتباط
  • آزمون‌های دقیق برای جداول پراکنده
  • معیارهای اثر: نسبت خطر و نسبت شانس
  • طبقه‌بندی و برآوردگر منتل-هنزِل
  • مخدوش‌کنندگی و تعدیل اثر در بین لایه‌ها
  • مدل‌های لگ‌خطی و لجستیک برای جداول

Mechanisms

مشاهدات طبقه‌ای به صورت متقاطع در جدولی طبقه‌بندی می‌شوند که خانه‌های آن حاوی فراوانی‌ها هستند. آزمون ارتباط، فراوانی‌های مشاهده‌شده در خانه‌ها را با فراوانی‌های مورد انتظار در صورت مستقل بودن متغیرهای سطر و ستون مقایسه می‌کند: آماره کای‌دو پیرسون، که به صورت مجانبی با توضیح فیشر در مورد درجات آزادی آن توجیه می‌شود، مجموع تفاوت‌های استاندارد شده مربع را محاسبه می‌کند، در حالی که آزمون‌های دقیق، توزیع شرطی جداول را زمانی که فراوانی‌ها برای تقریب بسیار کوچک هستند، شمارش می‌کنند. سپس قدرت ارتباط با یک معیار اثر مشتق شده از جدول — نسبت خطر یا نسبت شانس — خلاصه می‌شود. هنگامی که یک متغیر سوم تهدید به مخدوش کردن ارتباط می‌کند، داده‌ها به لایه‌هایی (strata) تقسیم می‌شوند که توسط آن متغیر تعریف شده‌اند و یک برآورد تجمیع‌شده در بین لایه‌ها تشکیل می‌شود؛ روش منتل-هنزِل چنین آزمون طبقه‌بندی‌شده و برآورد خلاصه‌ای را ارائه می‌دهد. این اجزا به مدل‌های رگرسیون لگ‌خطی و لجستیک تعمیم می‌یابند که چندین پیش‌بینی‌کننده طبقه‌ای را به طور همزمان مدیریت می‌کنند.

Clinical relevance

بیشتر شواهد تشخیصی، پیش‌آگهی و عوامل خطر در علوم سلامت به صورت ارتباط بین متغیرهای طبقه‌ای گزارش می‌شوند — مثلاً در معرض قرار گرفته در مقابل در معرض قرار نگرفته، رویداد در مقابل عدم رویداد — بنابراین روش‌های این حوزه زیربنای چگونگی تولید و ارزیابی این شواهد هستند. آن‌ها چگونگی اندازه‌گیری و آزمون ارتباطات را توصیف می‌کنند؛ آن‌ها ابزارهایی برای تفسیر تحقیقات هستند و مبنایی برای تصمیم‌گیری‌های تشخیصی یا درمانی فردی نیستند.

Epidemiology

روش‌های جدول توافقی، ابزار روزمره اپیدمیولوژی هستند: مطالعات کوهورت، مورد-شاهدی و مقطعی، در ساده‌ترین حالت خود، به یک جدول دو در دو از مواجهه در برابر پیامد تقلیل می‌یابند، و تحلیل طبقه‌بندی‌شده (منتل-هنزِل) رویکرد کلاسیک غیرمدل برای مخدوش‌کنندگی قبل از رگرسیون است. همین روش‌ها در کارآزمایی‌های بالینی که نقاط پایانی دودویی را گزارش می‌کنند و در ارزیابی آزمون‌های تشخیصی تکرار می‌شوند.

History

این حوزه با آماره کای‌دو کارل پیرسون در آغاز قرن بیستم و تصحیح فیشر در سال ۱۹۲۲ برای درجات آزادی آن در جداول توافقی آغاز شد، و سپس آزمون دقیق فیشر برای نمونه‌های کوچک ارائه شد. اپیدمیولوژی میانه قرن چارچوب معیار اثر را فراهم کرد — استدلال نسبت شانس کورنفیلد و برآوردگر طبقه‌بندی‌شده منتل-هنزِل در سال ۱۹۵۹ — و اواخر قرن بیستم این روش‌ها را در چارچوب مدل خطی تعمیم‌یافته یکپارچه کرد که در کتاب درسی آگرستی سنتز شده است.

Key figures

  • Karl Pearson
  • Ronald A. Fisher
  • Jerome Cornfield
  • Nathan Mantel
  • William Haenszel
  • Alan Agresti
  • Joseph Fleiss

Related topics

Seminal works

  • fisher-1922
  • mantel-haenszel-1959
  • agresti-2013

Frequently asked questions

چه چیزی داده‌ها را «طبقه‌ای» می‌کند؟
داده‌ها زمانی طبقه‌ای هستند که هر مشاهده در یکی از مجموعه‌ای از دسته‌های گسسته قرار می‌گیرد — مانند بیمار/سالم یا گروه درمانی A/B/C — به جای اینکه یک مقدار عددی اندازه‌گیری شده را بگیرد؛ تحلیل با فراوانی‌ها در هر طبقه کار می‌کند.
این حوزه چه تفاوتی با رگرسیون برای پیامدهای پیوسته دارد؟
پیامد در اینجا یک طبقه یا یک فراوانی است، نه یک اندازه‌گیری پیوسته، بنابراین روش‌ها بر جداول توافقی، نسبت‌های خطرات و شانس‌ها، و مدل‌هایی مانند رگرسیون لجستیک و لگ‌خطی متمرکز هستند، نه بر میانگین‌ها و رگرسیون خطی معمولی.

Methods for this concept

Related concepts