آیا یک ابزار ارزیابی انتقادی برای هر مطالعهای بهترین است؟

خیر. از آنجا که طراحیهای مختلف مستعد سوگیریهای متفاوتی هستند، بیشتر ارزیابیها با ابزارهای خاص طراحی انجام میشود و یک مرور سیستماتیک هیچ ابزار استاندارد طلایی واحدی را که در همه انواع مطالعات کار کند، پیدا نکرد.

چرا بسیاری از حوزهها از نمرات کیفیت فاصله گرفتهاند؟

نمرات کیفیت خلاصه، موارد را با وزنهای دلخواه ترکیب میکنند و میتوانند مطالعات را به طور گمراهکنندهای رتبهبندی کنند. ابزارهای مبتنی بر دامنه مانند RoB 2 و QUADAS-2 به جای آن، قضاوتی شفاف برای هر نوع سوگیری ارائه میدهند که قابل دفاعتر و تکرارپذیرتر است.

ابزارهای ارزیابی انتقادی و چک‌لیست‌ها

ابزارهای ارزیابی انتقادی، ابزارهای ساختاریافته‌ای هستند — چک‌لیست‌ها، مقیاس‌ها، و چارچوب‌های سؤالات راهنما — که یک بازبین را در ارزیابی اعتبار، نتایج، و قابلیت کاربرد یک مطالعه به شیوه‌ای صریح و تکرارپذیر هدایت می‌کنند. با تبدیل قضاوت تخصصی به مجموعه‌ای مشخص از سؤالات، این ابزارها ارزیابی را شفاف‌تر، سازگارتر بین بازبین‌ها، و گزارش‌دهی آن را آسان‌تر می‌کنند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

ابزار ارزیابی انتقادی مجموعه‌ای از موارد یا دامنه‌های از پیش تعریف‌شده است که اغلب به صورت سؤال بیان می‌شوند و یک بازبین آن‌ها را برای یک مطالعه منفرد به کار می‌برد تا قضاوتی صریح و مبتنی بر معیار در مورد خطر سوگیری، قابلیت تفسیر نتایج، و قابلیت کاربرد آن ارائه دهد.

Scope

این موضوع به خانواده‌های ابزارهای ارزیابی و منطق پشت آن‌ها می‌پردازد: چک‌لیست‌های عمومی (مانند سری CASP و راهنماهای کاربران)، ابزارهای خطر سوگیری خاص طراحی (مانند RoB 2 برای کارآزمایی‌های تصادفی‌شده و QUADAS-2 برای مطالعات دقت تشخیصی)، و تفاوت بین چک‌لیست‌های ساده، مقیاس‌های کیفیت خلاصه، و ابزارهای قضاوت مبتنی بر دامنه. این یک منبع آموزشی-مرجع است و هیچ ابزار خاصی را برای تصمیم‌گیری‌های بالینی تأیید نمی‌کند.

Core questions

چه نوع ابزارهای ارزیابی وجود دارد و چک‌لیست‌ها، مقیاس‌ها و ابزارهای مبتنی بر دامنه چه تفاوتی با هم دارند؟
چرا بیشتر ابزارهای ارزیابی خاص طراحی هستند و نه جهانی؟
تفاوت بین نمره کیفیت خلاصه و قضاوت خطر سوگیری مبتنی بر دامنه چیست؟
انتخاب ابزار چقدر بر ارزیابی یک مطالعه مشابه تأثیر می‌گذارد؟

Key concepts

چک‌لیست ارزیابی عمومی (CASP، راهنماهای کاربران)
ابزار خطر سوگیری خاص طراحی (RoB 2، QUADAS-2)
سؤالات راهنما
قضاوت مبتنی بر دامنه در مقابل نمره کیفیت خلاصه
قابلیت اطمینان بین ارزیاب‌ها در ارزیابی
تکرارپذیری قضاوت‌های ارزیابی

Mechanisms

ابزارهای ارزیابی، منطق کلی اعتبار-نتایج-قابلیت کاربرد پزشکی مبتنی بر شواهد را به موارد ملموس و متناسب با یک طراحی خاص عملیاتی می‌کنند. چک‌لیست‌های عمومی مانند CASP و راهنماهای کاربران JAMA، خواننده را از طریق سه سؤال مشابه برای هر مقاله هدایت می‌کنند (Guyatt 1993؛ Greenhalgh 1997). ابزارهای مدرن مبتنی بر دامنه با گروه‌بندی موارد در دامنه‌های سوگیری پیش می‌روند — برای مثال RoB 2 کارآزمایی‌های تصادفی‌شده را در دامنه‌هایی مانند فرآیند تصادفی‌سازی، انحرافات از مداخلات مورد نظر، داده‌های پیامد از دست رفته، اندازه‌گیری پیامد، و انتخاب نتیجه گزارش‌شده ارزیابی می‌کند و از طریق سؤالات راهنما به یک قضاوت در هر دامنه و قضاوت کلی می‌رسد (Sterne 2019). QUADAS-2 همین معماری دامنه و سؤالات راهنما را برای مطالعات دقت تشخیصی به کار می‌برد (Whiting 2011). تغییر از مقیاس‌های خلاصه عددی به قضاوت مبتنی بر دامنه، منعکس‌کننده شواهدی است که نشان می‌دهد وزن‌دهی دلخواه به موارد چک‌لیست می‌تواند گمراه‌کننده باشد و استدلال شفاف در هر دامنه قابل دفاع‌تر است.

Clinical relevance

این ابزارها توسط پزشکان، دانشجویان، و بازبین‌های سیستماتیک برای شفاف‌سازی و قابل حسابرسی کردن ارزیابی مطالعات فردی استفاده می‌شوند. آن‌ها نحوه ارزیابی قابلیت اطمینان پژوهش را توصیف می‌کنند؛ آن‌ها شواهد را توصیف می‌کنند و خودشان مبنایی برای تشخیص یا درمان هیچ بیمار خاصی نیستند.

Evidence & guidelines

یک مرور سیستماتیک از بیش از صد ابزار ارزیابی، ناهمگونی قابل توجهی در محتوا و عدم وجود یک استاندارد طلایی معتبر برای هر طراحی مطالعه را نشان داد، که بر این نکته تأکید می‌کند که انتخاب ابزار خود یک تصمیم روش‌شناختی است (Katrak 2004). رویه معاصر از ابزارهای مبتنی بر دامنه و خاص طراحی حمایت می‌کند — RoB 2 برای کارآزمایی‌های تصادفی‌شده و QUADAS-2 برای مطالعات دقت تشخیصی به طور گسترده در کاکرین و سایر راهنماهای مرور سیستماتیک تأیید شده‌اند (Sterne 2019؛ Whiting 2011) — و از تبدیل این قضاوت‌ها به یک نمره کیفیت خلاصه واحد جلوگیری می‌کند.

History

ابزارهای اولیه ارزیابی، راهنماهای خواندن روایی بودند؛ راهنماهای کاربران مک‌مستر در دهه ۱۹۹۰ و چک‌لیست‌های CASP که پس از آن آمدند، مجموعه‌های سؤالات صریح و خاص نوع مطالعه را به پزشکان ارائه دادند (Guyatt 1993؛ Greenhalgh 1997). با بلوغ مرور سیستماتیک، این حوزه از چک‌لیست‌های ساده و مقیاس‌های کیفیت عددی به سمت ابزارهای خطر سوگیری مبتنی بر دامنه حرکت کرد، که نمونه آن QUADAS-2 برای مطالعات تشخیصی (Whiting 2011) و RoB 2 بازبینی‌شده برای کارآزمایی‌های تصادفی‌شده (Sterne 2019) است، که منعکس‌کننده شواهد فزاینده‌ای است که نمرات خلاصه می‌توانند غیرقابل اعتماد باشند.

Debates

نمرات کیفیت در مقابل قضاوت مبتنی بر دامنه: ادغام بسیاری از موارد ارزیابی در یک نمره کیفیت عددی واحد به وزن‌دهی دلخواه بستگی دارد و می‌تواند رتبه‌بندی‌های گمراه‌کننده‌ای ایجاد کند؛ اجماع روش‌شناختی فعلی از قضاوت‌های شفاف و مبتنی بر دامنه در مورد خطر سوگیری نسبت به مقیاس‌های خلاصه حمایت می‌کند.
فقدان یک ابزار استاندارد طلایی جهانی: تکثیر ابزارها با محتوای متفاوت و عدم وجود ابزار مرجع معتبر برای هر طراحی به این معنی است که یک مطالعه مشابه می‌تواند بسته به ابزار به طور متفاوتی ارزیابی شود، که نگرانی‌هایی را در مورد تکرارپذیری ایجاد می‌کند.

Key figures

Julian Higgins
Jonathan Sterne
Penny Whiting
Gordon Guyatt
Trisha Greenhalgh

Seminal works

katrak-2004
sterne-2019-rob2
whiting-2011-quadas2

Frequently asked questions

آیا یک ابزار ارزیابی انتقادی برای هر مطالعه‌ای بهترین است؟: خیر. از آنجا که طراحی‌های مختلف مستعد سوگیری‌های متفاوتی هستند، بیشتر ارزیابی‌ها با ابزارهای خاص طراحی انجام می‌شود و یک مرور سیستماتیک هیچ ابزار استاندارد طلایی واحدی را که در همه انواع مطالعات کار کند، پیدا نکرد.
چرا بسیاری از حوزه‌ها از نمرات کیفیت فاصله گرفته‌اند؟: نمرات کیفیت خلاصه، موارد را با وزن‌های دلخواه ترکیب می‌کنند و می‌توانند مطالعات را به طور گمراه‌کننده‌ای رتبه‌بندی کنند. ابزارهای مبتنی بر دامنه مانند RoB 2 و QUADAS-2 به جای آن، قضاوتی شفاف برای هر نوع سوگیری ارائه می‌دهند که قابل دفاع‌تر و تکرارپذیرتر است.