ابزارهای ارزیابی انتقادی و چکلیستها
ابزارهای ارزیابی انتقادی، ابزارهای ساختاریافتهای هستند — چکلیستها، مقیاسها، و چارچوبهای سؤالات راهنما — که یک بازبین را در ارزیابی اعتبار، نتایج، و قابلیت کاربرد یک مطالعه به شیوهای صریح و تکرارپذیر هدایت میکنند. با تبدیل قضاوت تخصصی به مجموعهای مشخص از سؤالات، این ابزارها ارزیابی را شفافتر، سازگارتر بین بازبینها، و گزارشدهی آن را آسانتر میکنند.
Definition
ابزار ارزیابی انتقادی مجموعهای از موارد یا دامنههای از پیش تعریفشده است که اغلب به صورت سؤال بیان میشوند و یک بازبین آنها را برای یک مطالعه منفرد به کار میبرد تا قضاوتی صریح و مبتنی بر معیار در مورد خطر سوگیری، قابلیت تفسیر نتایج، و قابلیت کاربرد آن ارائه دهد.
Scope
این موضوع به خانوادههای ابزارهای ارزیابی و منطق پشت آنها میپردازد: چکلیستهای عمومی (مانند سری CASP و راهنماهای کاربران)، ابزارهای خطر سوگیری خاص طراحی (مانند RoB 2 برای کارآزماییهای تصادفیشده و QUADAS-2 برای مطالعات دقت تشخیصی)، و تفاوت بین چکلیستهای ساده، مقیاسهای کیفیت خلاصه، و ابزارهای قضاوت مبتنی بر دامنه. این یک منبع آموزشی-مرجع است و هیچ ابزار خاصی را برای تصمیمگیریهای بالینی تأیید نمیکند.
Core questions
- چه نوع ابزارهای ارزیابی وجود دارد و چکلیستها، مقیاسها و ابزارهای مبتنی بر دامنه چه تفاوتی با هم دارند؟
- چرا بیشتر ابزارهای ارزیابی خاص طراحی هستند و نه جهانی؟
- تفاوت بین نمره کیفیت خلاصه و قضاوت خطر سوگیری مبتنی بر دامنه چیست؟
- انتخاب ابزار چقدر بر ارزیابی یک مطالعه مشابه تأثیر میگذارد؟
Key concepts
- چکلیست ارزیابی عمومی (CASP، راهنماهای کاربران)
- ابزار خطر سوگیری خاص طراحی (RoB 2، QUADAS-2)
- سؤالات راهنما
- قضاوت مبتنی بر دامنه در مقابل نمره کیفیت خلاصه
- قابلیت اطمینان بین ارزیابها در ارزیابی
- تکرارپذیری قضاوتهای ارزیابی
Mechanisms
ابزارهای ارزیابی، منطق کلی اعتبار-نتایج-قابلیت کاربرد پزشکی مبتنی بر شواهد را به موارد ملموس و متناسب با یک طراحی خاص عملیاتی میکنند. چکلیستهای عمومی مانند CASP و راهنماهای کاربران JAMA، خواننده را از طریق سه سؤال مشابه برای هر مقاله هدایت میکنند (Guyatt 1993؛ Greenhalgh 1997). ابزارهای مدرن مبتنی بر دامنه با گروهبندی موارد در دامنههای سوگیری پیش میروند — برای مثال RoB 2 کارآزماییهای تصادفیشده را در دامنههایی مانند فرآیند تصادفیسازی، انحرافات از مداخلات مورد نظر، دادههای پیامد از دست رفته، اندازهگیری پیامد، و انتخاب نتیجه گزارششده ارزیابی میکند و از طریق سؤالات راهنما به یک قضاوت در هر دامنه و قضاوت کلی میرسد (Sterne 2019). QUADAS-2 همین معماری دامنه و سؤالات راهنما را برای مطالعات دقت تشخیصی به کار میبرد (Whiting 2011). تغییر از مقیاسهای خلاصه عددی به قضاوت مبتنی بر دامنه، منعکسکننده شواهدی است که نشان میدهد وزندهی دلخواه به موارد چکلیست میتواند گمراهکننده باشد و استدلال شفاف در هر دامنه قابل دفاعتر است.
Clinical relevance
این ابزارها توسط پزشکان، دانشجویان، و بازبینهای سیستماتیک برای شفافسازی و قابل حسابرسی کردن ارزیابی مطالعات فردی استفاده میشوند. آنها نحوه ارزیابی قابلیت اطمینان پژوهش را توصیف میکنند؛ آنها شواهد را توصیف میکنند و خودشان مبنایی برای تشخیص یا درمان هیچ بیمار خاصی نیستند.
Evidence & guidelines
یک مرور سیستماتیک از بیش از صد ابزار ارزیابی، ناهمگونی قابل توجهی در محتوا و عدم وجود یک استاندارد طلایی معتبر برای هر طراحی مطالعه را نشان داد، که بر این نکته تأکید میکند که انتخاب ابزار خود یک تصمیم روششناختی است (Katrak 2004). رویه معاصر از ابزارهای مبتنی بر دامنه و خاص طراحی حمایت میکند — RoB 2 برای کارآزماییهای تصادفیشده و QUADAS-2 برای مطالعات دقت تشخیصی به طور گسترده در کاکرین و سایر راهنماهای مرور سیستماتیک تأیید شدهاند (Sterne 2019؛ Whiting 2011) — و از تبدیل این قضاوتها به یک نمره کیفیت خلاصه واحد جلوگیری میکند.
History
ابزارهای اولیه ارزیابی، راهنماهای خواندن روایی بودند؛ راهنماهای کاربران مکمستر در دهه ۱۹۹۰ و چکلیستهای CASP که پس از آن آمدند، مجموعههای سؤالات صریح و خاص نوع مطالعه را به پزشکان ارائه دادند (Guyatt 1993؛ Greenhalgh 1997). با بلوغ مرور سیستماتیک، این حوزه از چکلیستهای ساده و مقیاسهای کیفیت عددی به سمت ابزارهای خطر سوگیری مبتنی بر دامنه حرکت کرد، که نمونه آن QUADAS-2 برای مطالعات تشخیصی (Whiting 2011) و RoB 2 بازبینیشده برای کارآزماییهای تصادفیشده (Sterne 2019) است، که منعکسکننده شواهد فزایندهای است که نمرات خلاصه میتوانند غیرقابل اعتماد باشند.
Debates
- نمرات کیفیت در مقابل قضاوت مبتنی بر دامنه
- ادغام بسیاری از موارد ارزیابی در یک نمره کیفیت عددی واحد به وزندهی دلخواه بستگی دارد و میتواند رتبهبندیهای گمراهکنندهای ایجاد کند؛ اجماع روششناختی فعلی از قضاوتهای شفاف و مبتنی بر دامنه در مورد خطر سوگیری نسبت به مقیاسهای خلاصه حمایت میکند.
- فقدان یک ابزار استاندارد طلایی جهانی
- تکثیر ابزارها با محتوای متفاوت و عدم وجود ابزار مرجع معتبر برای هر طراحی به این معنی است که یک مطالعه مشابه میتواند بسته به ابزار به طور متفاوتی ارزیابی شود، که نگرانیهایی را در مورد تکرارپذیری ایجاد میکند.
Key figures
- Julian Higgins
- Jonathan Sterne
- Penny Whiting
- Gordon Guyatt
- Trisha Greenhalgh
Related topics
Seminal works
- katrak-2004
- sterne-2019-rob2
- whiting-2011-quadas2
Frequently asked questions
- آیا یک ابزار ارزیابی انتقادی برای هر مطالعهای بهترین است؟
- خیر. از آنجا که طراحیهای مختلف مستعد سوگیریهای متفاوتی هستند، بیشتر ارزیابیها با ابزارهای خاص طراحی انجام میشود و یک مرور سیستماتیک هیچ ابزار استاندارد طلایی واحدی را که در همه انواع مطالعات کار کند، پیدا نکرد.
- چرا بسیاری از حوزهها از نمرات کیفیت فاصله گرفتهاند؟
- نمرات کیفیت خلاصه، موارد را با وزنهای دلخواه ترکیب میکنند و میتوانند مطالعات را به طور گمراهکنندهای رتبهبندی کنند. ابزارهای مبتنی بر دامنه مانند RoB 2 و QUADAS-2 به جای آن، قضاوتی شفاف برای هر نوع سوگیری ارائه میدهند که قابل دفاعتر و تکرارپذیرتر است.