Инструменты и контрольные списки для критической оценки
Инструменты критической оценки — это структурированные средства (контрольные списки, шкалы и системы сигнальных вопросов), которые помогают рецензенту систематически и воспроизводимо оценивать валидность, результаты и применимость исследования. Превращая экспертное суждение в определенный набор вопросов, они делают оценку более прозрачной, более согласованной между рецензентами и облегчают отчетность.
Definition
Инструмент критической оценки — это заранее определенный набор пунктов или доменов, часто сформулированных в виде вопросов, которые рецензент применяет к отдельному исследованию для вынесения явного, основанного на критериях суждения о риске систематической ошибки, интерпретируемости его результатов и применимости.
Scope
Эта тема охватывает семейства инструментов оценки и их обоснование: общие контрольные списки (такие как серия CASP и Руководства для пользователей), инструменты оценки риска систематической ошибки, специфичные для дизайна исследования (такие как RoB 2 для рандомизированных исследований и QUADAS-2 для исследований диагностической точности), а также различие между простыми контрольными списками, сводными шкалами качества и инструментами оценки на основе доменов. Это справочно-образовательный материал, который не одобряет какой-либо конкретный инструмент для принятия клинических решений.
Core questions
- Какие существуют инструменты оценки и чем отличаются контрольные списки, шкалы и инструменты на основе доменов?
- Почему большинство инструментов оценки специфичны для дизайна исследования, а не универсальны?
- В чем разница между сводным баллом качества и оценкой риска систематической ошибки на основе доменов?
- Насколько выбор инструмента влияет на оценку одного и того же исследования?
Key concepts
- Общий контрольный список оценки (CASP, Руководства для пользователей)
- Инструмент оценки риска систематической ошибки, специфичный для дизайна (RoB 2, QUADAS-2)
- Сигнальные вопросы
- Оценка на основе доменов в сравнении со сводным баллом качества
- Надежность оценки между оценщиками
- Воспроизводимость оценочных суждений
Mechanisms
Инструменты оценки преобразуют общую логику валидности-результатов-применимости доказательной медицины в конкретные пункты, привязанные к определенному дизайну исследования. Общие контрольные списки, такие как CASP и JAMA Users' Guides, помогают читателю ответить на одни и те же три вопроса для любой статьи (Guyatt 1993; Greenhalgh 1997). Современные инструменты, основанные на доменах, идут дальше, группируя пункты по доменам систематической ошибки — например, RoB 2 оценивает рандомизированные исследования по таким доменам, как процесс рандомизации, отклонения от запланированных вмешательств, пропущенные данные исходов, измерение исхода и выбор сообщаемого результата, вынося суждение по каждому домену и общее суждение с помощью сигнальных вопросов (Sterne 2019). QUADAS-2 применяет ту же архитектуру доменов и сигнальных вопросов к исследованиям диагностической точности (Whiting 2011). Переход от числовых сводных шкал к оценке на основе доменов отражает данные о том, что произвольное взвешивание пунктов контрольного списка может ввести в заблуждение, и что прозрачное рассуждение по каждому домену более обоснованно.
Clinical relevance
Эти инструменты используются клиницистами, студентами и авторами систематических обзоров для обеспечения явной и проверяемой оценки отдельных исследований. Они описывают, как оценивается достоверность исследования; они характеризуют доказательства и сами по себе не являются основой для диагностики или лечения какого-либо отдельного пациента.
Evidence & guidelines
Систематический обзор более ста инструментов оценки выявил существенную гетерогенность содержания и отсутствие единого валидированного золотого стандарта для любого дизайна исследования, что подчеркивает, что выбор инструмента сам по себе является методологическим решением (Katrak 2004). Современная практика отдает предпочтение инструментам, специфичным для дизайна и основанным на доменах — RoB 2 для рандомизированных исследований и QUADAS-2 для исследований диагностической точности широко одобрены в Кокрейновских и других руководствах по систематическим обзорам (Sterne 2019; Whiting 2011) — и не поощряет преобразование этих суждений в единый сводный балл качества.
History
Ранние вспомогательные средства оценки представляли собой нарративные руководства по чтению; Руководства для пользователей Макмастера 1990-х годов и последовавшие за ними контрольные списки CASP предоставили клиницистам явные, специфичные для типа исследования наборы вопросов (Guyatt 1993; Greenhalgh 1997). По мере развития систематических обзоров область перешла от простых контрольных списков и числовых шкал качества к инструментам оценки риска систематической ошибки на основе доменов, примером которых являются QUADAS-2 для диагностических исследований (Whiting 2011) и пересмотренный RoB 2 для рандомизированных исследований (Sterne 2019), что отражает накапливающиеся данные о том, что сводные баллы могут быть ненадежными.
Debates
- Баллы качества против оценки на основе доменов
- Сведение многих пунктов оценки в единый числовой балл качества зависит от произвольного взвешивания и может приводить к вводящим в заблуждение ранжированиям; текущий методологический консенсус отдает предпочтение прозрачным, по-доменным оценкам риска систематической ошибки перед сводными шкалами.
- Отсутствие универсального инструмента-золотого стандарта
- Распространение инструментов с расходящимся содержанием и отсутствие валидированного эталонного инструмента для любого дизайна означает, что одно и то же исследование может быть оценено по-разному в зависимости от инструмента, что вызывает опасения по поводу воспроизводимости.
Key figures
- Julian Higgins
- Jonathan Sterne
- Penny Whiting
- Gordon Guyatt
- Trisha Greenhalgh
Related topics
Seminal works
- katrak-2004
- sterne-2019-rob2
- whiting-2011-quadas2
Frequently asked questions
- Существует ли один инструмент критической оценки, который является лучшим для каждого исследования?
- Нет. Поскольку различные дизайны подвержены различным систематическим ошибкам, большинство оценок проводится с помощью инструментов, специфичных для дизайна, и систематический обзор не выявил единого инструмента-золотого стандарта, который подходил бы для всех типов исследований.
- Почему многие области отошли от баллов качества?
- Сводные баллы качества объединяют пункты с произвольными весами и могут вводить в заблуждение при ранжировании исследований. Инструменты на основе доменов, такие как RoB 2 и QUADAS-2, вместо этого дают прозрачное суждение для каждого вида систематической ошибки, что является более обоснованным и воспроизводимым.