Существует ли один инструмент критической оценки, который является лучшим для каждого исследования?

Нет. Поскольку различные дизайны подвержены различным систематическим ошибкам, большинство оценок проводится с помощью инструментов, специфичных для дизайна, и систематический обзор не выявил единого инструмента-золотого стандарта, который подходил бы для всех типов исследований.

Почему многие области отошли от баллов качества?

Сводные баллы качества объединяют пункты с произвольными весами и могут вводить в заблуждение при ранжировании исследований. Инструменты на основе доменов, такие как RoB 2 и QUADAS-2, вместо этого дают прозрачное суждение для каждого вида систематической ошибки, что является более обоснованным и воспроизводимым.

Инструменты и контрольные списки для критической оценки

Инструменты критической оценки — это структурированные средства (контрольные списки, шкалы и системы сигнальных вопросов), которые помогают рецензенту систематически и воспроизводимо оценивать валидность, результаты и применимость исследования. Превращая экспертное суждение в определенный набор вопросов, они делают оценку более прозрачной, более согласованной между рецензентами и облегчают отчетность.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Инструмент критической оценки — это заранее определенный набор пунктов или доменов, часто сформулированных в виде вопросов, которые рецензент применяет к отдельному исследованию для вынесения явного, основанного на критериях суждения о риске систематической ошибки, интерпретируемости его результатов и применимости.

Scope

Эта тема охватывает семейства инструментов оценки и их обоснование: общие контрольные списки (такие как серия CASP и Руководства для пользователей), инструменты оценки риска систематической ошибки, специфичные для дизайна исследования (такие как RoB 2 для рандомизированных исследований и QUADAS-2 для исследований диагностической точности), а также различие между простыми контрольными списками, сводными шкалами качества и инструментами оценки на основе доменов. Это справочно-образовательный материал, который не одобряет какой-либо конкретный инструмент для принятия клинических решений.

Core questions

Какие существуют инструменты оценки и чем отличаются контрольные списки, шкалы и инструменты на основе доменов?
Почему большинство инструментов оценки специфичны для дизайна исследования, а не универсальны?
В чем разница между сводным баллом качества и оценкой риска систематической ошибки на основе доменов?
Насколько выбор инструмента влияет на оценку одного и того же исследования?

Key concepts

Общий контрольный список оценки (CASP, Руководства для пользователей)
Инструмент оценки риска систематической ошибки, специфичный для дизайна (RoB 2, QUADAS-2)
Сигнальные вопросы
Оценка на основе доменов в сравнении со сводным баллом качества
Надежность оценки между оценщиками
Воспроизводимость оценочных суждений

Mechanisms

Инструменты оценки преобразуют общую логику валидности-результатов-применимости доказательной медицины в конкретные пункты, привязанные к определенному дизайну исследования. Общие контрольные списки, такие как CASP и JAMA Users' Guides, помогают читателю ответить на одни и те же три вопроса для любой статьи (Guyatt 1993; Greenhalgh 1997). Современные инструменты, основанные на доменах, идут дальше, группируя пункты по доменам систематической ошибки — например, RoB 2 оценивает рандомизированные исследования по таким доменам, как процесс рандомизации, отклонения от запланированных вмешательств, пропущенные данные исходов, измерение исхода и выбор сообщаемого результата, вынося суждение по каждому домену и общее суждение с помощью сигнальных вопросов (Sterne 2019). QUADAS-2 применяет ту же архитектуру доменов и сигнальных вопросов к исследованиям диагностической точности (Whiting 2011). Переход от числовых сводных шкал к оценке на основе доменов отражает данные о том, что произвольное взвешивание пунктов контрольного списка может ввести в заблуждение, и что прозрачное рассуждение по каждому домену более обоснованно.

Clinical relevance

Эти инструменты используются клиницистами, студентами и авторами систематических обзоров для обеспечения явной и проверяемой оценки отдельных исследований. Они описывают, как оценивается достоверность исследования; они характеризуют доказательства и сами по себе не являются основой для диагностики или лечения какого-либо отдельного пациента.

Evidence & guidelines

Систематический обзор более ста инструментов оценки выявил существенную гетерогенность содержания и отсутствие единого валидированного золотого стандарта для любого дизайна исследования, что подчеркивает, что выбор инструмента сам по себе является методологическим решением (Katrak 2004). Современная практика отдает предпочтение инструментам, специфичным для дизайна и основанным на доменах — RoB 2 для рандомизированных исследований и QUADAS-2 для исследований диагностической точности широко одобрены в Кокрейновских и других руководствах по систематическим обзорам (Sterne 2019; Whiting 2011) — и не поощряет преобразование этих суждений в единый сводный балл качества.

History

Ранние вспомогательные средства оценки представляли собой нарративные руководства по чтению; Руководства для пользователей Макмастера 1990-х годов и последовавшие за ними контрольные списки CASP предоставили клиницистам явные, специфичные для типа исследования наборы вопросов (Guyatt 1993; Greenhalgh 1997). По мере развития систематических обзоров область перешла от простых контрольных списков и числовых шкал качества к инструментам оценки риска систематической ошибки на основе доменов, примером которых являются QUADAS-2 для диагностических исследований (Whiting 2011) и пересмотренный RoB 2 для рандомизированных исследований (Sterne 2019), что отражает накапливающиеся данные о том, что сводные баллы могут быть ненадежными.

Debates

Баллы качества против оценки на основе доменов: Сведение многих пунктов оценки в единый числовой балл качества зависит от произвольного взвешивания и может приводить к вводящим в заблуждение ранжированиям; текущий методологический консенсус отдает предпочтение прозрачным, по-доменным оценкам риска систематической ошибки перед сводными шкалами.
Отсутствие универсального инструмента-золотого стандарта: Распространение инструментов с расходящимся содержанием и отсутствие валидированного эталонного инструмента для любого дизайна означает, что одно и то же исследование может быть оценено по-разному в зависимости от инструмента, что вызывает опасения по поводу воспроизводимости.

Key figures

Julian Higgins
Jonathan Sterne
Penny Whiting
Gordon Guyatt
Trisha Greenhalgh

Seminal works

katrak-2004
sterne-2019-rob2
whiting-2011-quadas2

Frequently asked questions

Существует ли один инструмент критической оценки, который является лучшим для каждого исследования?: Нет. Поскольку различные дизайны подвержены различным систематическим ошибкам, большинство оценок проводится с помощью инструментов, специфичных для дизайна, и систематический обзор не выявил единого инструмента-золотого стандарта, который подходил бы для всех типов исследований.
Почему многие области отошли от баллов качества?: Сводные баллы качества объединяют пункты с произвольными весами и могут вводить в заблуждение при ранжировании исследований. Инструменты на основе доменов, такие как RoB 2 и QUADAS-2, вместо этого дают прозрачное суждение для каждого вида систематической ошибки, что является более обоснованным и воспроизводимым.