すべての研究に最適な批判的吟味ツールは1つだけですか？

いいえ。異なるデザインは異なるバイアスに陥りやすいため、ほとんどの吟味はデザイン固有のツールで行われます。システマティックレビューでは、すべての研究タイプに適用できる単一のゴールドスタンダードツールは見つかっていません。

なぜ多くの分野で品質スコアから離れる傾向があるのですか？

要約品質スコアは、恣意的な重み付けで項目を組み合わせるため、研究を誤解を招く形でランク付けする可能性があります。RoB 2やQUADAS-2のようなドメインベースのツールは、代わりに各種類のバイアスについて透明性のある判断を提供し、これはより擁護可能で再現性があります。

批判的吟味ツールとチェックリスト

批判的吟味ツールは、チェックリスト、尺度、シグナリング質問フレームワークといった構造化された手段であり、研究の妥当性、結果、適用可能性について、明確かつ再現可能な方法で評価者を導きます。専門家の判断を明確な一連の質問に変換することで、吟味の透明性を高め、評価者間の整合性を向上させ、報告を容易にします。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

批判的吟味ツールとは、評価者が個々の研究に適用し、そのバイアスリスク、結果の解釈可能性、および適用可能性について、明確で基準に基づいた判断を下すために事前に定義された項目またはドメインのセットであり、多くの場合、質問形式で表現されます。

Scope

このトピックでは、吟味ツールの種類とその根拠について説明します。これには、一般的なチェックリスト（CASPシリーズやUsers' Guidesなど）、デザイン固有のバイアスリスクツール（ランダム化比較試験用のRoB 2や診断精度研究用のQUADAS-2など）、および単純なチェックリスト、要約品質尺度、ドメインベースの判断ツールの違いが含まれます。これは参照・教育目的であり、臨床上の意思決定のために特定のツールを推奨するものではありません。

Core questions

どのような種類の吟味ツールが存在し、チェックリスト、尺度、ドメインベースのツールはどのように異なるのか？
なぜほとんどの吟味ツールは普遍的ではなく、デザイン固有なのか？
要約品質スコアとドメインベースのバイアスリスク判断の違いは何か？
ツールの選択は、同じ研究の吟味にどの程度影響するか？

Key concepts

一般的な吟味チェックリスト（CASP、Users' Guides）
デザイン固有のバイアスリスクツール（RoB 2、QUADAS-2）
シグナリング質問
ドメインベースの判断と要約品質スコア
吟味の評価者間信頼性
吟味判断の再現性

Mechanisms

吟味ツールは、エビデンスに基づいた医療における一般的な妥当性-結果-適用可能性の論理を、特定のデザインに合わせた具体的な項目として具体化します。CASPやJAMA Users' Guidesのような一般的なチェックリストは、あらゆる論文に対して同じ3つの質問（Guyatt 1993; Greenhalgh 1997）を通して読者を導きます。現代のドメインベースのツールは、項目をバイアスドメインにグループ化することでさらに進んでいます。例えば、RoB 2は、ランダム化プロセス、意図した介入からの逸脱、欠測アウトカムデータ、アウトカムの測定、報告された結果の選択などのドメインにわたってランダム化比較試験を評価し、シグナリング質問を通してドメインごとの全体的な判断に到達します（Sterne 2019）。QUADAS-2は、診断精度研究に同じドメインとシグナリング質問のアーキテクチャを適用しています（Whiting 2011）。数値的な要約尺度からドメインベースの判断への移行は、チェックリスト項目の恣意的な重み付けが誤解を招く可能性があり、透明性のあるドメインごとの推論の方がより擁護可能であるというエビデンスを反映しています。

Clinical relevance

これらのツールは、臨床医、学生、システマティックレビューアによって、個々の研究の吟味を明確かつ監査可能なものにするために使用されます。これらは研究の信頼性がどのように評価されるかを記述するものであり、エビデンスを特徴づけるものであって、それ自体が個々の患者の診断や治療の根拠となるものではありません。

Evidence & guidelines

100以上の吟味ツールを対象としたシステマティックレビューでは、内容にかなりの異質性があり、いかなる研究デザインに対しても単一の検証されたゴールドスタンダードが存在しないことが判明し、ツールの選択自体が方法論的な決定であることを強調しています（Katrak 2004）。現代の実践では、デザイン固有のドメインベースのツールが好まれます。ランダム化比較試験にはRoB 2、診断精度研究にはQUADAS-2が、Cochraneやその他のシステマティックレビューのガイダンスで広く推奨されており（Sterne 2019; Whiting 2011）、これらの判断を単一の要約品質スコアに変換することは推奨されていません。

History

初期の吟味補助は物語的な読解ガイドでした。1990年代のMcMaster Users' Guidesとそれに続くCASPチェックリストは、臨床医に明確で研究タイプに特化した質問セットを提供しました（Guyatt 1993; Greenhalgh 1997）。システマティックレビューが成熟するにつれて、この分野は単純なチェックリストや数値的な品質尺度から、ドメインベースのバイアスリスクツールへと移行しました。診断研究のQUADAS-2（Whiting 2011）やランダム化比較試験の改訂版RoB 2（Sterne 2019）がその例であり、要約スコアが信頼できない可能性があるという蓄積されたエビデンスを反映しています。

Debates

品質スコアとドメインベースの判断: 多くの吟味項目を単一の数値的な品質スコアに集約することは、恣意的な重み付けに依存し、誤解を招くランキングを生み出す可能性があります。現在の方法論的コンセンサスは、要約尺度よりも透明性のあるドメインごとのバイアスリスク判断を支持しています。
普遍的なゴールドスタンダードツールの欠如: 内容が異なる多数のツールが存在し、いかなるデザインに対しても検証された参照ツールがないため、同じ研究でもツールによって吟味が異なる可能性があり、再現性に関する懸念が生じています。

Key figures

Julian Higgins
Jonathan Sterne
Penny Whiting
Gordon Guyatt
Trisha Greenhalgh

Seminal works

katrak-2004
sterne-2019-rob2
whiting-2011-quadas2

Frequently asked questions

すべての研究に最適な批判的吟味ツールは1つだけですか？: いいえ。異なるデザインは異なるバイアスに陥りやすいため、ほとんどの吟味はデザイン固有のツールで行われます。システマティックレビューでは、すべての研究タイプに適用できる単一のゴールドスタンダードツールは見つかっていません。
なぜ多くの分野で品質スコアから離れる傾向があるのですか？: 要約品質スコアは、恣意的な重み付けで項目を組み合わせるため、研究を誤解を招く形でランク付けする可能性があります。RoB 2やQUADAS-2のようなドメインベースのツールは、代わりに各種類のバイアスについて透明性のある判断を提供し、これはより擁護可能で再現性があります。