More Related Content Similar to 患者報告式尺度の開発方法 (20) More from Senshu University (8) 患者報告式尺度の開発方法27. 信頼性
• 2回以上の独立した測定を実施し、その時間間隔や実
施法が適切なデザイン(変化しないことを担保)を採用
Excellent Good Fair Poor
4 少なくとも2回は測定しているか? 少なくとも2回
測定
1回だけ
5 測定の実施は独立していたか? 独立した測定 独立した測
定と仮定可
独立した測
定か疑わし
い
独立してい
ない測定
6 時間間隔について記載しているか? 記載あり 記載なし
7 反復測定の間、患者の測定される概念
の状態は変わらなかったか?
変わらなかっ
た(根拠あり)
変わらな
かったと仮定
可
変わらな
かったか不
明
変わった
8 時間間隔は適切か? 適切 適切かどう
か疑わしい
適切ではな
い
9 検査状況は測定間で同じか(実施の種類、
環境、教示は同じか)?
同じ(根拠あ
り)
同じと仮定
可
同じかどうか
不明
同じではな
い
35. 構造的妥当性の評価事項
1. 尺度はReflective Modelか?
4 分析に用いたサンプルサイズは十分か?
6 <古典的テスト理論> 探索的因子分析もしくは確証的
因子分析を実施ているか?
7 <項目反応理論> 項目の次元性を確認しているか?
→項目反応理論では1次元性の仮定があるので、確認
Excellent Good Fair Poor
項目数×7かつ
100名以上
(項目数×5かつ100名以
上) OR (項目数×6~7だが
100名より少ない)
項目数×5以上
だが100名より少
ない
項目数×5よ
り少ない
37. 確証的因子分析と適合度
• 確証的因子分析は、構造方程式モデリングを用いたモデルに基
づいた解析になるので、モデルのデータへの適合度を検討する
• 適合度指標: ①絶対的指標(absolute indices):データとモデルの
共分散行列の類似度、②増分的指標(incremental indices): 独
立モデルと比較して,分析モデルによってデータの適合が改善
した度合い、③倹約的指標(parsimonious indices):モデルの複
雑さを考慮した,モデルのデータに対する近似度
指標 内容 基準
①SRMR モデルで説明できなかった分散の大きさ .08以下
②CFI 自由度を考慮した乖離度の改善の大きさ .95以上
③RMSEA 1自由度あたりの乖離度の大きさ .05以下
Ralph, O et al (2008): The Reviewer‘s Guide to Quantitative Methods in the Social Sciences
竹林由武先生(統計数理研究所)のスライドを一部改変
40. 仮説検証の評価項目
• サンプルサイズと仮説を事前に設定する
Excellent Good Fair Poor
3 分析に用いたサンプルサイズ
は十分か?
十分(分析
ごとに100
名以上)
良い(分析
ごとに50-
99名)
ほどほど(分析ご
とに30-49名)
少ない(分
析ごとに
<30名)
• 仮説検証での仮説は、相関や平均値の値の方向性
と大きさを明確にした上で研究実施前に事前に設定
する。
• 仮説検証で用いる他の尺度(比較尺度)の特性につ
いても検討を行い、記載する。
41. 仮説検証の手続き
① 概念の記述
② 仮説の定式化(期待値の大きさと方向性)
③ 比較尺度 or 対照群を記述
④ データ収集
⑤ 結果と仮説の整合性を評価
⑥ 結果の説明
• 以下のような表を作って、事前に設定した仮説の期待値を記
載した上で、実際に得られた値と仮説の採否を記載する。仮
説のうち何%が採択されたかもまとめる。
仮説 期待値 本研究の推定値 仮説の採否
抑うつ(PHQ-9)と関連する 0.21 ~ 0.50 0.34 Yes
不安(GAD-7)と関連する 0.21 ~ 0.50 0.19 No
攻撃性(BAQ)と関連しない -0.15 ~ 0.15 0.05 Yes
44. 尺度翻訳のベストプラクティス
(稲田,2015, Wild et al., 2005を改変)
1. 準備: 原著者への翻訳許可、構成概念への理解を深める
2. 順翻訳:原版の言語から日本語へ翻訳。原版の言語に精
通している2名の翻訳者が独立に翻訳する。原版の意味
を損なうことなく、日本語として自然な表現にする。
3. 調整: 2名の翻訳を1つに統合する。翻訳が難しい場合は、
3人目の翻訳者を立てる。
4. 逆翻訳:日本語版と原版が等価か確認するため、順翻訳
に関わってない翻訳者が、日本語版を原版の言語に翻訳。
5. 逆翻訳の精査:原著者が、逆翻訳したものと原版が等価
か精査。問題点が見つかった場合は、修正を行う(順翻訳
からやり直し)。
45. 尺度翻訳のベストプラクティス
(稲田,2015, Wild et al., 2005を改変)
6. 認知的インタビュー:日本語を母国語とする者を対
象に認知的インタビューを行う(5~8名)。わかりにく
い項目はないか、項目の内容や概念の理解は適
切か検討する。
7. 認知的インタビューに基づいた修正:認知的インタ
ビュー結果をもとに項目を修正する(修正したら、
順翻訳に戻って作業を繰り返す)。
→上記の作業を反復しながら、尺度の翻訳が完成す
る
51. 反応性の評価項目
51
Excellent Good Fair Poor
3 分析に用いたサンプルサイズ
は十分か?
十分(100名以
上)
良い(50-99名) ほどほど(30-49
名)
少ない(<30名)
4 少なくとも2回測定した縦断的
デザインを用いているか?
縦断的デザイン
使用
縦断的デザインを
使用していない。
5 時間間隔について記載してい
るか?
時間間隔が適
切に記載さ れ
ている
時間間隔につ い
て記載されていな
い
6 その間に何かが起こったとし
たら(例えば,介入,その他の関連
した出来事), それが適切に記載
されているか?
その間に起 こっ
たこと全てが適
切に記載されて
い る
その間に起 こった
ことが 想定できる
不明確,もしく その
間に起 こったこと
が記載されていな
い
7 患者の割合は変化したか?(す
なわち、改善もしくは悪化した
か?)
患者の一部が
変化した (根拠
あり)
根拠はないが、患者
の一部が変化した と
想定できる
患者の一部が変
化したか 不明確
患者は変化してい
ない
• 尺度の得点変化を検討するので,少なくとも2時点測定が必
要。信頼性とは逆で、測定間隔は,患者の変化の程度を考
慮して決定する(何割かの患者が変化(改善・悪化)している
必要性がある)
54. 論文例:視覚関連QOL尺度(VCM1)の反応性の
検討(De Boer et al. (2006). Quality of life research)
54
VMC1の得点変化に関する仮説 相関係数 確認
①白内障用視覚機能尺度の変化得点との相関は,②視
覚に関する知覚された変化得点間の相関よりも0.1高い
①0.39
②0.19
Yes
・
・
・
①遠見視力(5m以上の距離測定)の変化得点との相関は,
②Euroqol (健康関連QOL尺度)の変化得点との相関より
0.1高い
①-0.02
②0.26
No
棄却された仮説のパーセント 3/6 = 50%
対象:視覚に障害のある高齢者329名
測定:ベースラインと5ヶ月後にデータ取得
以下の仮説を設定して、確認をした。仮説の何%を満たしたか
も記載する。
59. 論文例:首の痛み障害尺度のラッシュ分析(Van
der Velde et al., 2009, Arthritis and rheumatism)
59
尺度:首の痛み障害尺度(Neck Disability Index)
対象者:首の痛みをもった患者512名
この辺の項目はこ
のサンプルでは意
味を持たない。
全体的に低い特性値に分布
している。しかし,低特性値
には項目が少ない。
62. 変化得点の解釈
• 尺度で最低何点変化したら変化したと言えるのか?
①最小限の重要な変化(Minimal important change:
MIC)※de Vet et al(2011)はこちらを推奨
→患者や臨床家が重要と感じるような最小限の変化
→重要な変化の外的基準(アンカー)に基づくアプロー
チ
②検出可能な最小限の変化(Minimal Detectable
Change: MDC)
→測定誤差を超えるような最小限の変化
→尺度の変化得点の分布に基づくアプローチ
62
FDAのPROに関する指針「Patient-Reported Outcome Measures: Use in Medical
Product Development to Support Labeling Claims」,2009年
Crosby et al., 2003, J. Clin Epidemiol
66. 論文例:緊張性尿失禁の女性患者における
PRAFAB質問票の最小限の重要な変化
(Hendriks et al., 2008, Neurourology and Urodynamics)
66
対象患者:緊張性尿失禁をもつ女性患者279名
PRAFAB質問票:失禁対策・量・頻度・活動支障度・自己イメージの5
項目4件法,高いほど重症,ベースラインと12週後に測定
方法:アンカーとしてGRSで12週後の改善度を調べた。中等度改善
以上は「重要な改善」とし、軽度改善から軽度悪化は、「変化なし」
とした。MICの推定のために、ROC曲線のカットオフを使用した。
<結果>MICはベースラインの高さに
よって変化するので,ベースラインの重
症度で2群にわけてMICを算出した。そ
の結果、重症度群MICROC=4.0,軽症群
MICROC=2.0となった。
68. PROMIS
• Patient-Reported Outcomes Measurement
Information System (PROMIS)は、2004年末にNIH主
導で開始したプロジェクト。
<目的>
①患者報告式アウトカム尺度(PRO)の作成と運用に関
する方法論の整備
②有用なPROの項目バンクの作成
③PROを運用するソフトウェアの開発
→項目反応理論を用いて、幅広い疾患に使え、精度
の高い尺度を低コストで運用!
76. Take Home Message
• 当事者を意識した尺度作成をする。
• 患者報告式アウトカム尺度の利用と作成に関して
は、COSMINチェックリストを活用する。
• 信頼性は、内的一貫性だけでなく、再検査信頼性や
測定誤差も検討する。
• 妥当性(構造、仮説検証、基準)は、事前に明確な仮
説を設定したうえで、仮説を検証するようにする。
• 反応性や解釈可能性も検討して、臨床で使い易い
尺度にする。
• PROMISのような項目バンク作成の取り組みも今後
は行われることが望まれる。
Editor's Notes ボルボックスみたい 1と2で1コマ
3で1コマ
4と5で1コマ ボルボックスみたい 1と2で1コマ
3で1コマ
4と5で1コマ ボルボックスみたい 1と2で1コマ
3で1コマ
4と5で1コマ ボルボックスみたい 本当はLVQOLの検討もしているが,ここでは触れない。
論文では,Responsivnessを構成概念妥当性の1つとして扱っており,longitudinal construct validityとよんでいるが,Responsivenessに書き換えている。 ボルボックスみたい ちなみに,得点分布は測定特性の適切な解釈のためにも行う。それは,得点のばらつきが小さいと信頼性が低くなる。さらに,信頼性が低いと相関の希薄化も生じるため。
尺度開発時の天井効果・床効果は,項目数を増やすなどして,修正する。しかし,新しい母集団に適用したら,けっこう床も天井も生じる。
IRTの評価によって,低得点部分を検討できる項目が用意されているなら,それは計れてないために生じた床効果ではなくて,ちゃんと症状なし(症状が低い)なんだと考える。 教科書の8.4.2は入れるか悩ましい。解釈っていうより検討方法の説明 Measurement in Medicineにおいても,FDAの指針に関しても,変化得点の解釈には,changeを使う。
MIDの例としては,ETCしてない患者群とETCした患者群の最小の差を検討するなどが考えられるが,そもそもETCの効果に関係なく,サンプルに違いがある可能性があり,そこから判断するのは難しい。 SEMに関しては,クロンバックのαよりも再検査信頼性が良い。