患者報告式尺度の開発方法

論文作成における
尺度開発の方法と実際
専修大学人間科学部心理学科
国里愛彦

本日の内容
1. 患者報告式アウトカム
2. 信頼性の検討
3. 妥当性の検討
4. 反応性・解釈可能性の検討
5. 尺度の運用

患者報告式アウトカム
• 患者報告式アウトカム(Patient-Reported Outcome: PRO)
＝直接患者さんから得られる健康状態に関する報告。
→健康心理学における質問紙は、PRO尺度が多い。
• PROは、患者さんがケアの効果を実感できているか示す
優れた指標になる（生理学的検査の結果は患者さんにとって
あまり重要ではない）。
最近、調子
がいいんだ
よ。
どのくらい調
子がよくなっ
ているのかし
ら？

尺度構成とは？
体重計を使うことで、重さという「ものさし（尺
度）」上で比較可能に。
• 患者報告式アウトカム尺度の作成
→患者さんが報告する健康情報について比較可能な
「ものさし」の作成
• 患者報告式アウトカムは、直接観察できないので、
様々な観察可能な事象を組み合わせて測定する
→直接観察できず、観察可能な事象から構成される
概念を構成概念(Construct)と呼ぶ。
例) 患者さんの「痛み」は、直接観察できないので、訴えの頻
度と表現と持続時間、痛みによる生活の支障などから測定する。

尺度構成の流れ構成概念の定義
予備
検討
評価
フィールド
テスト
評価
修正修正
問題ない？
Yes
No
問題ない？
Yes
No
尺度特性のさらなる評価
項目の作成

構成概念と観測データ
• 構成概念は直接測定できないが、構成概念の高低
は、観測データへの反応に影響する。
→観測データから構成概念について推定可能
痛み
項目1 項目2 項目3 項目n
誤差1 誤差2 誤差3 誤差n
・・・観測データ
構成概念

構成概念と観測データの関係
• 構成概念と観測データ（項目）との関係には、
ReflectiveモデルとFormativeモデルがある。
7
睡眠の障害
イライラしやすい
心拍の増加
生活
ストレス
離婚
家族の死
仕事のストレス
観測データ構成概念観測データ
Reflective モデル
例.因子分析など
Formative モデル
例.主成分分析など
de Vet et al: Measurement in Medicine: A Practical Guide.

構成概念の操作的定義
• 測定したい構成概念の操作的定義を行うことで、あ
いまいな抽象概念を具体的に測定可能にする（例.
「健康とは、身体機能、日常機能、痛み、活力などに問題が
ない状態」など）。
• 既存の因子分析研究の知見なども考慮しつつ、構
成概念の階層性も考慮して操作的定義を行う。
• 既存の文献を検索。①すでに作成された質問紙は
ないか？②既存の質問紙の問題点があるとしたら
何か？
• 患者、構成概念や検査の専門家、臨床家、エンド
ユーザー、利害関係者が構成概念の精査を行う。

予備
検討
評価
フィールド
テスト
評価
修正修正
問題ない？
はい
いいえ
問題ない？
はい
いいえ
項目の作成

②項目の作成
• 測定する概念に関する既存の尺度と項目を包括的
にレビューし、項目の修正・削除・新規作成を行う。
• 項目の修正・削除・新規作成において以下のような
質的(定性的)な検討を加える。
①専門家パネルやフォーカスグループで構成概念と
項目の関連度を検討
②回答に必要とされる読み書き能力のレベルを検討
③認知的インタビューによって、項目が意図したように
理解されているか検討
10
PROMIS (2012) The PROMIS® Instrument Development and Psychometric Evaluation Scientific
Standards

項目作成における全般的注意
• ＜明瞭さ＞複数の解釈が可能な表現、あいまいな表現、
長く複雑な表現、俗語の使用を避ける。一般的な語彙
（全て、いつも、ない、一度もない）も避ける
ダメな例）あなたは、よく病院を受診されていますか？
• ＜正確さ＞ダブルバーレル、複数例のある項目を避ける
ダメな例）痛みや不安を感じますか？
• ＜中立性＞主観的・断定的な表現を避け、客観的・中立
的な表現を用いる（回答を誘導しない）。
ダメな例)１日６時間のデスクワークは寿命を短くするといいますが、
１日何時間デスクワークしますか？
11
Standards

項目作成における全般的注意
• ＜一般適用性＞一般に使う上で狭すぎる内容の項目
は避ける。
• ＜患者への受け入れられやすさ＞患者が理解しやす
い、適切な表現を用いる。
• ＜想起の期間＞あまり長い期間を回想させて回答さ
せるとバイアスが生じるので、できるだけ短い期間に
する。回答者の記憶に負荷をかけたり、覚えてられな
い詳細まで聞く項目も避ける。
12
Standards

フォーカスグループ
• 集団面接を行うために集められた、ある一定の基準
を満たした対象者のこと。ファシリテーターが中心と
なり、議論を誘導するが、議論の仕方などは構造化
されておらず、自由な発言が促される(PROMISのガイドラ
インでは、各グループを6~12名で構成し、３グループ以上必要。各グルー
プに、１名の主ファシリテーターと１名のノートテイカー)
• 対象者は、年齢、性別、民族性において多様であり、
幅広い範囲の重症度をカバーしている必要がある
→当事者（患者など）を対象に項目検討を行う。研究
者だけで項目の内容的妥当性を検討して、当事者か
ら乖離した項目を作らない！
13
Standards

読み書き能力の検討
• 12歳程度の読み書き能力の者をターゲットにして項
目を作成する(子ども用尺度の場合は9歳くらい)。
• 一般的に使用される単語を選び、慣用的な例や俗
語を避ける。文は短く、シンプルにする。
• 何かの量が文章中にある場合は（例. 身長1.8以上）、
単位をつける（例. 身長180cm以上）。
※英語の場合は、Lexile Analyzerを使って、使っている語の共通度や構文の
複雑さを評価できる。
→読み書き能力によって制限のかかる項目は不要
！
14
Standards

認知的インタビュー
• 認知的インタビューをとおして、作成した項目が①
意図したように理解されているか、②どのように反
応するのか調べる(各項目について最低5名の参加者が
精査。最初に項目を読んで回答してから、理解度を問う)。
• 少なくとも２名の参加者は、①教育歴が12年より少
ない（高校を出ていない）、②中学３年生以下の読
みのレベル、③認知的障害に関連した診断（外傷性
脳損傷など）のうち１つ以上を満たす。
→知的水準が高い者のみが回答できる項目ではなく、
実践上幅広く使える項目を作成する。
15
Standards

論文例：がん患者の性機能と満足尺度
＜フォーカスグループ＞109名のがん患者を対象に、16
個のフォーカスグループを実施した。がんによる性機能
や親密な関係への身体・心理面への影響についてディス
カッションを行った。新たに40項目を追加し、性的満足を
邪魔する症状などの下位領域を追加した。
＜認知的インタビュー＞それぞれ83項目について５名以
上の参加者に簡潔さ、関連度などの評価をさせた（少なく
とも２名はリテラシーの低い者が参加）。
＜他の定性的検討＞翻訳可能性（他言語に翻訳できる
か）を検討し、さらに専門家を追加して概念と項目の精査
を行った
Flynn et al. (2013). Development of the NIH PROMIS® Sexual Function and Satisfaction Measures
in Patients with Cancer. J Sex Med, 10, 43–52.
16

予備
検討
評価
フィールド
テスト
評価
修正修正
問題ない？
Yes
No
問題ない？
Yes
No
尺度特性の検討！
項目の作成

COSMIN
18
• 尺度作成は多くの研究者が行っているが、その作成手
続きはバラバラ（質の低い研究も多い）。
→COSMIN (COnsensus-based Standards for the selection
of health Measurement Instruments)：健康関連尺度の選択
に関する合意に基づく指針
→チェックリスト形式になっており、尺度選択時のチェック
や作成時のチェックに有用
COSMIN (http://www.cosmin.nl/)

COSMINチェックリスト
共通項目と特異項目
• COSMINには、共通項目（多くの尺度特性の検討で
共通）と特異項目（特定の尺度特性に特有）がある。
• 共通項目は以下の４つになる。
Excellent Good Fair Poor
欠測項目の%が記載されてい
るか？
記載あり記載なし
どのように欠測項目が処理さ
れたか記載されているか？
記載あり記載はないが、
推測できる
不明
解析に使用されるサンプルサ
イズは十分か？
検討する尺度特性によって異なる
研究方法やデザインにおいて
重大な欠陥はあるか？
重大な欠
陥はない
重要でな
い欠陥が
ある
重大な欠
陥がある

COSMINにおける尺度特性の分類
20
信頼性
内的一貫性
測定誤差
信頼性
反応性
反応性
妥当性内容的
妥当性
基準関連
妥当性
構成概念妥当性
表面的
妥当性構造的
妥当性
異文化間
妥当性仮説検定
解釈
可能性
Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45.

信頼性の検討
22
信頼性
内的一貫性
測定誤差
信頼性
反応性
反応性
妥当性内容的
妥当性
基準関連
妥当性
表面的
妥当性構造的
妥当性
異文化間
解釈
可能性

信頼性
• 古典的テスト理論において・・・
測定値＝真値＋誤差
→測定値は、真値から誤差の影響を受ける
• 信頼性は・・・
信頼性＝真値の分散/測定値の分散
→信頼性＝真値の分散/(真値の分散＋誤差の分散)
→誤差の分散からどのくらい自由かどうかが信頼性

内的一貫性
• それぞれの項目が構成概念を反映していれば，項
目同士の相関は強くなるはず。
→項目同士の相互関連具合を信頼性の指標にする。
→（連続変数）Cronbachのα係数、(２値変数) Cronbach
のα係数かその拡張版のKR-20
• α係数は以下から計算される。
→項目が多いと値が大きくなりやすい。
項目数 ×
(
1-
各項目の分散の合計
)
項目数-1 合計得点の分散

内的一貫性
• 内的一貫性の適切なサンプルサイズは以下になる。
なお、内的一貫性の分析の前提の一次元性の分析
（因子分析など）のサンプルサイズは異なる。
内的一貫性の解析に
使用されるサンプルサ
イズは十分か？
十分（100名
以上）
良い（50-99）ほどほど
（30-99）
少ない（<30）
一次元性分析に用い
たサンプルサイズは十
分か？
項目数×7か
つ100名以上
(項目数×5か
つ100名以上)
OR (項目数
×6~7だが100
名より少ない)
項目数×5
以上だが
100名より
少ない
項目数×5よ
り少ない

信頼性
信頼性＝真値の分散/(真値の分散＋誤差の分散)
• 変化しない時間間隔で測定を複数回行って、その
一貫性を検討するのが再検査信頼性。
• 個人の中で真値は変化しないと仮定すると・・・
→再検査信頼性の仮定として、真値が変化しない時
間間隔である必要があるので、それを担保した研究デ
ザインでなくてはならない。
信頼性＝
参加者要因による分散
参加者要因による分散＋誤差の分散

信頼性
• ２回以上の独立した測定を実施し、その時間間隔や実
施法が適切なデザイン（変化しないことを担保）を採用
4 少なくとも２回は測定しているか？少なくとも２回
測定
１回だけ
5 測定の実施は独立していたか？独立した測定独立した測
定と仮定可
独立した測
定か疑わし
い
独立してい
ない測定
6 時間間隔について記載しているか？記載あり記載なし
7 反復測定の間、患者の測定される概念
の状態は変わらなかったか？
変わらなかっ
た（根拠あり）
変わらな
かったと仮定
可
変わらな
かったか不
明
変わった
8 時間間隔は適切か？適切適切かどう
か疑わしい
適切ではな
い
9 検査状況は測定間で同じか(実施の種類、
環境、教示は同じか)？
同じ（根拠あ
り）
同じと仮定
可
同じかどうか
不明
同じではな
い

信頼性と級内相関係数
• 再検査信頼性において、ピアソンの積率相関係数を算
出することが多かったが、繰り返し測定をモデル化でき
てないという問題がある。
→再検査信頼性においては、級内相関係数（IntraClass
Correlation: ICC）を算出する（2値の場合はKappa係数）
• 再検査信頼性では、ICCagreement(２因子変量モデル）を用
いる(評定者内/間一貫性ではICCconsistencyを用いる)
ICC agrrenment＝
参加者の分散成分
参加者の分散成分＋(時間の分散成分+誤差の分散成分)

信頼性と級内相関係数
• 級内相関係数を求めるために使用するサンプルサ
イズは適切か？
• また、級内相関係数にはいくつかあるので、そのモ
デルや式が記載されているか？
3 解析に使用されるサン
プルサイズは十分か？
十分(100名以上) よい（50-99名）ほどほど（30-49）小さい（30
名より少な
い）
11 （連続変数）級内相関
係数が算出されている
か？
級内相関が算出
され、そのモデル
や式が記載
(級内相関が算出さ
れているがモデル
や式が記載されて
ないか適切でない)
OR (ピアソンやスピ
アマンの相関係数
が算出（系統的な変
化はない根拠あり）)
ピアソンやスピア
マンの相関係数を
算出（系統的な変
化が起こっていな
いという根拠なし
OR系統的な変化
が起っている根拠
あり）
級内相関も
ピアソンや
スピアマン
の相関係数
も算出され
ない

測定誤差
• 測定誤差とは、測定された構成概念の真の変化に
よらない，ある患者の得点の系統誤差(測定や対象
者のバイアス)と偶然誤差
→測定誤差のために求められる研究デザインやサン
プルサイズは信頼性と同じ。信頼性と逆の意味の概
念だが、正反対ではない。信頼性と測定誤差の両方
を報告する。
• 一致性の測定誤差
SEMagreement = √ 時間の分散成分＋誤差の分散成分

本日の内容
1. 患者報告式アウトカムと尺度構成
2. 信頼性の検討
3. 妥当性の検討
4. 反応性・解釈可能性の検討
5. 尺度の運用

妥当性の検討
32
信頼性
内的一貫性
測定誤差
信頼性
反応性
反応性
妥当性内容的
妥当性
基準関連
妥当性
表面的
妥当性構造的
妥当性
異文化間
解釈
可能性

内容的妥当性(表面的妥当性)
• ＜内容的妥当性＞尺度の内容が目的とした構成概
念を十分に反映している程度
• ＜表面的妥当性＞尺度の項目が，目的とした構成
概念を十分に反映しているように，確かに思える程
度 (項目の第一印象で明らかに的外れな項目がな
いか)
→フォーカスグループや認知的インタビューなどを用
いて、測定したい構成概念と関連した項目か、測定し
たい概念を包括的に測定できているかなどを検討する。

構造的妥当性
• 構造的妥当性は、尺度の得点が目的とした構成概
念の次元を妥当に反映している程度のことである
• 因子分析を行って、想定した構成概念の次元を確
認することができるか検討する。
item
5
item
6
item
2
item
1
item
3
item
4
因子1 因子2
item
5
item
6
item
2
item
1
item
3
item
4
因子1

構造的妥当性の評価事項
1. 尺度はReflective Modelか？
4 分析に用いたサンプルサイズは十分か？
6 <古典的テスト理論> 探索的因子分析もしくは確証的
因子分析を実施ているか？
7 ＜項目反応理論＞項目の次元性を確認しているか？
→項目反応理論では１次元性の仮定があるので、確認
項目数×7かつ
100名以上
(項目数×5かつ100名以
上) OR (項目数×6~7だが
100名より少ない)
項目数×5以上
だが100名より少
ない
項目数×5よ
り少ない

探索的因子分析と確証的因子分析
• 確証的因子分析実施→確証的因子分析の結果が
不良→探索的因子分析
item
5
item
6
item
2
item
1
item
3
item
4
f1 f2
・新しい尺度の開発
・因子数・因子間相関の理論的根拠が弱い
・項目の削減⇒短縮版の作成
妥当性の検討という観点では，
確証的因子分析が適切
item
5
item
6
item
2
item
1
item
3
item
4
f1 f2
探索的因子分析確証的因子分析
因子構造の仮説生成が目的因子構造の仮説検証が目的
竹林由武先生(統計数理研究所)のスライドを一部改変

確証的因子分析と適合度
• 確証的因子分析は、構造方程式モデリングを用いたモデルに基
づいた解析になるので、モデルのデータへの適合度を検討する
• 適合度指標: ①絶対的指標(absolute indices)：データとモデルの
共分散行列の類似度、②増分的指標(incremental indices)：独
立モデルと比較して，分析モデルによってデータの適合が改善
した度合い、③倹約的指標(parsimonious indices)：モデルの複
雑さを考慮した，モデルのデータに対する近似度
指標内容基準
①SRMR モデルで説明できなかった分散の大きさ .08以下
②CFI 自由度を考慮した乖離度の改善の大きさ .95以上
③RMSEA 1自由度あたりの乖離度の大きさ .05以下
Ralph, O et al (2008): The Reviewer‘s Guide to Quantitative Methods in the Social Sciences

探索的因子分析
• ＜因子の回転＞因子間相関を仮定しない直交回
転と仮定する斜交回転がある。
→斜交回転で検討し，因子間相関が低ければ直交回
転で再検討(Henson et al: Educ Psychol Meas 66: 393-416, 2006)
• ＜因子数の選択＞
①平行分析：実データの固有値>乱数データの固有値
となる最大因子数を選択する
②最小平均偏相関(MAP)：因子を統制変数とした時の
項目間の平均偏相関が最小になる因子数を選ぶ
→平行分析＋MAP＋解釈可能性などように、複数の
因子数決定法を用いて因子数を判断すべき

仮説検証
• 仮説検証では、尺度が目的とした構成概念を妥当
に測定している場合に予想される仮説を立て、作成
した尺度がどのくらい仮説を満たすか検討する。
→構成概念妥当性と同義
• 収束的妥当性 (convergent validity)
→理論的に関連の強い構成概念と相関が高い
• 弁別的妥当性 (discriminant validity)
→理論的に関連の弱い構成概念と相関が弱い。

仮説検証の評価項目
• サンプルサイズと仮説を事前に設定する
3 分析に用いたサンプルサイズ
は十分か？
十分（分析
ごとに100
名以上）
良い（分析
ごとに50-
99名）
ほどほど（分析ご
とに30-49名）
少ない（分
析ごとに
<30名）
• 仮説検証での仮説は、相関や平均値の値の方向性
と大きさを明確にした上で研究実施前に事前に設定
する。
• 仮説検証で用いる他の尺度(比較尺度)の特性につ
いても検討を行い、記載する。

仮説検証の手続き
① 概念の記述
② 仮説の定式化（期待値の大きさと方向性）
③ 比較尺度 or 対照群を記述
④ データ収集
⑤ 結果と仮説の整合性を評価
⑥ 結果の説明
• 以下のような表を作って、事前に設定した仮説の期待値を記
載した上で、実際に得られた値と仮説の採否を記載する。仮
説のうち何％が採択されたかもまとめる。
仮説期待値本研究の推定値仮説の採否
抑うつ(PHQ-9)と関連する 0.21 ~ 0.50 0.34 Yes
不安（GAD-7）と関連する 0.21 ~ 0.50 0.19 No
攻撃性(BAQ)と関連しない -0.15 ~ 0.15 0.05 Yes

基準関連妥当性の評価項目
• 基準関連妥当性とは、尺度の得点が、ゴールドスタン
ダードを適切に反映している程度のこと。
• 基準関連妥当性の検討では、必要なサンプルサイズ
の設定、用いた基準がゴールドスタンダードであると
いう合理的根拠が必要
• 患者報告式アウトカム尺度には基本的にゴールドスタ
ンダードは存在しない（例外は、短縮版作成時の原版尺度）。
→仮説検証の混同しないようにする。
• ①尺度も基準も連続変数の場合＝相関、②尺度が連
続変数で基準が2値変数の場合＝ROC曲線下面積、
③尺度も基準も２値変数の場合＝感度と特異度

海外の尺度の翻訳
• 異文化間妥当性は、翻訳された，または文化に合
わせて修正した尺度の項目の働きが原版の尺度の
項目の働きを適切に反映している程度のこと。
• 異文化間妥当性の検討はおおまかに以下の２種類
①原版からの翻訳プロセスにおける異文化間妥当性
の担保
②翻訳してた尺度でデータを取得後に、データに基づ
いて検討する方法

尺度翻訳のベストプラクティス
（稲田,2015, Wild et al., 2005を改変）
1. 準備：原著者への翻訳許可、構成概念への理解を深める
2. 順翻訳：原版の言語から日本語へ翻訳。原版の言語に精
通している２名の翻訳者が独立に翻訳する。原版の意味
を損なうことなく、日本語として自然な表現にする。
3. 調整: ２名の翻訳を１つに統合する。翻訳が難しい場合は、
３人目の翻訳者を立てる。
4. 逆翻訳：日本語版と原版が等価か確認するため、順翻訳
に関わってない翻訳者が、日本語版を原版の言語に翻訳。
5. 逆翻訳の精査：原著者が、逆翻訳したものと原版が等価
か精査。問題点が見つかった場合は、修正を行う（順翻訳
からやり直し）。

尺度翻訳のベストプラクティス
（稲田,2015, Wild et al., 2005を改変）
6. 認知的インタビュー:日本語を母国語とする者を対
象に認知的インタビューを行う(5~8名)。わかりにく
い項目はないか、項目の内容や概念の理解は適
切か検討する。
7. 認知的インタビューに基づいた修正：認知的インタ
ビュー結果をもとに項目を修正する（修正したら、
順翻訳に戻って作業を繰り返す）。
→上記の作業を反復しながら、尺度の翻訳が完成す
る

異文化間妥当性の評価項目
• 解析に合わせたサンプルサイズを設定する。
• ①文化によって因子構造が違わないか確認する多母集
団確証的因子分析や②文化によって機能が異なる項目
を調べる特異項目機能を検討する。
3 分析に用いたサンプルサイズは十
分か？
<CTT>項目数
×7かつ100名
以上
<IRT>各群２０
０名以上
＜CTT＞(項目数×5かつ
100名以上) OR (項目数
×5~7だが100名より少な
い)
＜IRT＞１群が200名以上
かつ１群が100~199名
＜CTT＞項目数
×5以上だが
100名より少な
い
＜IRT＞各群
100~199名
＜CTT＞項目数
×5より少ない
<IRT>１群もしく
は両群100名よ
り少ない
14 <古典的テスト理論:CTT> 確証的
飲分析は実施されているか？
多母集団確証
的因子分析を
実施
多母集団確証
的因子分析は
実施していない
15 <項目反応理論:IRT> 異なる言語
集団間の特異項目機能(Differential
Item Function: DIF)が検討されている
か？
DIFを検討した DIFを検討してい
ない

反応性
48
信頼性
内的一貫性
測定誤差
信頼性
反応性
反応性
妥当性内容的
妥当性
基準関連
妥当性
表面的
妥当性構造的
妥当性
異文化間
解釈
可能性

反応性
• 反応性とは，測定された構成概念における時間によ
る変化を検出する検査の能力になる。
• 反応性は妥当性と以下のように分けられる
妥当性：１時点の得点における妥当性
反応性：変化得点における妥当性
→基本的に妥当性（基準関連妥当性と仮説検証）と同
じ検討方法が使える
49
ずいぶん良
くなりまし
た。

ゴールドスタンダードの有無
• 患者の変化に関するゴールドスタンダードの有無に
より，アプローチや検討事項が異なる
Box I 項目1~7
ゴールドスタンダードの有無に
かかわらない共通項目
Box I 項目8~14
仮説検証アプローチ
Box I 項目15-18
基準アプローチ
ゴールドスタン
ダードがある
ゴールドスタン
ダードがない
50

反応性の評価項目
51
3 分析に用いたサンプルサイズ
は十分か？
十分（100名以
上）
良い（50-99名）ほどほど（30-49
名）
少ない（<30名）
4 少なくとも2回測定した縦断的
デザインを用いているか?
縦断的デザイン
使用
縦断的デザインを
使用していない。
5 時間間隔について記載してい
るか？
時間間隔が適
切に記載され
ている
時間間隔につい
て記載されていな
い
6 その間に何かが起こったとし
たら(例えば,介入,その他の関連
した出来事), それが適切に記載
されているか?
その間に起こっ
たこと全てが適
切に記載されて
いる
その􏰁間に起こった
ことが想定できる
不明確,もしくその
間に起こったこと
が記載されていな
い
7 患者の割合は変化したか？（す
なわち、改善もしくは悪化した
か？）
患者の一部が
変化した（根拠
あり）
根拠はないが、患者
の一部が変化したと
想定できる
患者の一部が変
化したか不明確
患者は変化してい
ない
• 尺度の得点変化を検討するので，少なくとも２時点測定が必
要。信頼性とは逆で、測定間隔は，患者の変化の程度を考
慮して決定する（何割かの患者が変化（改善・悪化）している
必要性がある）

ゴールドスタンダードがある場合：
基準アプローチの方法
• 用いる基準（ゴールドスタンダード）の合理的根拠を示
した上で、検討する尺度の変化と基準の変化間の一致
に関して，求められるレベルを事前に決めて検討する。
• 患者報告式アウトカム尺度で，ゴールドスタンダードが
あることは稀になる。変化や改善に関するGlobal
Rating Scale(GRS)の使用が多い（例えば、Clinical Global
Impressions(CGI)の変化得点）
「治療開始前の患者の状態と比較して，この患者の状態は：1=著
明改善，2=中等度改善，3=軽度改善,4=変化なし，5=軽度悪化，6=
中等度悪化，7=著明悪化」
52

ゴールドスタンダードがない場合：
仮説検証アプローチ
• ゴールドスタンダードがない場合，仮説検証アプ
ローチで反応性を確認する。
• 事前に仮説をたてる。仮説に含まれる変化得点
の相関もしくは平均値の方向性と大きさも事前
に設定する。仮説検証と同様に比較尺度について
も十分に記載する。
• 反応性での仮説：
①異なる集団における尺度の変化得点の平均値差
②検討したい尺度の得点変化と反応性が十分に確認
されている尺度の得点変化との相関

論文例：視覚関連QOL尺度（VCM1）の反応性の
検討(De Boer et al. (2006). Quality of life research)
54
VMC1の得点変化に関する仮説相関係数確認
①白内障用視覚機能尺度の変化得点との相関は，②視
覚に関する知覚された変化得点間の相関よりも0.1高い
①0.39
②0.19
Yes
・
・
・
①遠見視力(5m以上の距離測定)の変化得点との相関は，
②Euroqol (健康関連QOL尺度)の変化得点との相関より
0.1高い
①-0.02
②0.26
No
棄却された仮説のパーセント 3/6 = 50%
対象：視覚に障害のある高齢者329名
測定：ベースラインと５ヶ月後にデータ取得
以下の仮説を設定して、確認をした。仮説の何％を満たしたか
も記載する。

解釈可能性
55
信頼性
内的一貫性
測定誤差
信頼性
反応性
反応性
妥当性内容的
妥当性
基準関連
妥当性
表面的
妥当性構造的
妥当性
異文化間
解釈
可能性

解釈可能性
• 解釈可能性とは、量的な尺度得点もしくは変化得点
を質的な意味（臨床的もしくは一般的に理解できる
意味）に割り当てることができる程度
→尺度得点や変化得点が臨床的にどんな意味を持つ
のか？
• 解釈可能性は，尺度特性ではない（尺度の質を検
討するものではない）。
• あまり解釈可能性は重視されてこなかったが，臨床
場面での使用を考えた時に非常に重要な概念であ
る。
56

解釈可能性の検討における構成要素
①得点分布はどんなものか？
②床効果と天井効果はあるか？
③関連した集団における得点と変化得点が利用可
能か？（規準集団，患者の下位グループ，一般母集
団など）
④最小限の重要な変化（MIC）もしくは最小限の重要
な差（MID）があるか？
57

尺度の得点分布の検討
• 測定尺度の得点の適切な解釈のため分布を検討
→得られた点は高いのか低いのか？尺度の全ての範
囲に分布しているか？患者が尺度のある場所にかた
まっているか？
• 古典的テスト理論
→平均，標準偏差，中央値，四分位範囲，ヒストグラム
• 項目反応理論（尺度特性と研究サンプル特性を分離可能）
→潜在特性値（θ）上に，研究サンプルと項目を配置して検討す
る（患者群はどこに位置するか？難しすぎる項目はないか？項
目が配置されてない特性値はないか？など）。
58

論文例:首の痛み障害尺度のラッシュ分析（Van
der Velde et al., 2009, Arthritis and rheumatism）
59
尺度：首の痛み障害尺度（Neck Disability Index）
対象者：首の痛みをもった患者512名
この辺の項目はこ
のサンプルでは意
味を持たない。
全体的に低い特性値に分布
している。しかし，低特性値
には項目が少ない。

天井・床効果の検討
• 天井・床効果は，縦断データの分析で問題に
→ベースラインの段階で患者群の症状が床効果を示している
場合，それ以上の改善は測定できない。
• 天井・床効果を問題視するかは，患者を他のグルー
プと区別したいか,変化の方向性に依存
→多くの者において困難度の低い（得点が高くなる）尺度でも，
それによって患者かどうか区別できるなら有用（≠天井効果）
→患者の得点が低い方に偏っていても，治療による変化の方
向性が増加方向の場合は，問題ない（≠床効果）
60

特定集団における得点解釈（１時点）
①一般母集団の尺度得点を基準得点として解釈
→一般母集団（健康な者）と比較して，今回のサンプルや個人
の得点を解釈する。
②項目反応理論に基づいた尺度得点の解釈
→合計得点よりも項目反応理論に基づいた特性値（θ）を使う方
が正確な解釈が可能（特に，項目の困難度がばらついていたり
する場合）
③正常の基準によって解釈
→(1)一般母集団の分布に基づき，上位or下位数％（例えば
5%）以外を正常とする，(2)疾病リスクに基づき，ある得点以下
はリスクが少ないので正常とする
61

変化得点の解釈
• 尺度で最低何点変化したら変化したと言えるのか？
①最小限の重要な変化（Minimal important change:
MIC）※de Vet et al(2011)はこちらを推奨
→患者や臨床家が重要と感じるような最小限の変化
→重要な変化の外的基準（アンカー）に基づくアプロー
チ
②検出可能な最小限の変化(Minimal Detectable
Change: MDC)
→測定誤差を超えるような最小限の変化
→尺度の変化得点の分布に基づくアプローチ
62
FDAのPROに関する指針「Patient-Reported Outcome Measures: Use in Medical
Product Development to Support Labeling Claims」，2009年
Crosby et al., 2003, J. Clin Epidemiol

最小限の重要な変化（MIC）
-アンカーに基づくアプローチ-
１）重要な変化に関する外的基準（アンカー）に基づい
て，最小限の重要な変化をした患者と不変の患者に
操作的に分ける
例）CGIで不変群と軽度・中等度改善群に分ける
２−１）平均値を用いた方法：最小限の重要な変化群
の変化量の平均値をMICとする
例）CGIによる軽度・中等度改善群の尺度変化得点の平均値
２−２） ROCを用いた方法：変化した患者の割合（感度）
と変化のない患者の割合（特異度）を用いたROC分析
を実施。カットオフをMICとする。
63

検出可能な最小限の変化(MDC)
-分布に基づくアプローチ-
• 小さな変化は単に測定誤差の可能性がある
→測定誤差を超えるような変化を「最小限の検出可能
な変化」とする。
• 検出可能な最小限の変化の計算方法
• ある尺度が，SEM＝2.2の場合
64
MDC =1.96´ 2 ´SEM
MDC =1.96´ 2 ´2.2 = 6.10

アンカーに基づく方法と
分布に基づく方法の関係
MIC:最小限の重要な変化
MDC:検出可能な最小限の変化
65
不変
最大の変化
←MDC
←MIC
重要な変化かつ誤差を超えている変化
重要でなく誤差の範囲の変化
重要な変化ではないが
誤差を超える変化
不変
最大の変化
←MIC
←MDC
重要な変化であるが
誤差の範囲の変化
MIC>MDC
の場合
MDC>MIC
の場合

論文例：緊張性尿失禁の女性患者における
PRAFAB質問票の最小限の重要な変化
（Hendriks et al., 2008, Neurourology and Urodynamics）
66
対象患者：緊張性尿失禁をもつ女性患者279名
PRAFAB質問票：失禁対策・量・頻度・活動支障度・自己イメージの５
項目４件法，高いほど重症，ベースラインと12週後に測定
方法：アンカーとしてGRSで１２週後の改善度を調べた。中等度改善
以上は「重要な改善」とし、軽度改善から軽度悪化は、「変化なし」
とした。MICの推定のために、ROC曲線のカットオフを使用した。
＜結果＞MICはベースラインの高さに
よって変化するので，ベースラインの重
症度で２群にわけてMICを算出した。そ
の結果、重症度群MICROC=4.0，軽症群
MICROC=2.0となった。

PROMIS
• Patient-Reported Outcomes Measurement
Information System (PROMIS)は、2004年末にNIH主
導で開始したプロジェクト。
＜目的＞
①患者報告式アウトカム尺度(PRO)の作成と運用に関
する方法論の整備
②有用なPROの項目バンクの作成
③PROを運用するソフトウェアの開発
→項目反応理論を用いて、幅広い疾患に使え、精度
の高い尺度を低コストで運用！

PROMISのドメインの枠組み：成人(18歳以上)
身体的健康
PROMIS 成人用自己報告式健康尺度
身体的機能
痛みの強さ
痛みによる生活障害
疲労
睡眠障害
包括的健康
うつ
不安
社会的役割や活動に
参加する能力
疼痛顕示行動
痛みの質
睡眠関連障害
性的機能
胃腸症状
呼吸困難
怒り
認知機能
アルコール使用、結
果、期待
心理学的疾患のイン
パクト
自己効力感
喫煙
社会的役割や活動へ
の満足
社会的サポート
社会的孤立
交友関係
精神的健康社会的健康
PROMISのプ
ロフィールド
メイン
PROMISの追
加ドメイン
自己報告式の健康情報の特定のドメインに関する項
目バンクを開発する。

身体的健康
PROMIS 小児用自己・代理人報告式健康尺度
可動性
上肢機能
痛みによる生活障害
疲労
包括的健康
うつ
不安
仲間関係
ぜんそくの影響
疼痛顕示行動
痛みの質
身体的活動
身体的ストレス経験
体力の影響
怒り
生活満足
意味と目的
ポジティブ感情
心理学的ストレス経
験
認知機能
家族への所属感
家族関与
精神的健康社会的健康
PROMISのプロ
フィール領域
PROMISの追
加領域
PROMISのドメインの枠組み：小児(8~17歳)と保
護者・代理人(5~17歳)

胃痛の項目バンク
項目バンクとは？
• 項目バンクとは、１つのドメインを測定する項目をた
くさん集めたもの。
• 項目バンクには、信頼性や妥当性などの尺度特性
を検討した項目が入る。
0 50 100
項目1 項目2 項目3 項目4 項目5 項目6 項目7 項目8 項目9 項目10
「胃に軽い痛みを感じる」
「痛みで仕事や家事に集中できない」「痛みで寝たきりになっている」
弱強

項目バンクの作成と運用
①ターゲット
概念と概念モ
デルの定義
③項目プールの構
成
②項目の作成
④項目バン
クの性質の
決定
項目バンク
⑤検査形式
⑥妥当性
⑦信頼性
⑧解釈可能性
⑨翻訳と文化適合
Pjk (q) =
1
1+exp(-aj (q -bjk ))
＜質問紙の運用＞
① 短縮版
② プロフィール版
③ コンピュータ適応テスト版
項目反応理論

項目バンクと項目反応理論
• 項目への回答は、項目の特性（困難度や識別力）と
参加者の特性によって決まる。
• 項目反応理論では、項目の特性と参加者の特性を
別々に推定できるので、項目バンクが作成できる。
胃痛の項目バンク
0 50 100
項目1 項目2 項目3 項目4 項目5 項目6 項目7 項目8 項目9 項目10
「胃に軽い痛みを感じる」
「痛みで仕事や家事に集中できない」「痛みで寝たきりになっている」
YES? YES No YES No No
易難

項目バンク作成と「その先」
項目バンクから、①短縮版質問紙、②プロフィール版質問
紙(複数のドメインのプロフィール)、③コンピュータ適応型テ
ストを作成して運用できる。
＜コンピュータ適応型テスト＞
回答者の反応に合わせて、絞
り込みをかけるようにして質問
項目を呈示
→CAT(Computerized adaptive
test)を可能にするには、様々な
項目を含んだ項目バンクが必
要になる。
3
2
1
0
-1
-2
-3
2
1
0
1
0
質問1: 範囲広い/精度低い
質問2: 範囲狭
い/精度高い
質問3: さらに範囲
狭い/精度高い

「その先」は始まっている
• PROMISと連動したプロジェクトのAssessment Center
(https://www.assessmentcenter.net/)では、NIHの助
成を受けた研究者を対象に項目バンクを活用する
ウェブベースのツールを提供している。

Take Home Message
• 当事者を意識した尺度作成をする。
• 患者報告式アウトカム尺度の利用と作成に関して
は、COSMINチェックリストを活用する。
• 信頼性は、内的一貫性だけでなく、再検査信頼性や
測定誤差も検討する。
• 妥当性(構造、仮説検証、基準)は、事前に明確な仮
説を設定したうえで、仮説を検証するようにする。
• 反応性や解釈可能性も検討して、臨床で使い易い
尺度にする。
• PROMISのような項目バンク作成の取り組みも今後
は行われることが望まれる。

推薦文献とサイト
• COSMIN(http://www.cosmin.nl/)
• 『Practical Guides to Biostatistics and Epidemiology
-Measurement in medicine-』, Henrica CW et al.,
Cambridge
• PROMIS(http://www.nihpromis.org/)
77

患者報告式尺度の開発方法

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 患者報告式尺度の開発方法

Similar to 患者報告式尺度の開発方法 (20)

More from Senshu University

More from Senshu University (8)

患者報告式尺度の開発方法

Editor's Notes