草稿 総論:尺度の分類とその機能、尺度として認めるために必要な特性、使うべき場面と実際の使用法

ここには100以上の尺度がある。認知行動療法(Cognitive Behavior Therapy, 以下CBT)の強みは生産性である。新たな構成概念を生み出してはそれに合わせた尺度を作って測定可能にし、研究対象とする。他の領域で生まれた尺度を組み込むこともたやすい。ここにある尺度の大半はそうした構成概念の測定と精神疾患診断・問題行動分類、重症度判定の目的でつくられたものである。一方、行動療法の伝統は外部から観察可能な行動にフォーカスしようとする。世間の誰もが知っている“自閉症”概念であっても、そのままでは受け入れない。自明に見える概念であっても細かな行動上の特性としてアセスメントしようとする。さらに行動が出現する原因を脳の異常には求めず、できる限り環境刺激とのやりとりの中で理解しようとする。従って行動アセスメントには環境刺激をコントロールしながら観察を反復することが必要であり、反復のためには同じ行動には同じデータを出せるようにする評価者トレーニングが必須になる。

尺度の分類

尺度は出自に基づいて次の3つにわけることができる。
1. CBTの中から生じた構成概念を測定しようとするもの
FSSやFNE、価値観の尺度などである。恐怖症関連が多いのはCBTの臨床応用の最初が恐怖症だったことを反映している。
2. 精神疾患診断・問題行動分類、重症度判定のために作られたもの
Diagnostic and Statistical Manual of Mental Disorders(以下DSM、精神障害の診断と統計マニュアル)に基づいて開発されたものが代表的である。統合失調症や気分障害の重症度尺度の大半は薬物の効果判定の必要性に迫られた薬物療法開発者が作っている。
3. 行動アセスメント
機能分析、行動観察が代表的である。うつ病や認知症などの重症度判定の中には行動観察が含まれている。ことばが通じないほど重症な場合でも行動アセスメントなら可能である。
尺度のとり方でも分類できる。
1. 自記式 所定の質問紙を用意し、対象者が一人で回答できるようにしたものである。大勢に同時に行うこともできる。尺度を利用する側としては最も簡便かつ効率的に大量のデータを収集できる方法である。尺度開発も容易であり、統計解析手法も日々進化し、結果として種類も豊富である。ITを活用して、結果の即時フィードバックとデータ収集の自動化を果たしたものもある。字が読めない小児などを対象としたものを除いて、スクリーニングテストの大半は自記式である。たいていのものが不安や自信のような構成概念を測定しているが、セルフモニタリングのように対象者が自分の行動観察・行動記録をするものもある。臨床場面では複数の自記式をまとめてテストバッテリーとしていることが多い。
2. 面接式 対象者と評価者が一対一で面接し、評価するものである。評価者が行う質問が定式化されている事が多く、この場合は半構造化面接と呼ぶ。精神疾患の診断面接、重症度判定の大半がこの中に含まれる。本来は面接式であったものが、利用する側の手間を省くために自記式に転用されている場合がある。名前は同じでも尺度としては別物になる。
3. 行動観察 自然観察法と独立変数と従属変数を特定し、実験的な操作を加える実験観察法がある。これにもITが活用されている。録音・録画はオープンリールテープの時代から行われているが、今はモバイルデバイスに置き換えられている。生理的指標を使った測定もこの中に含めることができる。電気皮膚反応(Galvanic Skin Response,GSR)のように昔からある方法もあれば、fMRI(functional Magnetic Resonance Imaging)のように認知的課題を処理している間に起こる中枢神経の活動を視覚化することもできる。さらに談話分析のように大量の言語データを処理することも可能である。
尺度を利用する側も分けることができる。どのような尺度が適しているのかはそれぞれの立場によって異なる。
1. 尺度自体の研究開発を目指す研究者
まったく新しい疾患・問題というのは今日見当たらない。既存の尺度の中で頻用されているものと開発を目指す新規尺度による測定を並行して行い、信頼性・妥当性の検討をする。
2. 他の目的のために既存の尺度を利用しようとする研究者
新規治療法開発を目指す研究者が当てはまる。たいていは先行研究で頻用されている既存の尺度を利用する。医薬品開発の場合は規制当局から特定の尺度の利用を指定されることが普通である。アクセプタンスのように治療プロセスの中で新しい構成概念を必要とする場合は新規に尺度を開発することになる。
3. 治療者としてのスキルを高めようとする臨床家
新規開発することはまずなく、先行研究で頻用されている既存の尺度を利用する。臨床的な必要から面接式を自記式に転用してしまうことも多い。

本書は患者/家族のようなエンドユーザー、社会保険診療報酬支払基金のような医療費支払い者を対象とした本ではない。しかし、認知行動療法が社会で果たすべき役割が拡大していることを考えると、パフォーマンス指標として使える尺度も本書の中で取り上げる必要があるだろう。良い治療者を探している患者、診療報酬を払うべきかどうかを知りたい支払い者も尺度を利用する側にいる。

使える尺度

尺度は比較のために存在している。今まで使われた対象が1人だけ、1回だけしか使われていない尺度があるとすれば、その尺度がどれだけ完璧であったとしても比較対象がないから利用価値がない。
逆に対象が何万人、何万回と使われている尺度であり、データが公開されているなら、その尺度には利用価値があるだろう。使える尺度には他に次のような特性がある。
1. 信頼性が高い
これは同じ条件で同じ測定を繰り返した時に,一貫して同じ値が得られる程度である。代表的な指標として信頼性係数があり、再検査法や平行検査法、折半法、内的整合性、分散分析などによって推定できる。クロンバックのアルファ係数などがある。
2. 妥当性が高い
2つの妥当性がある。内容的妥当性は尺度が測定できるとしている構成概念や特性を正しく言葉通りに測定できている程度である。翻訳された尺度の場合には翻訳自体の妥当性のチェックが必要になる。開発者とは独立した翻訳者が訳したものと比較したり、日本語から元の言語に訳し戻した(バックトランスレーション)ものと元の尺度を比較したりする方法がある。多項目からなる自記式尺度の場合には並行して行った他の尺度との相関関係や因子構造、パス解析などにより構成概念妥当性が評価される。基準関連妥当性はその尺度が他の独立した尺度、外的基準と相関することである。自記式スクリ―ニングテストの結果が十分な訓練を受けた評価者による精神科診断と一致するなら基準関連妥当性が高い。また、その結果が1年後の治療転帰と高い相関を示すなら、予測的妥当性が高い。
妥当性が高い尺度は信頼性も高い。逆は真ではない。信頼性は高いが妥当性は低いものがある。
3. 疫学データがある
古くから広く使われている尺度にはデータの蓄積がある。年代・性別による標準データがあり(ベンチマーク)、臨床家がもつ手元のデータと比較できる。解釈もたやすい。全世界での疫学調査に使われている診断基準の場合は各地域での有病率のデータが入手できるものがある。面接診断と並行して開発された自記式尺度の場合は面接診断と並行して開発された尺度の場合はReceiver Operating Characteristic(ROC、受信者操作特性)などを利用して、陽性適中率・陰性適中率、感度・特異度が明確になっているものがある。逆に使えない尺度の場合には健康な心理学部大学生のデータしかない。

尺度を使える利用者と使えない利用者

使えない利用者は閾値を気にして、たとえばBDIであれば何点以上ならうつ病かどうかを知ろうとする。私たちに入手可能なデータの大半は欧米の疫学データであり、そのデータがいくら完璧であっても目の前の患者におけるスクリ―ニングに使えるかどうかわからない。正しい閾値があったとしても年齢・時期によって異なる。たとえば高血圧と診断するための血圧の閾値は年齢によって違う。
うつ病を対象にした自記式尺度はスクリーニングテストとして使えるが、偽陽性も多いことでよく知られている。たとえばうつ病の患者の8割には不眠がある。不眠があればうつ病と診断したくなるが、実は不眠を訴えることが多いのは不安症や統合失調症もそうである。ある症状を示す割合が患者全体でどのぐらいなのか(Base Rate,基準率)を頭に入れておかないと基準率の誤謬に陥ることになる。
自記式は簡便に大量のデータを入手できるのでこれに頼りがちな利用者も多い。しかし、自記式でも面接でも測定する行動自体が環境刺激である。うつ病が疑われる患者に対して30ページもある自記式を1時間過ぎても書かせている治療者と、自記式に記入する様子を行動観察し、反応速度の遅延からうつ病と診断して途中で記入を打ち切らせる治療者のどちらが尺度を上手に使えているか考えて欲しい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA