診断・評価

診断・評価の大切さ

行動経済学者のダニエル・カーネマンが「ファースト&スロー」で「エキスパートの直感は信用できるか」を論じている。この中でエキスパートの直感を信用できるのは、そのエキスパートが次のような環境にいる場合だとしている。

  • 十分に予見可能な規則性を備えた環境であること。
  • 長期間にわたる訓練を通じてそうした規則性を学ぶ機会があること。

地震や国際政治のように規則性がないものに関してはどんなエキスパートであってもその人の直感を信じるわけには行かない。自分の判断は絶対だという人は「妥当性の錯覚」に陥っているだけである。精神医学の領域でいえば、うつ病患者の抗うつ薬への反応性は規則性がない良い例である。いままでありとあらゆる研究が行われてきたが、あるうつ病の患者が薬で治るかどうかを予測する方法はない。逆にいえばうつ病治療の環境にいるエキスパートは上記の条件を満たしていない。一方、救命救急や、私個人の領域である強迫症に対する行動療法の場合、置かれた環境は複雑ではあるが基本的に秩序がある。このような環境で長年磨かれたエキスパートの直感は正しいだろう。

予見可能な規則性を備えた環境が最初から明示的に存在する場合としない場合がある。救命救急の場面であれば生死という結果は明示的である。一方、精神医療の場合、結果が明示的なものはほとんどない。規則性を備えた環境を人為的に作るしかない。そのために必要なのが診断・評価である。

評価の導入が医療を大きく変えた例を1つあげよう。1960年ごろまで、産科医学において母体の生死は問題にされても、新生児の生死についてはこだわっていなかった。これを明示的に評価できる対象にしたVirginia Apgarの仕事を紹介する。

アプガースコアという例

この数十年間に医療が大きく進歩したことは誰も疑わない。平均寿命は30年以上長くなった。ではどんな医療がもっとも大きく進歩したのだろうか?産科を例にあげよう。1975年の周産期死亡率は出生1000人あたり16.0だったが2005年に3.3になった。30年間でほぼ1/5に減った。これは日本だけでなくすべての先進国で起こった変化である。なぜこのような劇的な変化が起こったのだろうか?

その答えはアプガースコアである。1953年、米国のVirginia Apgarが発表した、出生後1分,5分後に10点満点で新生児の状態を評価する技法である。点数が新生児死亡率と高い相関を示す疫学研究が続いた。世界中に普及し、アプガースコアを上げることが国を問わず産科全体の目標になった。

この30年間に新生児を救う画期的な技法や薬が発明されたわけではない。30年間にランダム化比較試験によって効果が証明された心理療法や薬を数えれば産科医学よりも精神医学の方がはるかに多い。しかし,新生児を救うための地道な一つ一つの工夫がアプガースコアという数字で誰の目にもはっきりとわかるようになったこと、データを共有し比較するようになったことが死亡率を減らした。世界共通の成績表ができたことで産科医がパフォーマンスの向上を競い合うようになったのである。

常識的な発想に従えば、エビデンスの裏付けがある新しい心理療法・薬の開発が治療成績の向上に必要だと考える。アセスメント技法の開発が治療成績の向上につながるとは思いつかない。アプガースコアの成功はそうした常識が偏見だと教えてくれる。
このスコアが産科医療を変える道具になった理由を後から考えると次のようになるだろう。5項目を0から2で評価し、合計点は最大10で集計がしやすい、項目を覚えやすい(Apgar自身はSkin color, Pulse rate, Reflex, Activity, Respiratoryの5項目にしていた。他の人がAppearance, Pulse, Grimace, Activity, Respirationに置き換え、Apgarの名前と結びつけた)。またアプガー自身は産科医ではなく麻酔科医である。まだまだ圧倒的に男性社会だった当時の米国医学界で、コロンビア大学医学部初の臨床教授になった女性でもある。このようなアウトサイダー性がこのスコアの普及に役立ったのかもしれない。

評価しやすく、覚えやすく、繰り返しやすいアセスメント技法は間違いが少ない。これは信頼性の基本である。そして実際の予測妥当性が繰り返し証明されればアセスメント技法としては成功したことになる。さらにそれが幅広く使われ、相互にデータを比較できるようになり、治療者がパフォーマンスの向上を競い合うようになれば開発者も考えていなかったような大成功ということになる。しかし、常識的発想は根強い。アセスメント技法の開発が治療成績の向上につながると信じる人は少なく、画期的な治療法に希望を託す人の方が圧倒的である。精神医療がなぜ産科医療にようになれないかと考えれば、常識的発想が強すぎるからといえるかもしれない。

精神医療の領域にはアセスメント技法が数多くある。中にはハミルトンうつ病評価尺度のように信頼性と妥当性がよく検討されたものもある。問題はアプガースコアほどの簡便さがないこと、そして、データを共有し比較しあえるようなところまでには届いていないことだろう。精神医療がパフォーマンスの向上を競い合っているのは精神科病院における入院日数、長期在院患者数ぐらいである。外来診療におけるパフォーマンス成績表として普及しているものはまだない。もしそのような時代がくれば、日本の精神医療も新生児死亡率の改善と並ぶようなものになるだろう。

診断評価が持つべき性質

認知行動療法(Cognitive Behavior Therapy, 以下CBT)をCBTらしくしているものの一つがアセスメントである。CBTの概念やモデル、技法は数えきれない。今後さらに新しい概念や技法がCBTの範疇に入れられるだろうから、概念・技法だけでCBTかどうかを判断することはできない。

一方、CBTの知見を専門家の前で発表するとき、聴衆が必ず尋ねるのは「データは?」である。CBTの基礎哲学は行動主義であり、それは内観に基づく主観的なデータの排除を主張する。治療者が「CBTが奏功したと思う」「効果のメカニズムは○○だと思う」としか言えないなら、それはCBTではない。患者には「客観的な見方を身につけよう」と指導しながら、自分自身は内観に基づく主観的な評価しか使わないなら不公平と言うしかない。このことは薬物療法にも当てはまる。

評価方法は誰にでもアクセスでき、再現可能な方法であるべきであり(透明性)、診断や予後、治療反応などの評価が持つ意味を説明できなければならない(説明責任)。投影法をCBTが使わないのは透明性と説明責任を担保できないからである。

診断・評価の目的は「データは?」という質問に対して答えられるようにすることである。実臨床における介入法の選択は事後の思い付きによることが多いだろう。治療が計画通りに進むことは例外的である。しかし、アセスメントは思い付きであってはならない。治療終了後とってつけたようにデータを取ることは治療者の思い入れを盛り込むのと同じだ。病気が治れば治療が良かったから、失敗すれば患者が悪かったからとしたくなるのは人間の性だが、事後のデータ収集は確証バイアスを強めるだけである。従って、治療でも研究でも事前のデータ収集計画が欠かせず、診断・評価方法を事前に習得していることは治療者になるための第一歩と言えるだろう。

診断評価にはさまざまな種類がある。SCIDのような事例の全体をアセスメントする方法、診断別・疾患別の尺度(症状プロフィール、重症度)、分野別・課題別の尺度が一般によく知られている。ある疾患に対してCBTや薬物療法のエビデンスがあるとは、その疾患の重症度の減少度が他の治療よりもCBTや特定の薬物療法の方が大きいことを意味している。治療の効果を説明するとき、どの尺度でそうなのかも説明できる方がよいだろう。治療者自身を評価する尺度、治療の副作用を評価する尺度もある。治療者自身もまたCBTの対象であり、評価の対象である。