Dunne D, Gielissen K, Slade M, Park YS, Green M. WBAs in UME-How Many Are Needed? A Reliability Analysis of 5 AAMC Core EPAs Implemented in the Internal Medicine Clerkship. J Gen Intern Med. 2021 Sep 24. doi: 10.1007/s11606-021-07151-3. Epub ahead of print. PMID: 34561828.
https://link.springer.com/article/10.1007%2Fs11606-021-07151-3
医学教育の話です。
EPA、WPBA、G理論、D理論は既知のものとさせてください。すみません。
EPAをもちいて実際にWPBAを行う際に、妥当な評価ができるのか、という問題は、今でも様々な研究がなされています。それだけ難しいことなのだと思います。
この研究では、8週間の内科実習で,指導医が5つの中核的なEPAについて修正オタワスケールを用いてその場限りの委託の決定(ad hoc entrustment decisions)を記録しました。
G理論でスコアの信頼性を推定し、学生・特定のEPA・評価者のタイプ(主治医と研修医)、症例の複雑さなどの要素に起因する分散の割合を算出しています
また、D理論で信頼性を決定しています。
94 名の学生、5 つの EPA に対して合計 1368 件の評価が行われた.人に起因する分散(真の分散)はすべての EPA で高く、信頼性指数 0.7 に達するために必要な推定観測数は、ケースの複雑さに敏感な EPA5 を除くすべての EPA で 9~11 の範囲となりました。
つまりこれは、EPAを用いたWPBAを高い信頼性をもって行うには、1人の研修医、1つのEPAに対し、9-11回の観察が必要であるということです。めっちゃ大変ですね。
このような研究をみると、Workplace Based Assessmentを総括的評価に使うのは難しいよなと思ってしまいます。いかに有意義なフィードバックをするかに振り切るという妥協案もありますが、それでもある程度の評価の妥当性は必要なわけで。
WPBAって、ちゃんとした教育施設では昔から現場で行われていて、一定の効果はあったのだと思います。しかし、EPAを作成して評価者を訓練して評価の妥当性を検証して…とやると、とてもじゃないけど実現不可能なものになってしまいます。
マザーグースに、たくさん足があるのにどうやって歩いているのか尋ねられたムカデが歩けなくなるという話がありますが、そんな印象を受けています。