作为一名曾在印度、马来西亚和目前在澳大利亚工作的医学研究科学家,我亲眼见证了评估考试对医疗专业人员的重要性。医学、药学、牙科以及其他所有医疗领域的职业都是高风险的职业,执照和等效考试的公正性直接影响到该国数百万人的医疗质量。但传统的考试方法真的能评估出候选人的能力吗?
让我们简要回顾一下传统评估方法。通常情况下,所有问题的权重相同。有些学生倾向于选择并回答较简单的问题以达到及格分数。即使考试为得分较高的学生提供了机会,两个最终得分相同的考生可能具有截然不同的能力水平。另一个紧迫的问题是,这些问题不会根据学生的技能实时调整,这限制了评估真正熟练程度的效率。
那么有什么替代方案呢?
使用RASCH方法和自适应AI的高级心理测量测试是一个很好的替代方案。这种方法已经在一些基本形式中得到应用,例如在澳大利亚医学委员会(AMC)针对国际医学毕业生(IMG)的考试以及海外药剂师准备评估(OPRA)中。这两种执照考试分别确定国际培训的医生和药剂师的能力,以确保他们具备在澳大利亚先进医疗生态系统中执业的知识和技能。
什么是RASCH方法?
RASCH方法是由丹麦数学家Georg Rasch开发的一种用于分析分类数据的高级心理测量模型。
以AMC考试为例,该考试采用计算机自适应测试(CAT)格式,每位考生根据其技能水平接收定制的问题。每次测试都从一个经过校准的问题库中建模,并为考试定义了一个及格分数或通过百分比,这与参加考试的人数及其相对技能水平无关。
它是这样工作的
对于所有考生,第一个问题是从公共题库中随机选择的。如果回答正确,下一个问题将更难;如果回答错误,后续问题将更容易。这个过程一直持续到最后一个问题。每回答一个问题,计算机都会计算到目前为止的得分或能力估计值。这是累积的,随着回答的问题越多,能力估计值的精度越高。在传统方法中,有些问题对大多数考生来说太容易或太难,但在这种方法中,由于问题来自校准过的题库,它们是根据个人的知识和技能来选择的。
有趣的是,与传统评估方法不同,正确答案的数量并不决定分数和能力。有些人可能会逐步尝试更难的问题,而有些人则会基于之前的(正确或错误)答案尝试较容易的问题。因此,在AMC评分表上,尝试了更多难题且答对较少的人的得分可能会高于答对更多简单题的人。
与自适应AI的整合
这些使用RASCH方法的评估方法越来越多地与自适应AI结合,以确保对候选人能力的评估更加精确,并对其优缺点有更深入的理解。在这种方法中,最终分数将真实反映候选人的知识水平和解决问题的能力。
印度医疗教育中的挑战与机遇
每年从印度毕业的医疗专业人员数量众多。他们是其中最聪明的人才,但传统的评估系统并不能充分展示他们的能力。他们还发现基于RASCH方法的海外执照考试具有挑战性,因为他们没有接受过这种训练。
作为指导大量希望在全球建立职业生涯的印度医疗专业人员的人,我发现障碍并不是缺乏知识,而是奖励死记硬背而不是批判性思维的方法。
如果我们采用基于AI自适应的RASCH评估方法,将会带来更可靠的考试,评估整体能力,培养更好的劳动力(因为评估更公平),提高患者安全,提升医疗标准,并最终增加全球认可度。
然而,实施RASCH方法的最大挑战在于基础设施限制,因为自适应测试要求考试机构拥有强大的数字生态系统,而这在现阶段还处于非常初级的阶段。另一个挑战是从传统系统过渡到更先进的心理测量系统需要对进行评估的机构进行广泛的培训。
解决这一挑战的方案可以是:
- 在选定的机构中引入试点项目,以了解这种方法的实际优势。
- 与教育技术公司合作,加速实施,因为它们可能具备自适应AI测试所需的专门技术。
世界正朝着更公平、更智能的考试系统发展,尤其是在医疗领域。鉴于我在这一领域工作了很长时间,我相信向RASCH方法和自适应AI测试转变,特别是在印度的医疗教育中,不仅是可取的,而且是必要的,我们必须拥抱这一变化,以跟上世界的步伐。
(全文结束)


