一款人工智能(AI)工具在医学生申请住院医师职位时报告了不准确的成绩,引发了学生和AI学者的担忧。
9月下旬,协助住院医师申请审核和筛选的人工智能技术"塔勒姆 Cortex"(Thalamus Cortex)错误地将部分学生成绩单中的分数转移到一个突出显示申请人关键信息和特征的摘要页面上。
塔勒姆(Thalamus)首席执行官杰森·雷米尼克(Jason Reminick, 医学博士、工商管理硕士、理学硕士)向《Medscape医学新闻》表示,受影响的学生数量很少,提取的成绩中不到0.7%不准确。他在一篇博文中指出,塔勒姆"本季收到的4000多条客户咨询中,仅有10条报告了不准确信息"。
医疗AI专家表示,这一事件凸显了使用AI做高风险决策的隐患。
"这就是这类系统的风险。在AI领域,所有语言模型都会产生幻觉。这是无法避免的,"波士顿贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)卡尔·J·夏皮罗教育与研究学院的内科医生兼AI项目主任亚当·罗德曼(Adam Rodman)表示。
雷米尼克在博文中解释,错误成绩的出现并非由于"AI幻觉",而是光学字符识别的差异所致。他指出,约10%的住院医师项目今年使用塔勒姆来评估候选人。
惊慌的学生
多位四年级医学生向《Medscape医学新闻》透露,他们因担心AI工具报告的分数低于实际成绩而陷入恐慌。
"对医学生来说,这已经是一个相当艰难的过程。现在你在心里不断怀疑,'我是不是因为成绩单出错而失去了那次面试机会?'虽然比例很小,但如果你无法确定自己是否受影响,就会给所有人带来巨大焦虑,"一位新泽西州的四年级医学生表示。由于担心遭到报复,《Medscape医学新闻》未透露该学生姓名。
这位申请了50多个住院医师项目的四年级学生称,他未收到塔勒姆关于此问题的直接通知。塔勒姆于10月6日发布事件首篇博文,部分医学生表示这是他们首次获悉该问题。
该新泽西学生透露,他的医学院和一位住院医师项目主任提醒他注意成绩差异。项目主任告知该学生,他们发现下载成绩单上的分数与塔勒姆系统列出的分数不符,并已通知其所在医学院。
雷米尼克强调,本季从住院医师申请中提取并转移至塔勒姆的关键数据准确率超过99%,并坚称学生的住院医师项目录取决定不应受此故障影响。
"受影响的学生数量极其有限,"雷米尼克表示,"迄今为止,我们未发现任何教职员工曾将单个不准确分数作为任何学生录取的决定性因素。"
不准确性的风险
兼具医学专家和AI研究者身份的医生向《Medscape医学新闻》指出,若未达到高准确性和透明度标准,使用AI评估住院医师申请可能存在重大风险。
"在住院医师选拔这样高风险的领域,我认为这种具有非零错误率的技术不应被采用,"罗德曼警告道。
他进一步解释,若AI软件错误提取的信息从未被纠正,学生可能因此错失住院医师面试机会。
"任何AI工具的使用若未经充分验证都可能存在隐患,"斯坦福大学医学院医院医学科临床助理教授、专注于临床环境生成式AI研究的希瓦姆·维达克(Shivam Vedak, 医学博士、工商管理硕士)表示。
维达克基于对塔勒姆Cortex模型及其技术说明博文的分析认为该系统"评估和整合相对完善",但他强调此类技术必须符合极高标准。
"问题关键在于透明度缺失,"维达克指出,"尤其对于AI这种具有实验性且颇具争议的技术,塔勒姆本应主动披露验证细节以消除学生顾虑,避免他们用可能存在的错误信息填补认知空白。"
AI已深度融入住院医师申请
代表美国医学院并管理住院医师申请系统的美国医学院协会(AAMC)于2023年首次与塔勒姆建立合作伙伴关系,旨在简化住院医师面试流程。
塔勒姆初始软件为日程安排平台,帮助学生和项目在统一系统中组织住院医师面试。雷米尼克将其比作"餐厅预订系统,但专用于申请人面试安排"。
AAMC住院医师和奖学金服务高级总监帕特里克·弗里茨(Patrick Fritz)解释:"当时各项目使用多种工具面试申请人,而申请人需在多个平台间协调所有面试。"
通过塔勒姆与AAMC合作,2025年申请周期首次向住院医师项目免费提供Cortex软件。
AAMC和塔勒姆表示曾举办公开网络研讨会帮助医学生和项目方了解Cortex软件,但多名学生坦言最初并不知晓项目方正在使用该工具。
"事后看来,许多学生希望更清晰地了解数据展示方式。我们向认为应加强沟通的人士致歉,"雷米尼克在塔勒姆网站10月16日的博文中写道。
他承诺将加速开发医学生门户,使学生能查看包含其住院医师申请AI摘要的Cortex页面,该功能预计在明年申请周期上线。
对AI需要更多问责
"项目主任和医学院招生院长每年需筛选数百甚至数千份申请,这些工作绝非易事——近乎西西弗斯式的徒劳,"斯坦福大学医师信息学家兼急诊医师董汉·姚(Dong-han Yao)指出,"但技术应用进程不会倒退。"
姚强调,医学院和住院医师项目必须要求AI工具开发商承担更严格责任。
"确保AI工具无害的责任应由公司和使用者共同承担,"他表示,"申请评估任务关乎重大,必须符合最高标准。"
维多利亚·奈特是华盛顿特区的自由记者。
【全文结束】


