弗林德斯大学研究人员指出,能够匹配或超越医生在文本诊断任务上表现的人工智能模型,其价值评判应更侧重于在真实医疗场景中如何安全改善患者结果,而非仅依赖基准测试或演示。
弗林德斯大学临床癌症流行病学实验室博士候选人埃里克·科内利瑟和副教授阿什利·霍普金斯在《科学》期刊发表的评论中,分析了新证据显示推理模型已接近医生级别的临床推理能力。该评论基于《科学》杂志一项最新研究——该研究证实推理模型在包括临床病例摘要和真实急诊科案例的文本诊断任务中,表现达到甚至超过医生水平。
科内利瑟和霍普金斯认为,这些发现将问题焦点从"人工智能能否执行医疗推理"转向"医疗系统应如何证明此类工具可在临床工作流程中安全使用"。他们强调,"当前医疗领域人工智能的主流定位并非替代医生,而是协作——由临床医生提供监督、情境判断和责任承担"。但这种协作必须经过严格测试,包括通过对比评估人工智能独立工作、医生独立工作以及医生使用人工智能三种模式,以确定"人工智能何时提升诊疗质量、何时不能"。
作者指出,随着临床医生已在正式评估、机构监管或明确治理机制建立前就使用人工智能工具,这种评估框架变得尤为紧迫。他们主张,通过医学考试、在结构化评估中表现优异或在特定任务中达到高准确率,不足以作为人工智能临床应用的依据。真实世界有效性和患者结果才是检验人工智能在医疗中实用性的真正标准。
"无论应用场景如何,临床实践的使用基准不能是模拟性能,而必须是真实应用中的改善效果,理想情况下应通过随机对照试验加以验证。"评论同时警示,诊断准确率仅是临床准备度的一部分,"医疗人工智能还必须提供公平、具有成本效益且安全的结果,并得到责任机制、透明度和持续监测的支持。"
科内利瑟和霍普金斯以面向消费者的健康人工智能工具为例发出警告,指出那些并非为临床分诊设计的工具,仍可能在缺乏使用范围清晰界定或足够安全保障的情况下回应分诊类问题。随着人工智能模型发展为多模态系统,能够处理文本、图像、音频和视频,作者认为评估必须更贴近真实临床实践——在此场景中诊断不仅依赖书面案例摘要。
"若无法充分证明有效性、公平性和安全性,许多人工智能系统将难以满足临床使用要求。"作者警告道。
澳大利亚与新西兰政府正逐步推进公共医疗领域人工智能治理框架和实施模式的规范化。澳大利亚数字健康署近期成立了国家数字健康临床治理委员会,为政府提供人工智能及其他新兴数字健康技术安全应用的咨询建议。在新西兰,新西兰健康局正借鉴毛利人健康服务机构的模式,在公共医疗系统中推行以毛利人需求为中心的人工智能实施方法。
【全文结束】

