一项研究考察了AI聊天机器人在医疗建议中的使用,发现依赖大型语言模型的用户在健康决策上并不优于依赖传统信息源的用户,且可能面临不准确和不一致的指导。
这项由牛津大学研究人员进行的随机研究涉及近1300名参与者,他们被要求评估医疗场景并决定适当行动步骤,例如看全科医生或前往医院。根据2月9日的研究结果新闻稿,使用大型语言模型(LLMs)的参与者在决策上并未比依赖网络搜索或自身判断的参与者表现更好。
研究人员表示,结果突显了大型语言模型在标准化医学知识测试中的强劲表现与它们在个人健康咨询中可靠性之间的差距。
研究确定了影响决策的几个挑战。参与者往往不知道该向模型提供什么信息,而模型对相似问题产生不同答案,并经常将准确指导与不良建议混合。因此,用户难以识别最安全的行动方案。
研究中使用的场景由医生开发,反映了常见但可能严重的情况,包括通宵后严重头痛和新妈妈持续呼吸困难。研究人员评估参与者是否正确识别可能的医疗问题并选择适当行动,如访问全科医生或前往急诊科。
研究还发现,当前对大型语言模型的评估方法未能捕捉现实世界使用的复杂性。研究人员表示,在基准测试中表现良好的模型在与人类用户交互时往往表现不佳。
牛津互联网研究所博士研究员、主要作者安德鲁·比恩在新闻稿中表示,研究结果指向在AI系统部署用于公共使用前需要更严格测试的必要性。
牛津互联网研究所副教授、资深作者亚当·马迪表示,仅依赖标准化测试不足以确定AI工具在医疗等高风险环境中的安全性。
该研究发表在《自然医学》期刊上,由牛津大学牛津互联网研究所和Nuffield初级保健健康科学系的研究人员进行,与MLCommons及其他机构合作。
【全文结束】

