尽管谷歌的AI可能不再建议人们"吃石头"或自信地告诉用户"在披萨上涂胶水",但即使是尖端的AI聊天机器人在提供医疗建议方面仍显得极其不称职。
本周发表在《JAMA Network Open》期刊上的一项新研究中,研究人员让21款前沿大型语言模型(LLMs)在面对真实患者可能提出的症状时"扮演医生"。
结果令人震惊。当面对可能匹配多种疾病的模糊症状时,AI的错误率超过80%;而对于包含体格检查结果和实验室检测结果的更明确病例,它们仍有40%的错误率。研究人员还发现,与人类临床医生不同,"LLMs过早地收敛到单一答案上",导致"所有模型表现都较弱"。
"尽管不断改进,现成的大型语言模型尚未准备好用于无监督的临床级部署,"该研究通讯作者、麻省总医院创新与商业化副主席Marc Succi在一份声明中表示。"鉴别诊断是临床推理的核心,也是AI目前无法复制的'医学艺术'基础,"他补充道。
在现实世界中,当AI在未获得完整信息的情况下仓促得出结论,可能会带来灾难性后果。例如,如果有人向聊天机器人询问皮疹或突发咳嗽的情况,他们可能会得到误导性信息和潜在危险的建议。
这些结果凸显了依赖AI获取生死攸关的健康建议的重大风险,这一令人担忧的趋势已在全国范围内显现。西健康-盖洛普美国医疗中心最近的一项调查显示,四分之一的美国成年人——相当于6600万人——已经开始向ChatGPT和其他类似聊天机器人寻求医疗建议。
受访者通常表示,他们在看医疗保健专业人士前后都在寻求信息。在许多情况下,他们在与聊天机器人交谈后完全放弃了寻求现实世界的医疗帮助。在那些向AI寻求健康建议的人中,14%——相当于超过900万美国人——表示他们从未去看原本会去的医疗服务提供者。
根据该调查,27%的人表示不想为看医生付费是咨询AI的原因,而14%的人表示他们无法负担。一些参与者表示他们没有时间或能力去看医生。
"人工智能已经在重塑美国人寻求健康信息、做决策和与医疗服务提供者互动的方式,医疗系统必须跟上步伐,"西健康政策中心主席Tim Lash在一份声明中表示。
综合来看,这两项研究描绘了美国当前医疗保健格局的严峻图景。数百万美国人不仅严重依赖AI工具,还经常被产生幻觉的LLMs提供错误建议——并选择不向知识更为丰富的专业人士寻求帮助。
专家们已对AI提供不良医疗建议的行为提出了大量批评,从谷歌AI概览提供危险的不准确或脱离上下文的信息,到医生使用的转录工具"编造不存在的药物"。
即使它们提供的信息是错误的,AI仍给患者一种确定感。最新调查中近一半的受访者表示,与聊天机器人讨论医疗问题使他们在与医疗服务提供者交谈时感觉更加自信,22%的人表示这帮助他们更早发现问题,19%的人表示这使他们避免了不必要的检查或程序。
与此同时,许多美国人对AI的医疗建议仍持高度怀疑态度。大约三分之一表示他们就健康问题咨询AI的参与者表示不信任该工具。十分之一的受访者表示AI给了他们潜在不安全的建议。
有一点是肯定的:AI行业迫切需要监管监督。
更多关于AI和医疗建议的内容:《前沿AI模型在被要求诊断医学X光片时表现异常》
【全文结束】

