人工智能聊天机器人未能改善医疗决策Medical decision-making not improved by AI chatbots - Scimex

环球医讯 / AI与医疗健康来源:www.scimex.org英国 - 英语2026-02-12 08:49:30 - 阅读时长2分钟 - 690字
最新研究发现,尽管大语言模型在医学执照考试中表现优异,但在辅助公众实际医疗决策时效果显著不足;英国1298名参与者使用GPT-4o等三种AI聊天机器人识别疾病(如普通感冒、贫血或胆结石)并选择行动方案(如呼叫救护车或全科医生)时,疾病识别准确率低于34.5%,正确决策率不足44.2%,与使用常规网络搜索的对照组无差异;研究指出当前大语言模型因用户交互中信息不完整及模型误导性输出等问题,尚未达到直接用于公共医疗建议的安全标准,未来工具需针对真实用户场景优化设计。(152字)
健康决策大语言模型LLMs医疗决策公众健康医疗建议医疗场景疾病识别行动方案患者护理
人工智能聊天机器人未能改善医疗决策

来自斯普林格·自然

医学:大语言模型可能无法改善公众医疗决策

《自然医学》发表的一项研究表明,大语言模型(LLMs)可能无法帮助公众在日常医疗情境中做出更优的健康决策。作者强调,在安全用于公共医疗建议前,未来工具必须经过专门设计以更好地支持真实用户。

全球医疗保健机构曾提议将LLMs作为潜在工具,以提升公众获取医学知识的便捷性,使个人能在寻求临床医生帮助前进行初步健康评估和管理病情。然而,先前研究指出,在受控环境中医学执照考试取得高分的LLMs,未必能在真实世界互动中成功应用。

亚当·马迪(Adam Mahdi)、亚当·比恩(Adam Bean)及其同事测试了LLMs能否协助公众准确认别医疗状况——例如普通感冒、贫血或胆结石——并选择行动方案,如呼叫救护车或联系全科医生。英国1298名参与者每人接受十个不同医疗场景测试,被随机分配使用三种LLMs之一(GPT-4o、Llama 3或Command R+)或常规资源(对照组),如互联网搜索引擎。

在无真人参与的测试中,LLMs表现优异:平均在94.9%的情况下正确识别疾病,并在56.3%的情况下选择正确行动方案。但当参与者实际使用相同LLMs时,相关疾病识别率降至34.5%以下,正确行动方案选择率不足44.2%,结果与对照组无显著差异。研究团队在30个案例的子集分析中手动检查人机互动,发现参与者常向模型提供不完整或错误信息,同时LLMs有时会生成误导性或错误输出。

作者总结指出,当前大语言模型尚未准备好用于直接患者护理,因为将LLMs与人类用户配对会引发现有基准测试和模拟互动无法预测的复杂挑战。

【全文结束】