你感到喉咙后部那种熟悉的刺痛感。你喝了一口水,疼得厉害。你试图清嗓子,刺痛依旧存在。于是,像数百万其他人一样,你拿出手机开始搜索症状。
最初只是简单地搜索“喉咙痛”,很快便演变成一场信息过载的漩涡。现在你在阅读关于癌症、免疫疾病和罕见感染的信息。恐慌随之而来。听起来很熟悉吧?
这正是AI可以提供帮助的地方。像ChatGPT这样的工具能够快速给出深思熟虑的答案,而且大多数情况下还是免费的。事实上,牛津大学最近的一项研究发现,大型语言模型在94.9%的情况下能够正确诊断医疗案例,这一准确率甚至高于许多医生。
然而,当人们用同样的工具处理相同的病例时,他们的准确率却骤降至34.5%。事实证明,在性能方面,限制因素并非AI,而是我们人类可能实际上阻碍了AI发挥其全部潜力。
研究概况
这项由Adam Mahdi博士领导的牛津大学研究招募了近1300名参与者,并给他们布置了一个简单的任务:扮演患者角色。每位参与者都收到了一个详细的案例情景,包括症状、病史和个人背景等信息。例如刚刚完成考试或低头时感到疼痛。目的是观察普通人如何利用AI来判断问题所在并决定寻求何种护理。
他们被告知要把AI当作真正的医生对待——提问、描述症状并获取帮助。每位参与者至少需要与模型互动一次,但如果需要更多信息,他们也可以自由提出后续问题或再次尝试。研究人员在这项实验中使用了三种不同的LLM:ChatGPT-4o、Llama 3和Command R+。
同时,一组医生对每个案例达成了正确的诊断共识,并确定了适当的护理水平。研究人员已经知道正确的行动是待在家中还是拨打急救电话。测试的关键在于人类和AI能否共同达成正确的结果。
聪明的AI,糟糕的结果:人为错误?
可以把AI想象成一位完美的员工。它能够处理大量数据、精确执行指令并在几秒钟内提供答案。但假如配上一个糟糕的管理者,一切都会崩溃。模糊的指示、不明确的目标以及未充分利用的能力都会导致令人失望的结果。这就是很多人在使用AI时发生的情况。
试想一下,你的老板让你去拿杯咖啡,却没有说明要哪种。你带回一杯热黑咖啡,结果他们抱怨说想要一杯加两泵香草的冰燕麦拿铁。从技术上讲,你完成了任务。但没有恰当的指示,你根本无法交付他们真正想要的东西。
人们普遍认为这些工具“懂我”,就像了解你的好友能替你接话一样。但AI不是你最好的朋友。它无法读懂你的语气或猜测你的意思。如果你不给它确切所需的信息,就得不到正确的输出。
这种断层在牛津大学的研究中表现得非常明显。研究人员发现,使用LLM的参与者仅在34.5%的情况下识别出至少一个相关病症。而不使用AI的对照组表现稍好,达到47%。而在选择正确的行动方案时,LLM用户的正确率为44.2%,而AI模型在独自决策时正确率达到56.3%。
那么问题出在哪里?参与者提供了不完整或模糊的提示。有些人忘记提到关键症状,另一些人忽略了严重程度或时间因素。结果,模型误读了输入或遗漏了重要线索。即使AI给出了正确的诊断,用户也并不总是跟进。这部分并不是机器独有的问题。人们也会忽视医生的建议。症状缓解后抗生素疗程未完成,或者跳过医嘱。
有趣的是,一些AI工具已经在实际医疗工作流程中获得了认可。例如,OpenEvidence正被医生用来搜索和验证临床文献。它并非试图取代医生,而是增强他们的能力。区别在于设计:这类工具支持那些已经知道如何筛选、解读并采取行动的专业人士。这与将同一系统交给未经培训的患者并期望获得相同结果有很大不同。
人机诊断瓶颈
根据文艺复兴计算研究所用户体验专家Nathalie Volkheimer的说法,患者与医生互动时的一个问题是,某些病情或引发病情的事件可能令人尴尬。因此人们有时会省略重要细节。
但当对方是一台没有判断力或情感的机器时,理论上人们应该更愿意分享所有信息。然而事实并非如此。
这突显了研究暴露的一个关键缺陷。问题不在于AI模型不够聪明,而是人类仍在学习如何与它们沟通。正如Volkheimer所说,问题不在于机器本身,而在于人类与技术之间的互动。
这也揭示了我们评估AI方式的一个更深层次缺陷。LLM可以轻松通过医学考试或法律测试。这并不奇怪。它们接受过海量数据集训练并拥有正确信息的访问权限。但这些测试无法反映真实人类的说话、思考或提问方式。
即使是训练数据也有其局限性。正如一篇医学评论指出,许多模型所基于的数据集并未反映现实世界的多样性或罕见边缘情况。在医学领域,错过这些异常值可能意味着漏诊危及生命的疾病。这就是为什么教科书考试上的表现并不总能转化为混乱临床环境中的成功。
如果一家公司想构建一个AI聊天机器人来取代客户服务代表,不能仅仅测试机器人是否知道正确答案。它需要针对人们实际说话方式的杂乱无章和不一致性进行训练。人们可以用十几种不同的方式表达询问产品价格这样简单的问题。如果模型无法识别所有这些方式,它就无法提供客户所需的答案。
更智能的AI需要更聪明的人类
如果说这项研究清楚地表明了一件事,那就是原始智力并不是问题。AI可以获得正确答案,而且往往能做到。问题出现在我们介入的时候——当我们给出糟糕的提示、遗漏关键细节或忽略不想听到的答案时。
这不仅限于医疗保健领域。无论是客户服务聊天机器人、法律助理还是AI辅导系统,同样的模式适用。模型并没有在任务中失败,而是我们在界面中失败了。
很容易被令人印象深刻的基准分数和高准确度冲昏头脑。但一个通过考试的AI并不一定知道如何帮助困惑、不知所措或含糊其辞的人类。直到我们开始设计和测试这些系统时充分考虑杂乱的人类行为,我们才会不断高估它们在现实世界中的实用性。
当看到成功的AI系统时,这种对比变得更加明显。约翰·霍普金斯大学的研究人员部署了一种AI工具,该工具比传统方法提前近6小时检测出败血症,并将患者死亡率降低了20%。区别何在?该系统直接嵌入医院工作流程,并依赖实时临床数据,而不仅仅是患者提示。这表明,只要考虑到使用它的人类,AI可以在适当的设计和背景下发挥作用。
所以,下次你喉咙痛并想问聊天机器人这意味着什么时,请记住,获得一个好的答案取决于提出一个好的问题。模型不是瓶颈,我们才是。而这正是我们需要修复的部分。
(全文结束)


