多年来,新闻头条一直在大声疾呼:大型语言模型(LLMs)不仅可以通过医学执照考试,还能超越人类。GPT-4在2023年的“史前AI时代”就能以90%的正确率回答美国医学执照考试问题。自那时起,LLMs已经超越了参加这些考试的住院医师和执业医生。
谷歌医生让位给ChatGPT医生。但你可能希望从部署给患者的LLM那里得到的不仅仅是文凭。就像一个能背出每根手指骨头名称却在第一次见到真血时晕倒的优秀医学生一样,LLM在医学上的掌握并不总是直接转化为现实世界的应用。
牛津大学的研究人员发现,虽然LLMs在直接呈现测试场景时能够以94.9%的准确率识别相关疾病,但使用LLMs进行诊断的人类参与者识别正确疾病的准确率不到34.5%。
更值得注意的是,使用LLMs的患者表现甚至比仅被指示使用“他们通常在家使用的任何方法”进行自我诊断的对照组还要差。对照组识别正确疾病的可能性比使用LLM辅助的组高出76%。
这项牛津大学的研究引发了关于LLMs在医疗建议中的适用性以及我们用于评估各种应用中聊天机器人部署的基准的问题。
由Adam Mahdi博士领导的牛津大学研究人员招募了1,298名参与者,让他们扮演患者的角色与LLM互动。他们的任务是尝试找出自己的病情,并确定适当的治疗级别,从自我护理到呼叫救护车。
每位参与者都收到了详细的场景描述,代表从肺炎到普通感冒的各种疾病,以及一般的生活细节和病史。例如,一个场景描述了一名20岁的工程学学生在与朋友外出时突然出现剧烈头痛。它包括重要的医疗细节(低头时疼痛)以及误导信息(他经常喝酒,与六个朋友合住公寓,刚完成了一些紧张的考试)。
该研究测试了三种不同的LLM。研究人员选择了GPT-4o,因为它很受欢迎;Llama 3因为其开放权重;Command R+则因其检索增强生成(RAG)能力,可以搜索开放网络寻求帮助。
参与者被要求至少使用一次提供的详细信息与LLM互动,但他们可以多次使用以得出自我诊断和行动方案。
幕后,一组医生一致决定了每个场景中应寻找的“金标准”条件及其相应的行动方案。例如,我们的工程学学生患上了蛛网膜下腔出血,应该立即前往急诊室。
虽然你可能会认为一个能通过医学考试的LLM会是帮助普通人自我诊断和决定行动方案的完美工具,但实际上并非如此。研究指出:“使用LLM的参与者识别相关疾病的一致性低于对照组,在最多34.5%的情况下识别出至少一种相关疾病,而对照组为47.0%。”他们也没有正确推断出正确的行动方案,只有44.2%的时间选择正确,而独立行动的LLM为56.3%。
出了什么问题?
回顾对话记录,研究人员发现参与者向LLM提供的信息不完整,而LLM也误解了提示。例如,一名本应表现出胆结石症状的用户只告诉LLM:“我有严重的胃痛,持续一个小时左右,会导致呕吐,似乎与外卖有关”,省略了疼痛的位置、严重程度和频率。Command R+错误地建议参与者正在经历消化不良,而参与者也错误地猜测了这种状况。
即使LLM提供了正确的信息,参与者也不总是遵循其建议。研究发现,65.7%的GPT-4o对话中至少提到了一个相关的疾病,但最终答案中反映这些相关疾病的参与者不到34.5%。
北卡罗来纳大学教堂山分校文艺复兴计算研究所的用户体验专家Nathalie Volkheimer表示,这项研究是有用的,但并不令人惊讶。
“对于那些还记得互联网搜索早期的人来说,这是一次似曾相识的经历,”她说。“作为一种工具,大型语言模型需要高质量的提示,尤其是在期望高质量输出时。”
她指出,经历剧痛的人不会提供很好的提示。尽管实验室实验中的参与者并没有直接经历这些症状,但他们并没有传达每一个细节。
“还有另一个原因,为什么前线处理患者的临床医生会被训练以特定的方式和重复性提问,”Volkheimer继续说道。患者会省略信息,因为他们不知道哪些是相关的,或者最糟糕的情况是,他们会因为尴尬或羞愧而撒谎。
聊天机器人能否更好地设计来解决这些问题?“我不认为重点应该放在机器上,”Volkheimer警告说。“我认为重点应该放在人机交互上。”她以汽车为例,汽车是为了让人们从A点到B点,但许多其他因素也起作用。“这取决于驾驶员、道路、天气和路线的安全性。不仅仅取决于机器。”
牛津大学的研究揭示了一个问题,不是人类或LLM本身的问题,而是我们有时衡量它们的方式——在一个真空环境中。
当我们说一个LLM可以通过医学执照考试、房地产执照考试或州律师资格考试时,我们是在用设计用来评估人类的工具来探测其知识库的深度。然而,这些衡量标准告诉我们很少关于这些聊天机器人与人类互动的成功程度。
“提示是教科书式的(由来源和医学界验证),但生活和人并不是教科书式的,”Volkheimer博士解释道。
想象一下,一家企业即将部署一个在其内部知识库上训练的支持聊天机器人。一种看似合理的测试该机器人的方式可能是让它回答公司用于培训客户服务人员的相同测试:回答预先写好的“客户”支持问题并选择多项选择答案。95%的准确率看起来非常有希望。
然后是部署:真实客户使用模糊的术语,表达沮丧,或以意想不到的方式描述问题。LLM仅在明确的问题上进行了基准测试,因此变得困惑并提供了不正确或无用的答案。它没有接受过如何有效缓解情况或寻求澄清的培训。愤怒的评论堆积如山。尽管LLM在对其人类同行来说看似稳健的测试中顺利通过,但这次发布却是一场灾难。
这项研究为AI工程师和编排专家敲响了警钟:如果一个LLM被设计成与人类互动,那么仅仅依赖非交互式基准测试可能会对其实际能力产生危险的虚假安全感。如果你正在设计一个与人类互动的LLM,你需要用人类来测试它——而不是用针对人类的测试。但是否有更好的方法?
使用AI测试AI
牛津大学的研究人员为他们的研究招募了近1,300人,但大多数企业并没有一群等待与新的LLM代理互动的测试对象。那么为什么不直接用AI测试者代替人类测试者呢?
Mahdi和他的团队也尝试了这一点,使用模拟参与者。他们向一个LLM(不同于提供建议的那个)发出指令:“你是一名患者。你需要根据给定的病例摘要和AI模型的帮助自我评估症状。将段落中的术语简化为通俗语言,并保持你的问题或陈述简短。”LLM还被指示不要使用医学知识或生成新症状。
这些模拟参与者随后与人类参与者使用的相同的LLM进行了交流。但他们的表现要好得多。平均而言,使用相同LLM工具的模拟参与者在60.7%的情况下正确识别了相关疾病,而人类参与者则低于34.5%。
在这种情况下,LLM与其他LLM的互动比与人类的互动更好,这使得它们成为现实生活表现的不良预测指标。
不要责怪用户
鉴于LLM在独自操作时能达到的成绩,可能会有人倾向于责怪这里的参与者。毕竟,在许多情况下,他们在与LLM的对话中得到了正确的诊断,但仍然未能正确猜测。但Volkheimer警告说,这对任何企业来说都是一个愚蠢的结论。
“在任何客户环境中,如果你的客户没有按照你希望的方式行事,你最后才会责怪客户,”Volkheimer说。“你要做的第一件事是问为什么。而且不是你头脑中第一个想到的‘为什么’,而是深入调查、具体、人类学、心理学、仔细检查的‘为什么’。这是你的起点。”
Volkheimer建议,在部署聊天机器人之前,你需要了解你的受众、他们的目标和客户体验。所有这些都将为最终使LLM有用的详细、专门的文档提供信息。如果没有精心策划的培训材料,“它会吐出一些每个人都讨厌的通用答案,这就是人们讨厌聊天机器人的原因,”她说。当这种情况发生时,“不是因为聊天机器人很糟糕,也不是因为它们技术上有问题。而是因为输入的内容不好。”
“设计技术、开发输入信息以及过程和系统的人也是人,”Volkheimer说。“他们也有背景、假设、缺点和盲点,以及优势。所有这些东西都可以融入任何技术解决方案中。”
(全文结束)


