根据《NPJ数字医学》杂志上发表的一项新研究,一些西班牙研究人员试图调查大型语言模型在提供健康建议方面的可靠性。研究人员测试了七个大型语言模型,包括OpenAI的ChatGPT、ChatGPT-4和Meta的Llama 3,并提出了150个医疗问题。研究发现,所有被测试的模型结果各不相同。大多数基于AI的搜索引擎在用户询问健康相关问题时会给出不完整或不正确的结果。尽管AI驱动的聊天机器人需求日益增加,但尚未有充分的研究表明大型语言模型能提供可靠的医疗相关结果。这项研究发现,大型语言模型的准确性取决于问题的表述、检索偏差和推理能力,但它们仍然可能产生错误信息。
在研究中,研究人员评估了四个搜索引擎:Google、Yahoo!、DuckDuckGo和Bing,以及七个大型语言模型,包括ChatGPT、GPT-4、Flan-T5、Llama3和MedLlama3。结果显示,ChatGPT、GPT-4、Llama3和MedLlama3在大多数评估中表现较好,而Flan-T5则落后于其他模型。对于搜索引擎,研究人员分析了排名前20的结果。使用段落提取模型来识别相关片段,并使用阅读理解模型来确定这些片段是否有明确的是/否答案。研究人员还观察到两种用户行为:懒惰用户在找到第一个明确答案后就停止搜索,而勤奋用户则会在决定答案之前交叉参考三个来源。懒惰用户得到了最准确的答案,这表明排名靠前的答案通常是最准确的。
对于大型语言模型,研究人员采用了不同的提示策略,如提问时没有上下文、使用友好的措辞以及使用专家措辞。研究还为大型语言模型提供了一些示例问答,这对某些模型有所帮助,但对其他模型没有影响。此外,还使用了检索增强生成方法,即在大型语言模型生成自己的响应之前提供搜索引擎结果。通过准确性、常见错误及其通过检索增强的改进来衡量AI模型的表现。
研究结果显示,搜索引擎能够准确回答50-70%的查询,而大型语言模型的准确率为80%。大型语言模型的回答因问题的表述方式而异,专家提示(使用专家语气)最为有效,但有时会导致不太明确的答案。Bing提供了最可靠的答案,但并不比Yahoo!、Google和DuckDuckGo更好。许多搜索引擎的结果是无关或离题的,通过过滤相关答案,精度提高了80-90%。小型大型语言模型在添加搜索引擎片段后表现有所改善,但质量较差的检索反而降低了大型语言模型的准确性,特别是在与COVID-19相关的查询中。
大型语言模型的错误分析显示,在处理健康相关查询时存在三大主要失败点:对医学共识的理解不正确、误解问题以及模糊不清的答案。研究表明,大型语言模型的表现取决于其被问及的数据集,2020年的数据集产生的答案比2021年的数据集更准确。
(全文结束)


