(全国新闻台讯)两项最新发表的研究为那些在人工智能聊天机器人上搜索健康答案的人敲响了警钟。
一项研究发现,聊天机器人对健康问题的回答中约有一半是"存在问题的",而另一项研究发现,在测试AI模型能否复制医生为患者症状列出正确可能病症的能力时,失败率高达80%。
"如果你在使用这些聊天机器人,把它们的输出展示给你的医生看,并以此作为讨论的依据,"其中一项研究的合著者Arya Rao说,"不要仅仅依赖这些工具给出的答案。"
'高度有问题的'
Nick Tiller是上周发表的一项研究的主要作者,该研究测试了五款广泛使用的聊天机器人:谷歌的Gemini、DeepSeek、Meta AI、ChatGPT和Grok。
Tiller和他的同事们向这些聊天机器人提出了与癌症、疫苗、干细胞、营养和运动表现相关的问题。
他表示,近一半(49.6%)的回答存在问题,其中包括近20%被认定为"高度有问题的"回答。
Tiller说,如果人们遵循AI给出的"高度有问题的"回答,可能会造成伤害。
Tiller说,转向AI而非互联网搜索进行自我诊断的人可能只是简单地信任AI的总结,而不是点击进入信誉良好的网站寻找答案。但他表示,用户可能没有意识到聊天机器人通常只是利用统计模式,基于其训练数据来生成答案,往往绕过了来自互联网的实时信息。
而聊天机器人的回答质量仅与其训练数据相当。
在哈伯-加州大学洛杉矶分校医学中心伦德奎斯特生物医学创新研究所担任研究助理的Tiller表示,研究人员发现Grok最有可能产生"高度有问题的"回答,这可能是因为它部分基于X平台的社交媒体内容进行训练。Tiller称X平台是"虚假信息的污水池"。
"它没有能力做出伦理判断来权衡信息,"他谈到任何聊天机器人生成医疗答案的过程时说,"它只是在预测句子中最可能出现的单词。"
Tiller表示,研究团队在向聊天机器人提问时采取了"对抗性方法",推动这些模型,看它们是否会吐出错误信息。
Tiller说,他们采取这种方法是因为它复制了人们在现实世界中提出健康问题的方式。
"他们不会问'疫苗安全性的科学证据是什么?'他们会问'疫苗的风险是什么?'或者'疫苗如何伤害我?'"他谈到人们如何"偏向某一方面"提出问题时说。
Tiller专攻营养和运动表现。该论文的合著者是涵盖响应质量审核的各个其他领域的专家。
Tiller表示,他理解为什么人们会转向聊天机器人为健康问题寻找答案,考虑到医疗保健的可负担性和获取挑战。
但他敦促谨慎使用。
"不幸的是,聊天机器人还不能可靠地为你提供准确答案。至少目前还不能,"他说。
"我对这个领域真的非常乐观,"他迅速补充道。
虽然Tiller不认为AI会取代人类医生,但他确实看到AI正在迅速改进,并将成为医疗保健专业人员的宝贵补充。
诊断难题
另一组研究人员测试了21款现成的AI模型在29个标准化临床案例上的表现,发现在确定患者问题的"鉴别诊断"阶段存在困难。
"鉴别诊断是医生在患者初次就诊时会做出的可能诊断列表,包括常见病症,但也包括一些不能遗漏的极其罕见的病症,"该研究的作者之一、放射科医生、麻省总医院布莱根和哈佛医学院创新与创业中心MESH孵化器的主任Marc Succi博士说,"这实际上是医学的艺术所在,就是要弄清楚这一点。但你不能测试100种不同的东西,所以你实际上必须既简洁又全面。"
Succi表示,该研究的设计反映了医学在实际中的运作方式,而不仅仅是测试AI在掌握所有信息的情况下是否能得出正确的最终诊断。
在各种模型中,失败率(未完全正确回答的问题比例)在鉴别诊断阶段最高,通常超过80%。
聊天机器人在诊断过程的后期表现更好,但哈佛医学院学生、MESH孵化器AI小组负责人Rao表示,许多人在诊断最不确定的阶段与AI互动,而这正是聊天机器人表现最差的阶段。
Succi和Rao表示,AI不像人类临床医生那样推理,他们的研究表明AI在为人们提供他们可能在客厅沙发上寻求的"第二意见"方面存在不足。
"因此,我们建议谨慎,"Rao说。
【全文结束】

