当AI在健康问题上出错:BMJ Open新论文揭示的重要发现When AI gets health questions wrong: what a new BMJ Open paper shows

环球医讯 / AI与医疗健康来源:www.mysportscience.com美国 - 英语2026-05-17 09:24:02 - 阅读时长7分钟 - 3087字
一篇发表在BMJ Open上的新研究表明,近一半的AI聊天机器人回答存在准确性问题,尤其在营养学和运动表现领域表现最差;研究评估了五个主流AI模型对50个健康相关问题的回答,发现30%的回答存在一定程度问题,19.6%的回答问题严重,且参考文献经常不完整或虚构,同时回答的可读性过高(相当于大学水平),这对普通公众理解健康信息构成挑战,提醒专业人士和公众在使用AI获取健康建议时需保持警惕,验证信息来源,不应仅因回答流畅就轻信其准确性。
AI健康建议BMJOpen论文AI聊天机器人健康可靠性健康错误信息医学AI准确性健康参考文献审核运动营养AI风险
当AI在健康问题上出错:BMJ Open新论文揭示的重要发现

当AI在健康问题上出错:BMJ Open新论文揭示的重要发现

一篇新发表在BMJ Open上的论文强调了一个重要问题:流畅的回答并不总是准确的回答。人们正转向ChatGPT和Gemini等聊天机器人获取健康建议,运动员和从业者使用它们获取营养建议或更新信息,甚至是表现建议。但当话题涉及健康、营养或表现时,这些聊天机器人的可靠性如何?

我有幸参与了一个由资深研究人员组成的团队,旨在解决这一确切问题。在一项研究中,我们审核了五个流行的AI聊天机器人,检查了它们如何回应特别容易受到错误信息影响的健康和医学领域问题。该研究由Nick Tiller博士领导,论文刚刚发表在BMJ Open上。这是开放获取论文的链接。

研究结果清晰而令人警醒。AI的表现往往不佳。参考文献经常不可靠。当这些工具被不加批判地使用时,自信的语言与薄弱的证据相结合,确实构成了真实风险。

研究调查内容

该论文《生成式人工智能驱动的聊天机器人与医学错误信息:准确性、参考文献和可读性审核》,评估了五个面向公众的聊天机器人:Gemini、DeepSeek、Meta AI、ChatGPT和Grok。这些模型于2025年2月接受了测试,使用了涵盖五个类别的50个提示:癌症、疫苗、干细胞、营养和运动表现。这些提示包括封闭式和开放式问题,并特意设计为推动模型朝向常见的错误信息主题或禁忌建议方向。

这种设计很重要。在现实世界中,人们并不总是提出清晰、结构良好的问题。他们提出的问题往往受到困惑、偏见、恐惧、新闻头条、社交媒体和先前信念的影响。因此,如果我们想了解聊天机器人在健康领域的现实风险,我们必须在压力下测试它们,而不仅仅是在理想场景中。该研究正是这样做的。

回答由主题专家进行评分。研究人员还评估了引用的准确性和完整性,并使用标准可读性评分来测量可读性。

主要发现

头条结果令人难以忽视。近一半的聊天机器人回答被评定为有问题。具体来说,30%被归类为存在一定问题,19.6%被归类为高度有问题。因此,这并非偶尔出现的小错误。大约五分之一的回答被认为高度有问题。

表现也因类别而异。聊天机器人在疫苗和癌症方面表现相对较好。在干细胞、运动表现和营养方面表现较差。对于MySportScience的读者来说,这一点尤为重要。最薄弱的两个领域直接关系到表现和营养,这正是从业者和运动员可能越来越多地转向AI寻求支持的领域。

还有一个重要模式:封闭式问题产生的高度问题回答较少,而开放式问题产生的回答问题更多。这是有道理的。模型生成的自由度越大,越容易出现推测、回避、虚假平衡和缺乏支持的建议。

研究还显示聊天机器人选择克制的情况很少。在总共250个问题中,只有两个拒绝回答的情况,均来自Meta AI。换句话说,即使谨慎、延迟或拒绝回答可能是更安全的反应,这些系统通常还是会给出答案。

为何参考文献数据如此重要

论文中最具揭示性的部分之一是参考文献审核。当被要求为其答案提供科学参考文献时,聊天机器人经常返回不完整、不准确或虚构的引用。在整个研究中,没有任何一个聊天机器人对任何提示生成完全完整和准确的参考文献列表。平均完整性得分仅为40%。即使是表现较好的模型也远非可靠。

这很重要,因为参考文献会建立信任。读者看到作者姓名、期刊标题和文章标题,就认为答案是有科学依据的。但如果这些参考文献错误、不完整或部分编造,答案就只是看起来科学。这是未经验证的可信度。这是一个关键的实际教训。聊天机器人并不会仅仅因为它提供了参考文献就变得可信。在某些情况下,参考文献本身需要与主答案一样严格的审查。

可读性也是一个问题

该论文不仅关注准确性,还关注可读性。平均而言,所有模型产生的回答都被评为"困难",大致相当于大学水平的阅读难度。对于面向公众的健康信息来说,这远非理想。

这创造了一种尴尬且潜在危险的组合。答案听起来很流畅。它们听起来很自信。甚至可能看起来很科学。但它们往往对普通公众来说过于复杂,并且在许多情况下,其可靠性不足以证明它们呈现时所表现出的自信。

对运动和运动营养的意义

这就是该论文直接连接到MySportScience上我们已经进行的更广泛AI讨论的地方。

在《运动中的人工智能(AI)》一文中,重点是AI是什么、它如何工作,以及它如何融入高性能环境。该文章提出了一个重要观点:AI已经影响了精英运动中的招募、训练计划、战术决策和支持系统。它不是未来概念,它已经到来。

在《运动营养中的人工智能(AI)》中,重点更接近日常实践。运动营养师、饮食学家和运动员现在以多种形式与AI互动,往往甚至没有意识到这一点。准备度评分、自动反馈、恢复摘要和数据分析解释已经成为日常工作流程的一部分。但该文章也强调了一个基本要点:受益最多的专业人士既不是那些拒绝AI的人,也不是那些盲目信任它的人,而是那些了解它在何处可靠、在何处不可靠的人。

这篇新的BMJ Open论文完全支持这一信息。AI可能有帮助,但只有在理解其局限性的情况下才有帮助。在营养和运动表现等领域,风险不是理论上的。这些领域已经充斥着商业主张、过度简化的信息和伪科学。如果聊天机器人在混杂质量的信息上训练,然后以权威方式呈现,结果可能看起来比实际情况强大得多。

这也是为什么MySportScience博客《人工智能(AI)会取代运动从业者吗?》在这里如此相关。真正的问题不是取代,而是判断力。AI可能有助于组织、总结和加速,但证据评估、背景、伦理和决策仍然严重依赖知识渊博的从业者。这篇论文很好地提醒我们,人类专业知识不是最后添加的奢侈品,而是安全有效使用的核心。

更广泛的启示

该论文最重要的结论也是最简单的:没有公众教育和监督,AI可能会放大错误信息,而不是减少它。

工具很重要。但它们所训练的数据、部署方式、包含的安全措施以及使用者的知识也同样重要。在健康、医学、运动和运动营养领域,流利的语言永远不应与理解混淆。一个精心打磨的答案仍然可能是错误的。一个自信的答案仍然可能具有误导性。参考文献列表仍然可能是编造的。

实用建议

那么,这让我们处于什么位置?AI可以用于支持任务。它可以帮助组织信息、加快常规工作并生成初稿。但当任务涉及证据解释、健康指导或在复杂领域做出决策时,谨慎是必不可少的。

  • 对于从业者,教训很直接:验证声明,检查参考文献,质疑自信的回答,不要将可读性或流利度与质量混淆。
  • 对于公众,教训同样重要:聊天机器人可能很方便,但便利并不等同于可靠性,也不意味着你总是可以信任它。
  • 对于所有在基于证据的运动和运动营养领域工作的人,这篇论文是一个及时的提醒,良好的实践仍然取决于批判性思维、更深入的知识和专业判断。

参考文献

Tiller, Nicholas B, Alessandro R Marcon, Marco Zenone, Kristin E Kidd, Asker E Jeukendrup, Zubin Master, Timothy Caulfield. 生成式人工智能驱动的聊天机器人与医学错误信息:准确性、参考文献和可读性审核 BMJ Open 2026;16:e112695. doi: 10.1136/bmjopen-2025-112695

相关阅读和视频

  • 运动中的人工智能(AI)
  • 运动营养中的人工智能(AI)
  • 人工智能(AI)会取代运动从业者吗?
  • 在mysportscience academy上的"运动科学和营养中的人工智能"系列讲座

【全文结束】