微软新的人工智能是否仍“比人类医生准确四倍”?——医疗提示中的拼写错误可能带来灾难性后果Don't use AI for medical advice if you're prone to typos

环球医讯 / AI与医疗健康来源:www.windowscentral.com美国 - 英文2025-07-15 19:01:53 - 阅读时长4分钟 - 1586字
研究表明,向AI聊天机器人寻求医疗建议可能导致严重后果,尤其是当提示中包含拼写错误时,AI可能给出误导性建议,甚至劝阻患者就医。微软和OpenAI的AI工具在医疗领域的表现引发关注。
AI医疗建议拼写错误健康风险微软AI医疗工具准确性女性健康生成式AI医学领域应用
微软新的人工智能是否仍“比人类医生准确四倍”?——医疗提示中的拼写错误可能带来灾难性后果

向AI聊天机器人寻求医疗建议可能会导致严重后果,特别是当您的提示包含即使是轻微的拼写错误时。

一项新研究强调了简单的拼写错误如何导致由AI驱动的工具错误地建议患者不要寻求医疗帮助。(图片来源:Getty Images | Dana Neely)

随着生成式人工智能变得越来越先进并扩展到更高的水平,超越了像早期Bing Chat那样简单的查询响应功能,对于没有技术知识的用户来说,充分利用人工智能工具正变得越来越困难。

这种现象尤其令人担忧,因为像OpenAI的ChatGPT这样的工具正在全球范围内被广泛采用,在该公司推出其新图像生成工具后,仅一小时内就吸引了100万新用户,这一工具在社交媒体上因吉卜力工作室表情包而迅速走红。

尽管微软与OpenAI因盈利计划产生分歧,用户常常将两者的AI产品进行比较,例如Microsoft Copilot和ChatGPT。此外,它们主要基于相同的技术和AI模型,但最近有报道称微软正在Copilot中测试第三方模型,并且正在开发自己的非前沿模型。

另一份报告显示,用户向微软AI部门提出的最常见投诉是:“Copilot不如ChatGPT好用。”这家科技巨头迅速驳回了这一说法,将责任归咎于糟糕的提示工程技能。它甚至推出了Copilot学院,以帮助用户提高他们的AI技能,并总体提升他们使用Copilot等AI工具的体验。

今年5月,Microsoft Teams负责人Jeff Teper承认,Copilot和ChatGPT几乎是一回事,但他表示,微软的产品提供了更好的安全性和更强大的用户体验。

然而,事实证明,微软可能抓住了问题的关键,将责任归咎于糟糕的提示工程技能,尤其是如果根据麻省理工学院研究人员的新研究来看的话。

使用AI时要对拼写错误保持“警惕”

(图片来源:Getty Images | KIRILL KUDRYAVTSEV)

这项研究表明,过度依赖AI工具获取医疗建议可能是危险的,有时甚至是误导性的。更令人担忧的是,报告指出,如果用户的查询中包含拼写错误,例如拼错单词或句子中多了一个空格,AI工具可能会建议用户不要就医。在这种情况下,使用花哨的语言和俚语也是一个警示信号。

研究人员进一步声称,女性用户比男性更容易成为这种不良AI建议的受害者,因此这一点需要谨慎看待。这项研究集中在以下AI工具上:OpenAI的GPT-4、Meta的LLama-3-70b以及一个名为Palmyra-Med的医疗AI。

他们模拟了数千个健康案例,这些案例结合了来自医疗数据库的真实患者投诉、健康相关的Reddit帖子以及AI生成的案例。

有趣的是,研究人员决定在数据中加入“扰动”,目的是让聊天机器人措手不及,包括句子开头字母大小写的不一致、感叹号、花哨的语言以及使用诸如“可能”之类的不确定语言。

聊天机器人似乎落入了陷阱,促使它们改变了对病情的看法和医疗建议。研究表明,这些扰动使聊天机器人建议患者不去医院的可能性增加了7%到9%。

研究人员推断,这些AI工具严重依赖其训练的医疗数据,这使得它们难以解读患者提供的信息,因为这些信息不像医学文献那样流畅和结构化。

根据该研究的第一作者、麻省理工学院研究员Abinitha Gourabathina的说法:

“这些模型通常在医学考试问题上进行训练和测试,但后来却被用于与此相去甚远的任务,比如评估临床病例的严重程度。关于大型语言模型(LLMs),我们仍然有许多未知之处。”

这些发现引发了关于AI工具在医学领域整合的重要关切。此消息发布之际,微软刚刚吹捧了一款新AI医疗工具,称其比人类医生准确四倍且便宜20%。该公司的AI首席执行官称其为“迈向医疗超级智能的真正一步”。

这一切表明,生成式AI在完全被信任应用于医学等复杂领域之前,还有很长的路要走。


(全文结束)

大健康
大健康