医疗建议与人工智能:研究揭示的真相Medical advice and AI: What the research is saying

环球医讯 / AI与医疗健康来源:www.msn.com美国 - 英语2026-05-15 22:28:55 - 阅读时长3分钟 - 1063字
美国哈伯-加州大学洛杉矶分校医学中心最新研究显示,对Gemini、DeepSeek、Meta、ChatGPT和Grok五款主流聊天机器人进行的250项健康问题测试中,49.6%的回答存在准确性问题,其中20%属于可能直接危害健康的严重错误。研究发现AI系统为追求回答完整性而刻意编造答案,30%的错误回答具有较高阅读难度,导致用户误判可信度。专家强调在癌症、疫苗等高风险领域,AI优先保证回答流畅性却牺牲准确性,仅Meta AI出现两次拒绝回答,远低于医疗专业人员的谨慎态度,呼吁公众切勿依赖AI获取医疗建议,应主动了解技术局限性并及时咨询专业医师。
健康建议AI聊天机器人医疗建议健康指导错误信息公共卫生医疗专业人员癌症疫苗干细胞营养运动表现
医疗建议与人工智能:研究揭示的真相

主持人:如果您正向人工智能寻求医疗建议,嗯,或许需要三思。最新研究表明,多款热门聊天机器人在健康指导方面存在大量错误信息。尼克·蒂勒是哈伯-加州大学洛杉矶分校医学中心的研究员,作为该研究的共同作者,他今早带来详细发现。早上好,尼克。

尼克·蒂勒:早上好,很荣幸参与。

主持人:研究团队测试了Gemini、DeepSeek、Meta、ChatGPT和Grok,发现这五款AI聊天机器人都给出了大量不准确且不完整的回复。请介绍研究发现。

尼克·蒂勒:正如您所说,我们选取了这些最主流的聊天机器人——当然ChatGPT可能最受欢迎。我们向每款机器人提出10个问题,覆盖癌症、疫苗、干细胞、营养和运动表现这五个易传播错误信息的领域。每个领域的两位专家采用三级评估标准进行评分:无问题、部分问题或严重问题。结果甚至令我们惊讶:近半数回复(49.6%)被认定存在问题,其中30%属于部分问题,20%即五分之一属于严重问题。所谓严重问题,是指若用户遵循该建议,可能直接造成健康危害。这对公共卫生产生切实影响。

主持人:研究还发现聊天机器人宁可编造答案也不愿承认无知,这很人性化。您如何看待这种现象?能否举例说明其危害性?

尼克·蒂勒:聊天机器人始终以高度自信和权威口吻回应,用户会误判其可信度。我们还发现它们更倾向给出阅读难度较高的回复,这进一步制造虚假可信度。在250个健康相关提问中,仅Meta AI两次拒绝回答,这个比例低得惊人。若向医疗专业人员提出250个健康问题,他们很可能在某些时刻坦承"我不确定,但会咨询同事或查阅资料"。聊天机器人并非如此设计——它们优先保证回答完整性而非准确性。而在医疗领域,准确性才是重中之重。我们期待它们更常声明"我不具备回答资格",但其程序设定更侧重提供完整答案。这存在巨大隐患。

主持人:鉴于此,向AI寻求健康建议是否完全不可取?如何判断何时需要咨询专业医师?

尼克·蒂勒:作为用户,首先应了解这些系统的工作原理:它们被设计得善于对话流畅、语言流畅,我们喜欢与之互动,但它们不具备人类的知识储备能力,绝非医疗专业人士,也未经医学训练。我们需要认清其优势与局限,学会用正确措辞和术语提问以提高准确率。但若您重视答案准确性,就绝不该使用AI聊天机器人获取医疗建议——这正是医疗专业人员存在的意义。虽然就医有时困难,促使人们转向AI,但我们必须系统性改进医疗体系。感谢您的时间。

主持人:感谢尼克。人们总渴望快速获得正确答案,但健康问题容不得侥幸。

【全文结束】