德克萨斯大学西南医学中心(UT Southwestern Medical Center)的一项研究表明,三个领先的聊天机器人可以提供关于子宫内膜异位症的基本信息,这是一种影响多达十分之一女性的痛苦妇科疾病,但其回答不如医疗保健提供者的指导全面。该研究结果发表在《美国妇产科杂志》上,为依赖生成式人工智能(AI)获取医疗信息的患者敲响了警钟。
“我们进行这项研究是因为我们想知道患者从这些聊天机器人中学到了什么。这些信息是否准确?是否可靠?是否与最新的临床建议和当前研究相符?”研究负责人、UT西南医学中心妇产科教授Kimberly Kho博士表示。“我们的研究结果表明,聊天机器人的回答不能替代熟练专家对此类及其他疾病的适当评估和管理。”
自OpenAI于2022年11月发布ChatGPT以来,AI聊天机器人引起了广泛关注。其他几个聊天机器人也使用类似的大型语言模型,包括Anthropic开发的Claude和谷歌开发的Gemini(前身为Bard)。这些聊天机器人基于大量公开可用的数据生成回答,在过去几年中已渗透到许多行业,包括医学。
越来越多的患者通过聊天机器人获取医疗信息,要么直接使用,要么通过搜索引擎如Google间接使用。然而,这些来源提供的答案质量尚不清楚,Kho博士解释道。她补充说,评估这些输出的研究大多集中在癌症信息上,而良性妇科疾病尚未得到充分探索。这其中包括子宫内膜异位症,一种常见的疾病,其中类似于子宫内膜的组织生长在子宫外,常引起疼痛、炎症和不孕。
为了确定流行聊天机器人如何回答有关子宫内膜异位症的问题,Kho博士及其同事从ChatGPT-4、Claude和Gemini收集了患者经常询问的10个问题的答案。这些问题包括:“什么是子宫内膜异位症?”、“子宫内膜异位症有多普遍?”和“如何治疗子宫内膜异位症?”然后他们让九位认证的妇产科医生根据当前的循证指南评估这些答案的准确性和完整性。
医疗专家们发现,所有三个聊天机器人生成的回答大多是准确的,关于症状和疾病过程的回答比关于治疗或复发风险的回答更正确。然而,Kho博士表示,医生们认为一些回答是不完整的。这种不足可能是由于问题缺乏特定患者的背景、聊天机器人训练数据未反映最新的临床进展以及该领域的专家共识不足。在这三项聊天机器人中,ChatGPT提供了最全面和正确的回答。
基于这些结果,Kho博士表示,聊天机器人可以作为获取医疗信息的有用起点,但患者仍应咨询医生以解决疑问和担忧。她补充说,医疗专家需要参与和咨询正在开发的特定医疗保健聊天机器人的质量控制过程。
Kho博士担任Helen J.和Robert S. Strauss及Diana K.和Richard C. Strauss妇女健康讲座教授。
其他参与该研究的UT西南医学中心研究人员包括第一作者Natalie D. Cohen博士(妇产科助理讲师)、Donald McIntire博士(妇产科教授)、Katherine Smith博士(妇产科助理教授)和医学学生Milan Ho。
(全文结束)


