一项新的研究发现,搜索引擎引入的人工智能工具阻碍了用户找到有关药物治疗的清晰、准确和有用的信息。
患者不应依赖由人工智能驱动的搜索引擎和聊天机器人获取信息,一项新研究指出。
这项发表在《英国医学杂志质量与安全》上的研究发现,大量有关药物治疗的搜索答案不准确,且可能有害。有些答案也过于复杂,难以理解。
去年 2 月,搜索引擎开始使用由人工智能驱动的聊天机器人,其承诺改善搜索结果并提供更全面的答案。但研究人员称,这些基于互联网数据集训练的聊天机器人能够产生虚假信息和无意义或有害的内容。
来自德国和比利时大学的研究人员,使用具有人工智能聊天机器人功能的必应助手,探究了 2020 年美国最常开的 50 种药物相关查询的聊天机器人答案的可读性、完整性和准确性。他们审查了研究数据库,并咨询了药理学专家医生,以确定患者最常向医疗保健专业人员提出的药物问题。
聊天机器人针对每种药物被询问了 10 个问题,共生成 500 个答案。问题涵盖药物用途、作用机制、使用说明、常见副作用和禁忌。
专家评估了伤害的可能性。通过计算弗莱希阅读难易度评分来评估聊天机器人答案的可读性,该评分用于估计理解特定文本所需的教育水平。分数范围在 0 到 100 之间,分数越低越难读,91 分及以上被认为容易。
为评估聊天机器人答案的完整性和准确性,研究人员将其回答与 drugs.com 提供的药物信息进行比较,这是一个为医疗保健专业人员和患者提供的经过同行评审且最新的药物信息网站。
然后,七位药物专家使用显示低准确性或完整性或对患者安全有潜在风险的 20 个聊天机器人答案的子集,评估了如果患者遵循聊天机器人的建议可能造成伤害的可能性。
他们使用了医疗保健研究与质量局(AHRQ)制定的伤害量表来评估患者安全事件。专家根据经过验证的框架估计了可能造成伤害的可能性。
平均弗莱希阅读难易度评分略高于 37,这意味着许多读者会难以理解这些答案。
对于每种药物提出的 10 个问题,平均有 5 个问题得到了最高完整性的回答,而问题 3(服用药物时我需要考虑什么?)的平均完整性最低,仅为 23%。
聊天机器人的陈述在 26%的答案中与参考数据不匹配,完全不一致的占 3%。
对 20 个答案的子集评估显示,只有 54%被评为与科学共识一致。超过三分之一(39%)与科学共识相矛盾,而其余 6%没有既定的科学共识。
在这些答案中,患者遵循聊天机器人的建议可能造成伤害被评为高度可能的占 3%,中度可能的占 29%,而三分之一被判断为不太可能或根本不可能造成伤害,如果遵循的话。
研究人员写道:“在这项横断面研究中,我们观察到具有人工智能聊天机器人的搜索引擎对患者问题的回答总体上是完整和准确的。”
他们补充说:“然而,聊天机器人的答案大多难以阅读,并且反复缺乏信息或显示不准确,可能威胁到患者和药物安全。”
他们认为,一个主要的缺点是聊天机器人无法理解患者问题背后的潜在意图,并补充道:“尽管它们有潜力,但对于患者来说,咨询他们的医疗保健专业人员仍然至关重要,因为聊天机器人可能并不总是生成无错误的信息。在有更高准确率的搜索引擎可用之前,建议谨慎使用人工智能驱动的搜索引擎。”
(全文结束)


