当被问及有关乳腺癌的常见问题时,ChatGPT的回答中有四分之一是错误的,并且经常提供虚假的参考资料。研究发现,ChatGPT对乳腺癌问题的回答往往不准确,缺乏可靠的参考文献,且阅读水平不适合患者。
一项研究发现,当ChatGPT 3.5被问及20个常见的乳腺癌问题时,在24%的情况下提供了不准确的答案,41%的回应中缺乏可靠的参考文献,强调了在使用AI获取医疗信息时需谨慎。ChatGPT是一种生成式人工智能语言模型,像聊天机器人一样生成对许多问题的回应。该研究使用的模型是当时最广泛可用的免费工具。
此外,尽管每次提示都以“我是患者”开始,并要求回应应针对患者,但提供的回应并不适合患者的阅读水平。研究作者写道:“事实上,没有任何回应达到推荐的六年级阅读水平,最低的阅读水平为八年级。”准确性评级采用四点量表,从1(全面信息)到4(完全错误的信息)。临床一致性评级采用五点量表,1表示与医生的回应完全相似,5表示与医生提供的回应完全不同。在这项研究中,总体平均准确率为1.88,临床一致性为2.79。
每个回应的平均字数为310字(每条回应的字数范围从146字到441字),具有高度的一致性。回应的可读性评分基于平均每句话的音节数和单词数,评分为0到100。平均可读性评分为37.9,表明可读性较差,尽管具有一致性。可读性与更好的临床一致性之间存在弱相关性。此外,准确性与可读性之间没有相关性。
平均而言,ChatGPT的每个回应引用了1.97个参考文献,范围从1到4个参考文献。研究人员注意到,ChatGPT引用了一次同行评审的文章,这些文章都是2002年的标志性出版物。值得注意的是,研究确定了向ChatGPT提出的几个主要问题主题,包括异常乳房检查或影像学检查的处理、手术、医学术语解释、化疗、免疫疗法、放射治疗、可用资源、支持性护理资源、乳腺癌的病因以及临床试验信息。
就准确性而言,36.1%(130个回应)的回应被评为全面,而24%(87个回应)被评为部分正确和部分错误。没有回应被评为完全错误。最准确的回应与化疗相关,而得分最低的准确性问题是关于腋窝手术后的淋巴水肿。
在临床一致性方面,12.8%(46个回应)的回应被评为完全相似(最高评分),7.8%(28个回应)的回应与医生提供的答案完全不同。最一致的评分与异常乳房检查或影像学检查的处理相关,而得分最低的一致性问题是关于免疫疗法。
ChatGPT回应中最常引用的网站是国家癌症研究所,其次是美国癌症协会。ChatGPT仅引用了一次同行评审的文章,这些文章都是2002年的标志性出版物。
2023年7月,乳腺癌倡导者向ChatGPT提出了20个患者可能提出的问题。回应基于准确性和临床一致性进行评估,并重复了三次。“随着越来越多的报告指出AI幻觉,即像OpenAI这样的系统编造信息或提供与其训练数据不符的回应,评估面向患者的医疗信息至关重要。”研究作者写道。
(全文结束)


