据美联社报道,OpenAI的Whisper文档平台容易产生幻觉,并在数百万录音中编造句子和段落。数万份转录可能存在问题。Andrea Fox于2024年10月30日09:45报道。
为何重要
密歇根大学和其他研究人员发现,AI幻觉导致了错误的转录,有时还包含种族和暴力言论,以及想象中的医疗治疗,据美联社报道。令人担忧的是,广泛采用使用Whisper的工具(无论是开源还是API形式)可能导致患者误诊或不良医疗决策。
Hint Health是一家临床技术供应商,去年在其应用程序中添加了Whisper API,以便医生可以记录患者咨询并在供应商的应用程序中使用OpenAI的大规模语言模型进行转录。同时,超过3万名临床医生和40个卫生系统(如洛杉矶儿童医院)使用了Nabla的环境AI,该AI集成了基于Whisper的工具。Nabla表示,Whisper已用于转录约700万次医疗访问,据该报告称。该公司的一位发言人引用了周一发布的一篇博客,其中详细说明了公司采取的具体措施,以确保模型在使用中得到适当使用和监控。“Nabla通过手动编辑笔记和平实语言反馈来检测错误生成的内容,”公司在博客中表示,“这提供了现实世界性能的精确度量,并为我们提供了随着时间改进模型的额外输入。”
值得注意的是,Whisper还集成到OpenAI旗舰聊天机器人ChatGPT的某些版本中,并作为甲骨文和微软云计算平台的内置功能,据美联社报道。同时,OpenAI警告用户不应在“高风险领域”使用该工具,并建议在其在线披露中不要在“决策上下文中使用Whisper,因为准确性方面的缺陷可能导致结果中的显著缺陷。”
“下一个模型能否解决大型v3生成大量幻觉的问题?”一位用户周二在OpenAI的GitHub Whisper讨论板上问道。这个问题在发稿时尚未得到回答。“如果公司愿意优先考虑这一点,这个问题似乎是可解决的,”旧金山的研究工程师William Saunders告诉美联社,他今年早些时候离开了OpenAI。“如果你把它放出来,人们对其能力过于自信,并将其集成到所有这些其他系统中,这是有问题的。”
值得一提的是,OpenAI最近发布了一个健康AI研究科学家的职位空缺,其主要职责是“设计和应用实用且可扩展的方法,以提高我们模型的安全性和可靠性”,并“使用与健康相关的数据评估方法,确保模型提供准确、可靠和值得信赖的信息。”
更大趋势
9月,德克萨斯州总检察长Ken Paxton宣布与达拉斯的人工智能开发商Pieces Technologies达成和解,指控该公司的人工智能工具因夸大准确性而危及患者安全。该公司使用生成式AI来总结实时电子健康记录中的患者状况和治疗信息。
在马萨诸塞大学阿默斯特分校和专注于AI幻觉检测的AI公司Mendel进行的一项研究中,研究人员比较了OpenAI的GPT-4和Meta的Llama-3在生成医疗笔记方面的准确性,发现了许多错误。在50份医疗笔记中,GPT有21份摘要包含错误信息,50份包含泛化信息,而Llama有19份错误和47份泛化信息。
引用
“我们认真对待这一问题,并不断努力提高模型的准确性,包括减少幻觉,”OpenAI的一位发言人在周二通过电子邮件告诉《医疗IT新闻》。“对于我们的API平台上的Whisper使用,我们的使用政策禁止在某些高风险决策上下文中使用,并且我们的开源使用模型卡包括不建议在高风险领域使用的建议。我们感谢研究人员分享他们的发现。”
(全文结束)


