研究人员称OpenAI的通用语音识别模型存在缺陷 - AI与医疗健康

研究人员称OpenAI的通用语音识别模型存在缺陷OpenAI's general purpose speech recognition model is flawed, researchers say

环球医讯 / AI与医疗健康来源：www.healthcareitnews.com美国 - 英语2024-10-30 22:00:00 - 阅读时长3分钟 - 1455字

研究人员发现OpenAI的Whisper平台在处理数百万录音时容易产生幻觉，生成错误的句子和段落，这可能影响医疗诊断和决策。

据美联社报道，OpenAI的Whisper文档平台容易产生幻觉，并在数百万录音中编造句子和段落。数万份转录可能存在问题。Andrea Fox于2024年10月30日09:45报道。

为何重要

密歇根大学和其他研究人员发现，AI幻觉导致了错误的转录，有时还包含种族和暴力言论，以及想象中的医疗治疗，据美联社报道。令人担忧的是，广泛采用使用Whisper的工具（无论是开源还是API形式）可能导致患者误诊或不良医疗决策。

Hint Health是一家临床技术供应商，去年在其应用程序中添加了Whisper API，以便医生可以记录患者咨询并在供应商的应用程序中使用OpenAI的大规模语言模型进行转录。同时，超过3万名临床医生和40个卫生系统（如洛杉矶儿童医院）使用了Nabla的环境AI，该AI集成了基于Whisper的工具。Nabla表示，Whisper已用于转录约700万次医疗访问，据该报告称。该公司的一位发言人引用了周一发布的一篇博客，其中详细说明了公司采取的具体措施，以确保模型在使用中得到适当使用和监控。“Nabla通过手动编辑笔记和平实语言反馈来检测错误生成的内容，”公司在博客中表示，“这提供了现实世界性能的精确度量，并为我们提供了随着时间改进模型的额外输入。”

值得注意的是，Whisper还集成到OpenAI旗舰聊天机器人ChatGPT的某些版本中，并作为甲骨文和微软云计算平台的内置功能，据美联社报道。同时，OpenAI警告用户不应在“高风险领域”使用该工具，并建议在其在线披露中不要在“决策上下文中使用Whisper，因为准确性方面的缺陷可能导致结果中的显著缺陷。”

“下一个模型能否解决大型v3生成大量幻觉的问题？”一位用户周二在OpenAI的GitHub Whisper讨论板上问道。这个问题在发稿时尚未得到回答。“如果公司愿意优先考虑这一点，这个问题似乎是可解决的，”旧金山的研究工程师William Saunders告诉美联社，他今年早些时候离开了OpenAI。“如果你把它放出来，人们对其能力过于自信，并将其集成到所有这些其他系统中，这是有问题的。”

值得一提的是，OpenAI最近发布了一个健康AI研究科学家的职位空缺，其主要职责是“设计和应用实用且可扩展的方法，以提高我们模型的安全性和可靠性”，并“使用与健康相关的数据评估方法，确保模型提供准确、可靠和值得信赖的信息。”

更大趋势

9月，德克萨斯州总检察长Ken Paxton宣布与达拉斯的人工智能开发商Pieces Technologies达成和解，指控该公司的人工智能工具因夸大准确性而危及患者安全。该公司使用生成式AI来总结实时电子健康记录中的患者状况和治疗信息。

在马萨诸塞大学阿默斯特分校和专注于AI幻觉检测的AI公司Mendel进行的一项研究中，研究人员比较了OpenAI的GPT-4和Meta的Llama-3在生成医疗笔记方面的准确性，发现了许多错误。在50份医疗笔记中，GPT有21份摘要包含错误信息，50份包含泛化信息，而Llama有19份错误和47份泛化信息。

引用

“我们认真对待这一问题，并不断努力提高模型的准确性，包括减少幻觉，”OpenAI的一位发言人在周二通过电子邮件告诉《医疗IT新闻》。“对于我们的API平台上的Whisper使用，我们的使用政策禁止在某些高风险决策上下文中使用，并且我们的开源使用模型卡包括不建议在高风险领域使用的建议。我们感谢研究人员分享他们的发现。”

(全文结束)