核心研究发现
来自德国和比利时的研究团队近期对微软Copilot进行医学问答测试,要求其回答美国最常被搜索的10个医疗问题和50种常用药物相关咨询。通过分析生成的500条回答,研究人员发现:
- 仅54%的回答符合科学共识
- 24%的回答与医学知识不符(其中3%完全错误)
- 42%的回答可能导致中度或轻度伤害
- 22%的回答存在致命或严重伤害风险
- 仅36%的回答被认为安全
研究报告明确指出:"在准确性方面,24%的AI回答与现有医学知识存在偏差,其中3%完全错误。从潜在危害来看,42%的回答可能导致轻度或中度伤害,22%的回答涉及死亡或严重伤害风险,仅36%的回答可被视为安全。"
研究背景与行业对比
该研究发表之际,AI搜索技术正面临多重挑战:
- 谷歌AI搜索曾推荐用户"食用岩石"或"将胶水烤进披萨"
- 微软推出Copilot+ PC系列遭遇隐私争议(如Windows Recall功能)
- 谷歌股价因AI相关风险引发投资人担忧
- TikTok用AI替代人工审核引发行业争议
值得注意的是,在测试中当询问关岛是否有Planet Hollywood餐厅时,Copilot给出了准确回答(实际仅有4家,且不在关岛),但这一表现未能掩盖其他医疗建议的严重缺陷。
伦理与法律风险
研究人员强调,尽管微软等AI服务提供方已在免责声明中注明"需核实AI回答准确性",但:
- 医疗决策的特殊性导致错误信息可能直接威胁生命安全
- 在医疗资源匮乏地区,AI可能成为弱势群体的"替代医生"
- 首例"AI致死"案例或将因医疗误导而非科幻级机器人威胁产生
微软近期推出的Copilot新功能(如增强版照片编辑、网页包装器UI更新)未能扭转其在搜索领域的弱势地位,而谷歌则陷入对ChatGPT技术冲击的持续焦虑中。
【全文结束】