在政治极度分裂的时代,研究人员最近发现了一些值得注意的现象。在英国和美国,来自不同政治派别的人们在偏好哪些AI工具方面基本达成一致。
尽管我们经常谈论什么使我们分裂,但事实证明,政治并不是关键的区分因素。最显著影响我们AI偏好的因素更为根本:我们的年龄。
但在这项名为HUMAINE的大规模研究中,最令人惊讶的发现并不是什么使人们产生分歧。
而是当团队分析了来自英美两国代表性样本的4万余次匿名对话主题时,有一个话题以明显优势脱颖而出:健康与福祉。
诺拉·彼得罗娃
Prolific公司AI高级研究员(AI Staff Researcher at Prolific)
虽然近一半的讨论集中在积极健康方面,如健身计划和营养,但相当一部分讨论进入了更为敏感的领域。
关于心理健康和特定疾病的对话是最频繁且最私人的。
人们公开地将这些模型用作心理状态的倾诉对象、情感慰藉的来源以及身体健康指导。
深刻转变
这表明我们与技术的关系发生了深刻转变,并提出了一个令人震惊的问题:我们当前评估AI的方法是否足以判断其实际效用?
诚实地回答是:否。当人们看到简单的AI排行榜时,最大的误解是认为单个数字就能定义哪个模型"更好"。这个问题本身定义不清——在什么方面更好?更重要的是,对谁而言更好?
AI行业已过度专注于技术指标。这种狭隘的关注虽然在特定基准测试上取得显著成果,却使我们在影响日常使用大型语言模型的人本问题上处于盲目状态。
当前的评估主要采取两种形式。一方面,我们有学术基准测试,衡量抽象技能,如模型解决奥林匹克级别数学问题的能力。
另一方面,我们有公共"竞技场",由匿名用户投票决定。这在抽象技术能力与实际有用性之间造成了巨大鸿沟。
正因如此,一个模型可能在测试中表现得像天才,但当你需要它规划复杂项目或处理敏感健康查询时,却可能成为无能的助手。
关键发现#1:真正的安全危机是隐形性
鉴于如此多的对话涉及心理健康和医疗状况等敏感话题,人们可能预期信任和安全指标会成为关键区分因素。然而事实并非如此。当参与者在这一维度上对模型评分时,最常见的结果是平局,该指标的可靠性极低。
这并非说明安全性不重要,而是表明诸如信任和安全性等品质在日常对话中难以可靠衡量。真正考验模型道德底线的情景很少自然发生。评估这些关键品质需要更专业的方法。
一个有力例证来自斯坦福HAI近期研究《探索AI在心理健康护理中的危险》。该研究调查了AI担任心理健康提供者的可行性,并揭示重大风险:模型不仅可能强化对某些疾病的有害污名,还可能因无法识别用户潜在危机而助长危险行为。
这种严格的情景式测试正是我们需要的。令人鼓舞的是,CIP的weval.org等平台已开始实施此类标准化评估,使模型能在高风险情境中接受系统测试。我们迫切需要更多此类评估,以及捕捉AI使用长期影响的机制。
关键发现#2:我们的指标推动盲目自动化,而非有意识协作
这场辩论并非简单的自动化与协作二选一。自动化繁琐重复的工作是种进步,但危险在于"盲目自动化"——纯粹为任务完成而优化,忽视人力成本。
这并非假设性担忧。已有报告显示,年轻人和应届毕业生难以找到入门级工作,因为构成职业阶梯基础的任务正被自动化取代。
当开发者以狭隘效率为焦点构建和评估AI时,我们面临劳动力技能退化的风险,最终创造一个服务于技术而非人的未来。
评估应成为方向盘:若唯一指标是"任务完成了吗?",AI将必然取代而非增强人类。但若同时衡量"人类协作者是否获得成长?"或"人机合作是否提升了最终成果?",方向将截然不同。
HUMAINE研究表明,模型具有差异化技能特征:有些擅长推理,有些精于沟通。可持续协作的未来取决于重视并衡量这些互动品质,而非仅关注最终输出。
关键发现#3:真正的进步在于细微差别
研究中最终胜出的是Google的Gemini-2.5-Pro,但其获胜原因更具启示意义——它因在所有指标和人口统计群体中保持高度一致性而登顶。
这正是成熟技术的体现:最佳模型未必最耀眼,而是最可靠且能力全面。可持续进步在于构建均衡稳健的系统,而非仅优化单一狭窄技能。
这些发现指向AI进步评估方式的根本转变:超越简单排名,深入探究模型在不同群体中的表现差异,以及是否某些群体被无意忽视。
同时需关注协作的人性维度:AI参与应是双赢伙伴关系,还是滑向单方受益的自动化?
最终,更成熟的评估科学并非阻碍进步,而是指引方向。它帮助我们识别盲点,将AI发展引向既技术卓越又真正造福人类的轨道。
世界是复杂的、多样的、微妙的;是时候我们的评估也具备同等深度了。
【全文结束】


