一项美国临床试验研究了ChatGPT是否能提高50位执业医师的诊断能力。照片:Cherdchai Chawienghong/Getty Images
AI对太多人来说意味着太多不同的东西。我们需要更好地讨论和思考它。这时,德鲁·布雷宁格(Drew Breunig)这位才华横溢的极客和文化人类学家提出了一个简洁的技术分类方法,将其分为三种使用场景:神、实习生和齿轮。
“神”在这个意义上是指超级智能的人工实体,可以自主行动。换句话说,就是OpenAI的山姆·阿尔特曼和他的团队正在尝试构建的AGI(通用人工智能),同时警告说这可能是对人类存在的威胁。布雷宁格表示,AI“神”是“人类替代用途”。它们需要巨大的模型和惊人的计算量、水和电力(更不用说相关的二氧化碳排放)。
“实习生”是指受监督的副驾,与专家合作,专注于繁琐的工作。换句话说,就是像ChatGPT、Claude、Llama等类似的大型语言模型(LLM)。它们的特点是需要由专家使用和监督。它们对错误有很高的容忍度,因为协助的专家会检查其输出,防止尴尬的错误进一步传播。它们做的是枯燥的工作:记住文档和导航引用,在大致框架定义后填充细节,通过充当动态反馈板来帮助创意生成,等等。
最后,“齿轮”是指优化执行单一任务的低级机器,通常作为管道或接口的一部分。
目前主要是“实习生”,它们代表了增强人类能力的AI技术,已经在许多行业和职业中广泛使用。从这个意义上说,它们是第一代准智能机器,人类在工作环境中与之进行了密切的认知互动,我们开始了解这些人类-机器伙伴关系的效果如何。
AI在医疗保健领域有着巨大的希望,这是有充分理由的。例如,2018年,DeepMind的研究人员与伦敦莫菲尔德眼科医院的合作显著加快了视网膜扫描的分析速度,以检测需要紧急治疗的患者症状。但尽管技术上困难,这其实是一个显而易见的问题:机器可以非常快速地读取扫描图像,并挑选出需要专科医生诊断和治疗的图像。
但诊断过程本身呢?一项有趣的美国研究于10月发表在《美国医学会杂志》上,报告了一项随机临床试验,研究了ChatGPT是否能提高50位执业医师的诊断能力。平淡无奇的结论是,将LLM作为诊断辅助工具提供给医生并没有显著改善临床推理能力,与传统资源相比。但有一个令人惊讶的结果:ChatGPT单独使用时的表现优于两个医生组(有和没有访问机器的医生)。
或者,正如《纽约时报》总结的那样:“使用ChatGPT-4和传统资源的医生仅略好于没有访问该机器的医生。令研究人员惊讶的是,单独使用的ChatGPT表现优于医生。”
更有趣的是另外两个发现:实验表明,即使当ChatGPT建议了一个更好的诊断时,医生有时仍然坚持自己做出的诊断;此外,至少一些医生不知道如何最好地利用该工具的能力。这反过来揭示了AI倡导者如埃森·莫利克(Ethan Mollick)长期以来一直在说的一点:有效的“提示工程”——知道如何向LLM提问以获得最佳效果——是一种微妙且不为人所理解的艺术。
同样有趣的是,与AI合作对参与合作的人类的影响。麻省理工学院的一位研究人员进行了一项实验,看看材料科学家在研究中使用AI时能做得多好。
答案是,AI协助确实有效,表现在发现了44%更多的材料,专利申请增加了39%。这是通过AI完成超过一半的“创意生成”任务实现的,研究人员则负责评估模型产生的候选材料。因此,AI做了大部分的“思考”工作,而他们被降级到评估这些想法的实际可行性这一更为平凡的任务。结果是:研究人员的工作满意度急剧下降!
与一台智能机器合作突然让他们感觉像是……嗯,齿轮。道德教训?小心你所求的。
(全文结束)


