雷切尔·菲尔特曼:在《科学美国人》的《科学速递》(Science Quickly)节目中,我是雷切尔·菲尔特曼。
你是否曾在长时间盯着屏幕后感到眼睛酸痛和发痒?你可能患有一种名为"bixonimania"的疾病——至少如果你在去年向几个流行的AI聊天机器人咨询过,它们可能会这样告诉你。
全球数百万人每天都会向AI聊天机器人寻求医疗建议,通常作为医生就诊的补充,但有时甚至取代了它。这可能导致危险的后果,在极少数情况下甚至会导致死亡。
今天我们邀请的嘉宾是阿尔米拉·奥斯马诺维奇·通斯特罗姆(Almira Osmanovic Thunström)。她是瑞典哥德堡大学和萨尔格伦斯卡大学医院数字健康中心以及查尔姆斯工业技术中心的研究员。她也是"bixonimania"的创造者。她说,这种完全虚构的疾病揭示了我们在训练和使用大语言模型过程中存在的一些非常真实的问题。
菲尔特曼:非常感谢您今天来与我们聊天。
奥斯马诺维奇·通斯特罗姆:非常感谢您的邀请。
菲尔特曼:所以你最近做了一个涉及AI的有趣项目。你能告诉我们一点你是如何想到这个想法的吗?
奥斯马诺维奇·通斯特罗姆:我有许多不同的工作,其中之一是在学术界。我为学生讲课,告诉他们创建大语言模型的系统是如何工作的,并演示数据的来源。有趣的是,很少有学生,甚至AI领域内的人,了解大语言模型是如何构建的。
所以我真的想要一个清晰的案例,贯穿整个系统留下线索,展示数据是如何处理的,数据是如何被加工出来的,以及在分发信息时预测模型和训练模型是如何工作的。我的大多数学生都是医学专业的,所以他们要么是医学生,要么是心理学家,或从事健康工作。因此,很容易将此作为创建这个项目的靶点,我向你展示如何从对一种疾病的松散提及[笑],变成大语言模型中一种完全成型的疾病。
菲尔特曼:那么请带我们了解一下这个过程。
奥斯马诺维奇·通斯特罗姆:首先,我知道这些商业大语言模型——而且很明显,所有语言模型,即使是非商业的——所构建的大部分数据都基于Common Crawl。它是一个非营利组织,自2007年以来一直在网络上爬取书面和数字化信息。这个大型存储库用于创建算法,并解释了哪些信息被输入到例如ChatGPT等系统中。这就是开始的地方。
所以,我知道进入其中的任何内容都会作为信息输出,虽然有人类参与并筛选数据,但这些人并不总是能够筛选出数据,特别是当它看起来可信的时候...
菲尔特曼:嗯。
奥斯马诺维奇·通斯特罗姆:因此,创建一些对AI看起来足够可信,对人类眼睛也足够可信而不深入探究的东西,我知道我必须首先创建一所虚假大学。大学作为信息来源的排名很高。我知道我必须创建一个研究人员,因为人类(而不是公司)[笑]作为信息来源更有价值,尤其是如果他们属于可信的机构。
但我也知道在博客或社交媒体中撒些小词也会被拾取,因为这些是被爬取的开放源。所以我必须在几个不同的来源中散布这个词,使其对AI系统看起来可信。
菲尔特曼:是的,这个过程有没有什么让你感到惊讶的地方,还是它完全按照你预期的那样进行?
奥斯马诺维奇·通斯特罗姆:在某种程度上,是的,因为我没想到预印本——学术界的八卦小报[笑],因为任何东西都可以出现在那里——会在训练医疗信息所使用的数据库中被如此认真地加权。
所以我认为这个预印本不会进入大语言模型。我确信"bixonimania"这个词可能由于博客而出现,但甚至不是那样。提及太少了,我没有做太多努力,比如大规模运动之类的。我只是撒了一点点,只是为了看看它是否有效。
我立即注意到,甚至博客也被拾取了[笑],预印本也被拾取了,我实际上并不期望这样。我以为这将是一个显示有人类——显示某种过滤器的情况。但它让我惊讶的是,实际上没有。
菲尔特曼:那么你能告诉我们大语言模型是如何使用这些信息的吗?你问了什么问题,从它们那里得到了什么回答?
奥斯马诺维奇·通斯特罗姆:一开始我只是检查,如果我提到症状,它是否会给我反馈回来。当然,它没有,它不认为这是第一件事。所以如果你描述,"是的,我有红眼睑,粉红色的眼睑。可能是什么?"然后它会经过结膜炎。它会经过过敏。它会排序各种可能性...
菲尔特曼:嗯嗯。
奥斯马诺维奇·通斯特罗姆:可能是这样。当它最终得出"不,我没有疼痛。我没有这样"时,"哦,你是否在屏幕前花了很多时间?""是的,我花了很多时间,我一直在考虑买防蓝光眼镜。""哦,你暴露在大量蓝光下。好吧,"然后它会提出许多其他情况,比如——色素沉着过度,最终归结为bixonimania。
所以它不是,谢天谢地,它首先建议的,但它最终会在排除所有其他可能性后提出。
菲尔特曼:嗯,你提到你期望看到一些人类影响的迹象。那么你能告诉我们的听众,你留下了哪些线索表明这不是一种真实存在的疾病,这些预印本不是严肃的论文吗?
奥斯马诺维奇·通斯特罗姆:我已经在笑了,因为这很明显。比如,它们属于一个不存在的城市中的一所不存在的大学。这本身可能被忽略,因为世界上有很多大学。[笑]但名字相当卡通化。主要作者Lazljiv Izgubljenovic,如果你把他的名字放进谷歌翻译,字面意思是"说谎的失败者"。标题说的是[类似]"色素沉着过度:一个真正的BS设计"。
所以这真的是标题,[笑]人们会说,然后你进入方法部分,它说[类似]"整篇论文都是编造的。这50个虚构的人,不存在的人,已经经历了这个程序。"所以仅凭这两个线索,你就应该停止阅读或认真对待它。
然后如果你进一步深入,因为我当时在想,"也许它只是匆匆而过。让我们加入致谢和资金部分",[论文说]由银河三角基金和《指环王》资助。我们感谢星际飞船企业号上的同事们[笑]使用他们的实验室。我感谢罗斯·盖勒教授的时间和来自小丑博布基金会的资助。
有太多非常清晰的线索,我以为至少会抓住人类的眼睛。
菲尔特曼:但这篇论文最终被其他研究人员引用了,对吗?
奥斯马诺维奇·通斯特罗姆:是的,它最终不仅被引用,而且bixonimania在论文中被引用为一种新兴的眼周色素沉着状况,并带有其名称。因此,这当然增强了大语言模型对这种状况真实性的认知,因为现在它排名更高,因为有一份同行评审的期刊提到了这个名字和参考文献。因此,它提高了大语言模型将其视为真实状况的能力。
菲尔特曼:那么你认为我们应该从中学到什么?显然,这是一个非常人为构建的场景,但你认为我们应该吸取的教训是什么?
奥斯马诺维奇·通斯特罗姆:我认为我们应该在使用商业大语言模型获取健康信息时更加谨慎,因为它们很容易以多种方式被渗透[笑],正如这一点所证明的,不仅因为今天AI的工作方式——周转或新模型快速推出,大量信息同时被处理,它也连接到互联网并获取实时信息——而且因为人类已经停止对所消费的来源持批判态度。
所以最近,我看到有很多关于假参考文献的报告,它们在学术论文中呈指数级增长,这表明我们越来越依赖AI作为学术工具,而没有实际阅读[笑]和查看来源。我在笑,因为我在想这篇论文可能已被其他论文引用,但希望当它出现时被审稿人阻止,当有人看到"哦,这听起来像是一种不存在的状况。"所以我们不能知道是否发生了这种情况,但我猜并希望这种情况会发生。因此,在AI和医疗信息方面,我们需要更多的人类参与。
我也认为,比如,我们尽了最大努力使这个项目尽可能合乎道德,与医生、患者以及所有可能有助于使其在构建和交付过程中尽可能无害的人交谈。但外面有一些力量可能正在利用这种方式将信息渗透到大语言模型中,用于恶意目的,无论是在学术界内外。所以我真的希望我们开始更多地关注在数字化世界中分发、使用和操纵信息的伦理。
菲尔特曼:今天就到这里。由于团队要享受假期周末,我们将跳过周一的新闻综述。下周三收听关于生态文明概念的对话——一个以人为系统建立在为整个地球集体利益考虑的世界。
《科学速递》由我和雷切尔·菲尔特曼、丰达·姆瓦吉、苏什米塔·帕塔克和杰夫·德尔维西奥制作。本期由亚历克斯·苏吉ura编辑。莎娜·波塞斯和亚伦·沙塔克为我们的节目进行事实核查。我们的主题音乐由多米尼克·史密斯创作。订阅《科学美国人》获取更多最新和深入的科学新闻。
对于《科学美国人》,我是雷切尔·菲尔特曼。祝大家周末愉快!
【全文结束】

