大家好。我是来自希望之城的Maurie Markman博士。我想简要讨论一篇非常有趣的论文。这个话题目前非常热门:大型语言模型在肿瘤学中的应用。我相信未来我们会看到更多这样的论文。
这篇论文名为《大型语言模型在医学肿瘤学考试题目中的表现》,发表在《JAMA Network Open》上。正如我们所了解的,这项研究实际上证明了这些大型语言模型和人工智能在临床中的应用越来越受欢迎,也越来越好。
这篇论文特别考察了几种不同的大型语言模型,特别是它们对ASCO自我评估系列以及ESMO考试试验题目的正确答案。研究人员证明,总体而言,更新后的模型正确回答了85%的问题;而旧模型的正确率仅为61%。它们正在变得更好。更新后的模型正确率为85%,这显然在及格范围内。然而,这是一个关键点:研究人员指出,虽然85%的问题被正确回答,但82%的错误答案被认为在临床实践中具有中等到高度的中到重度伤害风险。这是作者的话。再次强调,它们确实答对了问题,但那些错误的答案如果在临床实践中被采用,可能会造成严重伤害,那么它们会被采纳吗?
这里有一个积极的方面,即它们确实答对了问题,但我们真的愿意在10%-15%的答案是错误的,并且可能会在临床环境中造成伤害的情况下使用这些模型吗?有很多值得讨论和学习的地方。显然,我们将看到更多这样的模型被研究。这些是测试题目,而不是临床实践。这是需要强调的一点。
感谢您的关注。
(全文结束)


