根据发表在《JAMA Network Open》上的研究,多模态人工智能(AI)聊天机器人在评估癌症病例方面的准确性并不优于单模态聊天机器人。研究人员假设,多模态AI聊天机器人由于能够处理复杂的医学图像和基于文本的信息,因此在回答有关癌症病例的问题时会优于仅处理文本的单模态聊天机器人。
研究人员评估了10个聊天机器人对79个癌症病例问题的医疗准确性,其中提供了图像。三个多模态聊天机器人分别是ChatGPT-4 Vision、Claude-3 Sonnet Vision和Gemini Vision。七个单模态聊天机器人分别是ChatGPT-3.5、ChatGPT-4、Claude-2.1、Claude-3 Sonnet、Gemini、Llama2和Mistral Large。
对于选择题,最准确的聊天机器人是Mistral Large,正确回答了72.15%的问题。Claude-3 Sonnet Vision紧随其后,正确回答了70.89%的问题,而ChatGPT-4正确回答了68.35%的问题。多模态聊天机器人在回答关于一般医学临床病例的选择题时,准确率超过了70%,基于自由文本和图像输入。
大多数不准确的选择题答案都是错误的(89.0%)。在某些情况下,聊天机器人拒绝回答,有的没有给出理由(7.14%),有的给出了理由(3.87%)。总体而言,聊天机器人在回答诊断性选择题时比回答临床管理性选择题时更准确。然而,在自由文本回答中,诊断性和管理性问题的准确性没有显著差异。
提供最准确自由文本回答的聊天机器人是ChatGPT-4、Claude-3 Sonnet和Claude-3 Sonnet Vision(三者都正确回答了37.97%的问题)。其次是Mistral Large(36.71%),Gemini(31.65%)和Gemini Vision(31.65%)。大多数不准确的自由文本回答都是错误的(90.0%),但聊天机器人偶尔也会因为有理由(8.19%)或没有理由(1.86%)而拒绝回答。
在这项针对聊天机器人在临床肿瘤学病例中准确性的横断面研究中,研究人员得出结论,多模态聊天机器人的准确性并不始终优于单模态聊天机器人。这些结果表明,需要进一步研究以优化多模态聊天机器人,使其更好地利用图像信息,提高肿瘤学特定的医疗准确性和可靠性。
(全文结束)


