虽然ChatGPT-4可以识别大多数食物图像,但它倾向于低估份量和营养成分,这表明在它能可靠地协助饮食评估之前还需要进一步改进。
一项发表在《Nutrients》期刊上的研究中,爱尔兰都柏林的研究人员评估了Chat Generative Pretrained Transformer 4(ChatGPT-4)从餐食照片中估算营养成分的准确性。
膳食摄入评估对于识别和管理导致不良健康的营养和食物相关原因至关重要。最常见的评估方法依赖于自我报告的食物、餐食或食物类别的份量。然而,近年来,数字方法在膳食摄入评估中的使用显著增加。
许多(数字)系统也具有图像识别软件,使用户能够上传食物图片,减少用户负担并提高准确性。此外,人工智能(AI)可以用于自动化从图像中识别食物并估计份量和营养成分。然而,关于大型语言模型(LLMs),如ChatGPT,在膳食摄入评估中的应用研究较少。
研究内容
ChatGPT-4在食物识别方面表现出色,达到了88.6%的F1分数,表明其在精确度(93%)和召回率(84.6%)之间取得了良好的平衡。
在这项研究中,研究人员评估了ChatGPT-4从餐食图像中识别食物并估算营养成分的能力。他们使用了来自《全国成人营养调查》(NANS)的38种常见爱尔兰餐食的图像。每个餐食有三种大小的图片:大、中、小份。考虑了四种餐食类型:零食、早餐、午餐和晚餐。
食物被称重,并使用McCance和Widdowson的食物成分表确定其营养成分。研究人员生成了相关的提示,要求ChatGPT-4估算蛋白质、能量、总脂肪、碳水化合物、膳食纤维、饱和脂肪、单不饱和脂肪、多不饱和脂肪、维生素C和D、叶酸、钾、叶酸、钠、铁和钙等营养成分。ChatGPT-4被要求提供点估计值而不是范围。此外,还招募了七名来自英国和爱尔兰的注册营养师来估算蛋白质、碳水化合物和能量。营养师只收到中等份量餐食的图片。
真正阳性(TPs)是指ChatGPT-4正确识别的食物;假阴性(FNs)是指图像中存在的但未被识别的食物;假阳性(FPs)是指图像中不存在但被报告的食物。
接下来计算了精确度(93%)和召回率(84.6%)。召回率是指不遗漏任何项目的能力;精确度是指不建议不存在的食物的能力。ChatGPT-4提供的估计值与实际值和营养师的估计值进行了比较。此外,还估计了组内相关系数(ICC)以评估ChatGPT-4和营养师之间的协议程度。
研究结果
总体而言,114张图片中共有547个食物项目;其中463个为真正阳性,84个为假阴性,35个为假阳性,精确度为93%,召回率为84.6%。ChatGPT-4低估了114餐食中的87餐(76.3%)的重量。小、中、大份餐食的平均估计重量分别为430.5克、425.8克和529.5克。
相应的实际餐食平均重量分别为408.2克、580.5克和798.1克。对于小份餐食,ChatGPT-4的估计值在统计上是准确的(p=0.221),但对于中份和大份餐食,重量明显被低估(p<0.001)。此外,能量的实际值与LLM估计值之间的百分比差异为0.1%,蛋白质为-2.7%,碳水化合物为-6.5%,多不饱和脂肪为-9.1%。其他营养成分的差异较大(>±10%),ChatGPT-4低估了11种营养成分,最大的误差出现在维生素D(-100%)、钾(-49.5%)、钙(-27.8%)和叶酸(-38.6%)。
此外,ChatGPT-4提供的营养成分估计值与实际值在10种营养成分上有显著差异。只有四名营养师提供了所有38张图片的所有营养成分估计值。碳水化合物含量的ICC为0.31(较差的一致性),能量为0.56(较差到中等一致性),蛋白质为0.67(中等到较好的一致性)。
ChatGPT-4还评论了其估计的假设和局限性,例如食品强化、准备方法和不可见成分的潜在影响,尽管这些信息并未明确要求。然而,营养师被要求提供可能改善估计的信息。有趣的是,他们的回应与ChatGPT-4相似,突出了相同的营养成分估计挑战。
结论
总之,ChatGPT-4正确估计了大部分图像中的食物,但份量估计仅对较小的餐食准确。它低估了较大和中等餐食的重量及大多数营养成分的含量。然而,其在蛋白质和能量估计方面的表现与营养师相当,但在碳水化合物含量方面的表现较弱。
这些发现表明,尽管ChatGPT是一个通用的大型语言模型,但它在膳食评估中具有潜力。然而,为了将其应用于营养学和营养评估,可能需要进一步的训练和与食物成分数据库的整合,以扩展其应用并提高准确性。
(全文结束)


