通过教导人工智能识别儿童的每一次进食动作,科学家们正在揭示隐藏的饮食模式,这些模式可能会改变我们从餐桌开始预防肥胖的方式。
研究:ByteTrack:一种使用儿童进餐视频进行咬食计数和速率检测的深度学习方法。图片来源:Andrii Spy_k/Shutterstock.com
饮食行为揭示了过度进食和肥胖的风险。一项发表在《Frontiers in Nutrition》杂志上的新研究提出了一种深度学习系统,用于分析儿童的咬食行为,该系统使用记录儿童进餐的视频。
引言
进餐微观结构描述了进食过程中发生的各种行为:咬食、咀嚼、咬食速率和咬食量。分析进餐微观结构有助于识别个体的饮食模式,以及它们在不同食物类型中的变化,并揭示饮食失调和肥胖的潜在机制。
发展为肥胖的儿童更可能采取大口进食并吃得更快,这两者都会增加食物摄入量。通过观察到的进餐微观结构,可以定制预防干预措施,为遏制这一流行病提供一种新方法。
分析咬食和微观结构的黄金标准是人工观察编码,这涉及手动查看儿童进食行为的视频记录,并用时间戳进行注释。尽管这种方法非常可靠和准确,但它劳动密集、耗时长,而且成本高。
与人工编码相比,自动咬食检测系统可能更加高效和可扩展。然而,这些系统主要使用来自声学传感器和加速度计的成人数据,基于预设的运动限制。此类传感器可能会将饮水或手势误解释为咬食。
此外,不同的进食方式(使用勺子、筷子或手)可能会增加动作难度,导致检测出现问题。而且,动作本身的广泛变异性使得在不同环境中自动化检测变得困难。
这导致了使用自动化平台来检测咬食。这些平台可能使用基于位置的标准(手-脸距离、嘴巴张开)或光流方法来跟踪连续帧中的运动。然而,它们无法可靠地区分进食行为与其他在儿童中特别常见的动作。
这促使人们对使用卷积神经网络(CNN)的深度学习方法产生了兴趣,这些方法主要在严格控制的进食视频记录上进行训练和测试,通常是成人。在现实世界中,此类视频并不常见;通常情况是光线不佳和进食动作的差异。深度学习技术可以帮助克服由这些人工制品引起的解释困难。
关于研究
ByteTrack是一种深度学习系统,它使用录制的儿童进餐视频来查找咬食次数和咬食速率。该系统在94名7-9岁儿童的242个视频(1440分钟)上进行了训练,这些儿童每人完成了四次间隔一周的进餐会话。一个52个视频的子集用于训练系统的面部检测组件。视频经过增强处理,引入了类似现实世界的变化的记录条件。
对于视频记录,儿童在间隔一周的时间内吃了四餐,食物相同但分量不同。该系统分两个阶段工作。第一阶段用于面部检测,锁定目标儿童的面部,同时忽略其他人和物体。
为此目的使用了两个系统,一个专注于快速面部识别,另一个专注于在面部部分被遮挡等挑战性情况下的识别。这种组合旨在实现高效准确的面部检测。
第二阶段使用这些干净的数据来区分咬食活动与其他动作。为此,将一个EfficientNet卷积神经网络(CNN)与一个长短期记忆(LSTM)递归网络相结合。该模型调整了模糊、光线不足、方向变化、旋转、相机抖动以及手或餐具遮挡嘴巴视线等问题。模型获得的结果与人工观察编码进行了比较。
研究发现
ByteTrack测试显示了高准确的召回率和精确度,超过98%。这表明该技术在速度和容忍与咬食行为相关的可变视觉外观之间取得了平衡。
第二阶段在咬食检测方面表现出中等性能,平均精确度为79%,召回率为68%,F1分数约为71%。总体上存在咬食计数过多的情况,特别是在进餐的早期部分。较长的进餐时间或进餐的后期部分往往与咬食计数不足有关。
原因包括快速咬食和错误增加咬食检测。后来,儿童开始对食物失去兴趣,这可能导致更多动作,包括那些遮挡嘴巴的动作,从而减少咬食检测。
它与黄金标准编码的组内相关系数(ICC)为0.66,尽管在儿童移动过多或手或餐具遮挡嘴巴的视频中可靠性较低。即便如此,ByteTrack更准确地反映了现实世界的情况,在儿童进餐时有其他人在场(约80%的录制餐食包括额外的人,以模拟自然的进餐环境)。
与其他必须开启和关闭的可穿戴传感器(如安装在眼镜上的传感器或咬食计数手表)相比,它侵入性更小,可能会破坏进食过程的自然流程。虽然ByteTrack必须手动启动和停止,但它尚未针对实时咬食检测进行优化。尽管如此,与可穿戴系统相比,它仍然侵入性更小,更接近自然观察。
未来可以使用智能手机摄像头进行自然记录,并与ByteTrack等平台结合,前提是确保数据隐私。此类技术应用节省的时间和精力是巨大的,表明对它们开发的巨大需求。此外,这些应用消除了人类错误的来源,如疲劳、经验不足和误解,因为它们使用相同的标准解释所有视频。在这些平台可用于实时使用之前,还需要进一步改进。
结论
"这项试点研究证明了在儿童进餐中用于咬食检测的可扩展自动化工具的可行性。"
ByteTrack是第一个专门开发用于分析儿科进食行为的自动化系统,其中等程度的成功令人鼓舞。
该方法的局限性显而易见,需要设计更新的技术以提高在遮挡或高移动情况下的可靠性。未来的工作需要使该平台在不同人群和不同记录情况下更加稳健。
期刊参考:
- Bhat, Y. R., Keller, K. L., Brick, T. R., et al. (2025). ByteTrack: a deep learning approach for bite count and bite rate detection using meal videos in children. Frontiers in Nutrition.
【全文结束】


