MoveNet

来自人工智能助力教育知识百科
Liyihang讨论 | 贡献2022年11月6日 (日) 15:29的版本 (创建页面,内容为“ == 简介 == 目前,人体姿势追踪技术有了很大进展,但在许多场景中仍未得到广泛应用。首要的原因是人们更加关注与让姿势…”)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

简介

目前,人体姿势追踪技术有了很大进展,但在许多场景中仍未得到广泛应用。首要的原因是人们更加关注与让姿势模型变得更大、更准确,而不是为了让它们能够迅速部署到任何地方。对于 MoveNet 来说,其最主要的特点就是实现模型的优化,在保持尽可能少的推理时间的同时,利用先进架构的最佳方面。这样的模型可以在不同的姿势、环境和硬件设置中提供准确的关键点。

基本原理

MoveNet 是一种自下而上的估计模型,利用热图精确定位人体的关键点。包括(鼻子、左眼和右眼、左耳和右耳、左肩和右肩、左肘和右肘、左腕和右腕、左臀和右臀、左膝和右膝、左脚踝和右脚踝)共十七个关键点。 这个架构包括两个部分:一个特征提取器和一组预测头。预测方案松散地遵循 CenterNet ,但变化明显,提高了速度和准确性。所有的模型都是用 TensorFlow 对象检测 API 进行训练。

网络架构

范例.jpg 人体中心热图用来识别框架中所有个体的中心,定义为所有属于一个人体的关键点的算术平均值。选取最大分值点(由与帧中心的反距离加权)。 从与对象中心相对应的像素切片,通过关键点回归,得到人体的初始关键点集。因为这是一个必须在不同规模下操作的非中心预测,所以回归关键点的质量并不会很精确。 关键点热图中的每个像素都要乘以一个权重,这个权重与对应的回归关键点的距离成反比。这样就保证了我们不接受来自背景人群的关键点,因为它们通常不在回归关键点的附近,因此会有较低的结果分数。 通过检索每个关键点通道中的最大热图值的坐标,选择关键点预测的最终集合。再在这些坐标上添加局部二维偏移预测值,以获得精确的估计。