Meta Reality推出 Sapiens AI 视觉模型,用于分析理解图片 / 视频中人类动作

Meta Reality 实验室推出名为 Sapiens 的 AI 视觉模型,适用于二维姿势预估、身体部位分割、深度估计和表面发现预测 4 种以人为中心的基本视觉任务。该模型参数数量在 3 亿到 20 亿不等,采用视觉转换器架构,任务共享相同编码器,各有不同解码器头。二维姿势预估可检测和定位二维图像中人体关键点;身体部位分割能将图像分割成不同身体部位;深度估计可估算图像中每个像素与摄像头的距离;表面法线预测能预测图像中表面的方向。Meta 公司表示该模型可原生支持 1K 高分辨率推理,容易针对个别任务调整,只需在超 3 亿张野生人类图像上预训练,即使标注数据稀缺或全是合成数据,生成的模型也能对野生数据表现出卓越泛化能力。

官网地址:
https://about.meta.com/realitylabs/codecavatars/sapiens/
论文地址:
https://arxiv.org/abs/2408.12569
开源地址:
https://github.com/facebookresearch/sapiens

本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。

本文链接:https://www.ttxsai.com/news/2800.html

滚动至顶部