Meta Reality推出 Sapiens AI 视觉模型，用于分析理解图片 / 视频中人类动作 - 天天学术AI写作系统专注学术论文写作的工具|毕业论文|期刊投稿|开题报告|任务书www.ttxsai.com

Meta Reality 实验室推出名为 Sapiens 的 AI 视觉模型，适用于二维姿势预估、身体部位分割、深度估计和表面发现预测 4 种以人为中心的基本视觉任务。该模型参数数量在 3 亿到 20 亿不等，采用视觉转换器架构，任务共享相同编码器，各有不同解码器头。二维姿势预估可检测和定位二维图像中人体关键点；身体部位分割能将图像分割成不同身体部位；深度估计可估算图像中每个像素与摄像头的距离；表面法线预测能预测图像中表面的方向。Meta 公司表示该模型可原生支持 1K 高分辨率推理，容易针对个别任务调整，只需在超 3 亿张野生人类图像上预训练，即使标注数据稀缺或全是合成数据，生成的模型也能对野生数据表现出卓越泛化能力。

官网地址：
https://about.meta.com/realitylabs/codecavatars/sapiens/
论文地址：
https://arxiv.org/abs/2408.12569
开源地址：
https://github.com/facebookresearch/sapiens

本站文章通过互联网转载或者由本站编辑人员搜集整理发布，如有侵权，请联系本站删除。

本文链接：https://www.ttxsai.com/news/2800.html

Related Posts