文章预览
Title Meta Reality Labs 推出了人体视觉大模型 Sapiens,为以人为中心的视觉任务提供了一套全面的套件,适用于 2D姿势估计、人体分割、深度估计、法线预测等任务 。Sapiens模型针对 超过 3 亿张自然人体图片 进行了预训练,具有出色的泛化能力,通过 微调能够适应各种特定任务 ,且 能以 1K 高分辨率推理 。实验证明Sapiens 在各种以人为中心的基准测试中始终超越现有基准,成为SOTA。 论文: https://arxiv.org/pdf/2408.12569 代码: https://github.com/facebookresearch/sapiens 代码已开源!!!Meta最良心!!! 大模型底座 作者首先在超过3亿张人体图片上预训练了一个 vision transformers,然后针对不同的任务在不同的数据集上进行微调即可。Sapiens提供了4个不同参数量的预训练模型,最大的模型 Sapiens-2B 使用 1024 个 A100 GPUs 训练了 18 天 。 Spec 任务微调 2D关键点预测 & 人体分
………………………………