将开源进行到底，Meta开源人体视觉大模型

人脸人体重建 · 公众号 · · 2024-08-29 09:00

文章预览

Title Meta Reality Labs 推出了人体视觉大模型 Sapiens，为以人为中心的视觉任务提供了一套全面的套件，适用于 2D姿势估计、人体分割、深度估计、法线预测等任务。Sapiens模型针对超过 3 亿张自然人体图片进行了预训练，具有出色的泛化能力，通过微调能够适应各种特定任务，且能以 1K 高分辨率推理。实验证明Sapiens 在各种以人为中心的基准测试中始终超越现有基准，成为SOTA。论文： https://arxiv.org/pdf/2408.12569 代码： https://github.com/facebookresearch/sapiens 代码已开源！！！Meta最良心！！！大模型底座作者首先在超过3亿张人体图片上预训练了一个 vision transformers，然后针对不同的任务在不同的数据集上进行微调即可。Sapiens提供了4个不同参数量的预训练模型，最大的模型 Sapiens-2B 使用 1024 个 A100 GPUs 训练了 18 天。 Spec 任务微调 2D关键点预测 & 人体分 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博