Llama 3.2：开源可定制视觉模型，引领边缘AI革命

魔搭ModelScope社区 · 公众号 · · 2024-09-26 20:51

文章预览

01 前言今天，Meta发布了 Llama 3.2，主要包括小型和中型视觉 LLM（11B 和 90B）以及适合边缘和端侧的轻量级纯文本模型（1B 和 3B），包括预训练和指令调整版本。Llama 3.2 1B 和 3B 模型支持 128K 令牌的上下文长度，在同类产品中处于较领先地位，适用于总结、指令跟踪和在边缘本地运行的重写任务等设备用例。Llama 3.2 11B 和 90B 视觉模型在图像理解任务上的表现优于封闭模型（例如 Claude 3 Haiku）。 Llama 3.2 系列 11B 和 90B 视觉LLM，支持图像理解，例如文档级理解（包括图表和图形）、图像字幕以及视觉基础任务（例如基于自然语言描述在图像中精确定位对象）。视觉LLM 训练流程由多个阶段组成，从预训练的 Llama 3.1 文本模型开始。首先，添加图像适配器和编码器，然后在大规模噪声（图像、文本）对数据上进行预训练。接下来，在中等规模的高质量领域内 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博