文章预览
LG - 机器学习 CV - 计算机视觉 CL - 计算与语言 RO - 机器人 1、[CL] Memory Layers at Scale 2、[LG] AdvPrefix:An Objective for Nuanced LLM Jailbreaks 3、[CL] SCBench:A KV Cache-Centric Analysis of Long-Context Methods 4、[RO] RLDG:Robotic Generalist Policy Distillation via Reinforcement Learning 5、[LG] Llama 3 Meets MoE:Efficient Upcycling 摘要:高效可扩展的记忆层架构、细致入微的LLM越狱目标、KV缓存为中心的长上下文方法分析、基于强化学习的机器人通才策略蒸馏、基于预训练稠密模型检查点的MoE模型高效训练方法 1、[CL] Memory Layers at Scale V Berges, B Oğuz, D Haziza, W Yih... [Meta] 高效可扩展的记忆层架构 要点: 记忆层(一种键值查找机制)显著优于计算预算高出两倍以上的稠密模型,尤其是在事实性任务上。这挑战了普遍认为更大、更稠密的模型总是更好的观点。 本文论证了记忆层高达1280亿参数的扩展定律
………………………………