文章预览
LG - 机器学习 CV - 计算机视觉 CL - 计算与语言 1、[CL] Multi-Token Attention 2、[LG] Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems? 3、[LG] Hawkeye:Efficient Reasoning with Model Collaboration 4、[CL] When To Solve, When To Verify:Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning 5、[CL] Token embeddings violate the manifold hypothesis 摘要:多Token注意力、前沿大模型可能主要依赖“背诵”学到解题方案、利用模型协作进行高效推理、面向LLM推理的计算最优问题解决和生成验证、Token嵌入违反流形假设 1、[CL] Multi-Token Attention O Golovneva, T Wang, J Weston, S Sukhbaatar [FAIR at Meta] 多Token注意力 要点: 挑战了标准Transformer中“单token注意力”的范式,指出其限制了信息处理能力,尤其是在长文本上下文中。 提出了多token注意力(MTA),一种新的注意力
………………………………