文章预览
1. Ultra-Sparse Memory Network 点击下方 卡片 ,关注“ 自动驾驶之星 ” 这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入 transformer模型的性能与参数数量和计算复杂度呈指数关系。虽然像专家混合(MoE)这样的方法将参数计数与计算复杂度分离,但仍然无法完全摆脱高内存访问成本的问题。本文提出了UltraMem,结合了大规模超稀疏内存层以解决这些限制。我们的方法显著减少了推理延迟,同时保持了模型的性能。我们还研究了这种新架构的扩展规律,发现它不仅表现出有利的扩展特性,而且在某些方面优于传统模型。在我们的实验中,我们训练了具有多达2000万个slots的网络。结果表明,我们的方法在给定的计算预算内实现了最先进的推理速度和模型性能。 论文: https://arxiv.org/pdf/2411.12364 2. Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Langua
………………………………