下一个词预测并不是最佳？港城大提出NDP（下一个分布预测）| 大模型中迁移学习的缩放规律研究 | 训练超高长度上下文语言模型

AI for Research · 公众号 · 科技自媒体科技媒体 · 2024-09-02 15:44

主要观点总结

本文介绍了近期在学术领域发布的一系列论文，包括关于大型语言模型（LLM）的研究进展、多模态模型在城市场景中的应用、视觉Transformer的自监督学习机制调查、医疗图像分割的低数据实现、时序与交互建模以及视觉模型的训练策略改进等。这些论文涵盖了多个方面，包括语言模型的改进、模型效率提升、多模态模型评估、医疗图像分析、视觉模型训练等。

关键观点总结

关键观点1: 大型语言模型（LLM）的研究进展

论文讨论了LLM在预测次优独热分布、n-gram分布和下一个分布预测（NDP）方法等方面的研究成果，展示了其在多个领域的实用价值。

关键观点2: 多模态模型在城市场景中的应用

论文提出了用于评价大型多模态模型在复杂多视图城市场景中性能的全面基准测试（UrBench）。

关键观点3: 视觉Transformer的自监督学习机制调查

论文探讨了自监督学习在视觉任务中的应用，特别是视觉Transformer模型的自监督学习机制。

关键观点4: 医疗图像分割的低数据实现

论文展示了生成式AI在医疗图像分割中的潜力，特别是在低数据环境下的应用。

关键观点5: 时序与交互建模

论文提出了TIM（时序与交互建模），一个针对人与人动作生成的效率与有效性模型，解决了现有方法中存在的问题。

关键观点6: 视觉模型的训练策略改进

论文提出了改进视觉模型训练的有效策略，包括随机层间洗牌和动态输入缩放等，以提高模型的泛化能力和性能。

文章预览

前言：论文可以让你更快地了解最新研究进展，掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要，尤其是在快速发展的学科领域，下面小编带你来看大模型最近的研究成果。 1. NDP：作为更广泛目标的下一个分布预测标题： NDP: Next Distribution Prediction as a More Broad Target 机构：香港城市大学关键词：大型语言模型、下一个分布预测、n-gram分布、独热目标作者： Junhao Ruan, Abudukeyumu Abudula, Xinyu Liu 分析：本文批评了基于单一目标（下一个令牌预测）的大型语言模型（LLM）训练方式的局限性，并指出了由于其训练时目标过窄，即预测次优独热分布所带来的问题。通过预实验观察，该论文发现LLM的输出分布与n-gram分布更一致。因此，该论文提出了下一个分布预测（NDP）方法，使用n-gram分布替代独热目标，能够在不增加额 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博