【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

专知 · 公众号 · · 2024-09-09 12:00

文章预览

大型生成模型带来了惊人的成果，并彻底改变了人工智能。在本论文中，我将讨论我在推进这些模型基础上的研究，重点解决从现有数据中学习的瓶颈以及超越现有知识发现的挑战。首先，我将描述我们为消除Transformer架构的上下文大小限制所做的努力。我们的建模和训练方法，包括BlockwiseTransformer和RingAttention，允许在保持可扩展性的同时实现近乎无限的上下文大小。接下来，我将讨论大上下文在世界模型学习和决策中的应用。这包括Large World Model，这是世界上首个人工智能，能够在百万个标记的上下文中同时对文本、图像和小时级视频进行建模。然后，我将介绍我的研究，旨在让AI能够发现数据并自主学习。我将讨论我们在无需人为指定领域知识的情况下学习游戏技能的工作，为超越模仿现有数据的学习铺平道路。最后，我将展望我们应构建的下 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博