文章预览
我的课程笔记,欢迎关注:https://github.com/BBuf/how-to-optim-algorithm-in-cuda/tree/master/cuda-mode 第13课,Ring Attention 课程笔记 Overview部分主要介绍了长上下文Transformer模型及其相关应用的几个主题。具体内容如下: 动机:长上下文Transformer模型及其应用 回顾:普通注意力机制、在线Softmax、对数和指数计算 Ring Attention Striped Attention Flash Decoding 这张slides展示了一下当前流行的LLM的上下文长度越来越长,特别的Gemini 1.5 Pro将上下文长度扩展到了1M。 这张Slides介绍了长上下文模型(Long-context Magic)的能力和应用,主要内容如下: 左侧展示了一个视频时间轴,从00:00:00到00:59:59,表明模型可以处理长达1小时的视频内容。 中间部分展示了一个问答示例: 用户问:"人的车里有多少个柠檬?" 几个不同的AI模型(GPT-4V, Gemini Pro Vision, Video-LLaVA)都无法正确回答这个问题。 而L
………………………………