探讨大模型在传统NLP任务的使用姿势

吃果冻不吐果冻皮 · 公众号 · · 2024-06-26 12:42

文章预览

【点击】加入大模型技术交流群写在前面今天给大家带来一篇震宇兄（@知乎邱震宇）探讨大模型技术在提升传统NLP类任务效果上的应用方式的文章，主要从文本分类任务出发。知乎：https://zhuanlan.zhihu.com/p/704983302 PS：长文警告！建议收藏后，慢慢阅读！以chatgpt为起始节点的大模型技术经过了两年左右的发展，大致沉淀了一些较为确定的研究领域。首先是基座大模型的研究，主要是国内外大厂集中大量财力、人力、算力进行大模型军备竞赛，企图将大模型的基础能力（包括推理能力）上限逐步提升到更高的层次。当然也有一些研究机构致力于改进transformer的架构或者提出其他更先进的基础模型结构，在性能或者效率上做文章，例如MOE，Mamba等；多模态模型，让大模型同时能够理解并生成图像、音频、视频、文字等多种模态的信息，例如大火的Sora ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博