文章预览
【点击】 加入大模型技术交流群 写在前面 今天给大家带来一篇震宇兄(@知乎邱震宇) 探讨大模型技术在提升传统NLP类任务效果上的应用方式 的文章,主要从文本分类任务出发。 知乎:https://zhuanlan.zhihu.com/p/704983302 PS:长文警告!建议收藏后,慢慢阅读! 以chatgpt为起始节点的大模型技术经过了两年左右的发展,大致沉淀了一些较为确定的研究领域。首先是基座大模型的研究,主要是国内外大厂集中大量财力、人力、算力进行大模型军备竞赛,企图将大模型的基础能力(包括推理能力)上限逐步提升到更高的层次。当然也有一些研究机构致力于改进transformer的架构或者提出其他更先进的基础模型结构,在性能或者效率上做文章,例如MOE,Mamba等;多模态模型,让大模型同时能够理解并生成图像、音频、视频、文字等多种模态的信息,例如大火的Sora
………………………………