专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

代码大模型(二)--OpenCoder

AINLP  · 公众号  ·  · 2024-11-13 10:08

文章预览

最近由M-A-P、无限光年、墨尔本大学、复旦大学等机构共同开发的OpenCoder开源了模型和部分数据,并且后续还会有更多资料放出。先来学习下技术报告的内容。 目前各个规模和阶段的模型在 https://huggingface.co/OpenCoder-LLM 可下载。 OpenCoder有1.5B和8B两个规模的模型,分别有base模型和instruct模型放出。 base模型和instruct模型的效果如下表,从表上数据来看还是不错的,基本上达到Qwen2.5-Coder的水平。 1.预训练数据 OpenCoder构建了RefineCode数据集用于预训练,RefineCode主要包含两部分数据:raw code和code-related web data。raw code主要来自github(截至2023年11月),并从The Stack V2数据集中补充非github数据;而code-related web data则从web语料库抽取。 RefineCode和The Stack数据集的对比如下,RefineCode包含了更多的code-related data,更多的rules,还有language specific rules。 raw code和code-related web ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览