专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
今天看啥  ›  专栏  ›  包包算法笔记

代码大模型OpenCoder技术报告解读

包包算法笔记  · 公众号  ·  · 2024-11-14 10:00

文章预览

最近由M-A-P、无限光年、墨尔本大学、复旦大学等机构共同开发的OpenCoder开源了模型和部分数据,并且后续还会有更多资料放出。 先来学习下技术报告的内容。 目前各个规模和阶段的模型在 https://huggingface.co/OpenCoder-LLM 可下载。 OpenCoder有1.5B和8B两个规模的模型,分别有base模型和instruct模型放出。 base模型和instruct模型的效果如下表,从表上数据来看还是不错的,基本上达到Qwen2.5-Coder的水平。 1.预训练数据 OpenCoder构建了RefineCode数据集用于预训练,RefineCode主要包含两部分数据:raw code和code-related web data。raw code主要来自github(截至2023年11月),并从The Stack V2数据集中补充非github数据;而code-related web data则从web语料库抽取。 RefineCode和The Stack数据集的对比如下,RefineCode包含了更多的code-related data,更多的rules,还有language specific rules。 raw code和code-related we ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览