文章预览
最近由M-A-P、无限光年、墨尔本大学、复旦大学等机构共同开发的OpenCoder开源了模型和部分数据,并且后续还会有更多资料放出。 先来学习下技术报告的内容。 目前各个规模和阶段的模型在 https://huggingface.co/OpenCoder-LLM 可下载。 OpenCoder有1.5B和8B两个规模的模型,分别有base模型和instruct模型放出。 base模型和instruct模型的效果如下表,从表上数据来看还是不错的,基本上达到Qwen2.5-Coder的水平。 1.预训练数据 OpenCoder构建了RefineCode数据集用于预训练,RefineCode主要包含两部分数据:raw code和code-related web data。raw code主要来自github(截至2023年11月),并从The Stack V2数据集中补充非github数据;而code-related web data则从web语料库抽取。 RefineCode和The Stack数据集的对比如下,RefineCode包含了更多的code-related data,更多的rules,还有language specific rules。 raw code和code-related we
………………………………