代码大模型OpenCoder技术报告解读

包包算法笔记 · 公众号 · · 2024-11-14 10:00

文章预览

最近由M-A-P、无限光年、墨尔本大学、复旦大学等机构共同开发的OpenCoder开源了模型和部分数据，并且后续还会有更多资料放出。先来学习下技术报告的内容。目前各个规模和阶段的模型在 https://huggingface.co/OpenCoder-LLM 可下载。 OpenCoder有1.5B和8B两个规模的模型，分别有base模型和instruct模型放出。 base模型和instruct模型的效果如下表，从表上数据来看还是不错的，基本上达到Qwen2.5-Coder的水平。 1.预训练数据 OpenCoder构建了RefineCode数据集用于预训练，RefineCode主要包含两部分数据：raw code和code-related web data。raw code主要来自github（截至2023年11月），并从The Stack V2数据集中补充非github数据；而code-related web data则从web语料库抽取。 RefineCode和The Stack数据集的对比如下，RefineCode包含了更多的code-related data，更多的rules，还有language specific rules。 raw code和code-related we ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

安徽商报 · 黄山风景区刚刚通报：有游客失联，搜寻仍在进行中！

19 小时前

安徽商报 · 黄山风景区刚刚通报：有游客失联，搜寻仍在进行中！

19 小时前

销售与市场 · “搞抽象”的董明珠，在做一场危险的品牌实验

昨天

黑马营销 · 短剧全球化浪潮来袭，谁才最大赢家？

昨天

廣告狂人 · 格力改名，市场部天塌了！

3 天前

李楠或kkk · 谢谢。我们做产品的无以为报，只能拿出更好的东西了。-20240711183028

7 月前