专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

小模型站起来了,浏览器里跑出SOTA,抱抱脸:快逃,合成数据不是未来

量子位  · 公众号  · AI  · 2024-08-19 13:20

文章预览

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 浏览器里直接能跑的SOTA小模型来了,分别在2亿、5亿和20亿级别获胜,抱抱脸出品。 秘诀只有两个: 狠狠地过滤数据 在高度过滤的数据集上狠狠地训练 抱抱脸首席科学家 Thomas Wolf ,总结团队在开发小模型时的经验,抛出新观点,引起业界关注: 合成数据目前只在特定领域有用 ,网络是如此之大和多样化,真实数据的潜力还没完全发挥。 目前360M模型版本已发布Demo,在线可玩(注意流量)。 在浏览器里调用本地GPU运行,连模型权重带网页前端UI,400MB搞定。 严格过滤网络数据,性能直线上升 针对微软Phi系列小模型,声称使用了一半合成数据,效果很好,但不公开数据。 开源界扛把子抱抱脸看不下去了: 造一个对标的大型合成数据集,开源它。 而且,团队隐隐暗示了,此举也有检验微软在测试集上刷榜的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览