文章预览
Datawhale分享 测评结果:DeepSeek,编辑:量子位 DeepSeek-R1,正在接受全球网友真金白银的检验。 花30秒用manim代码制作解释勾股定理的动画,一次完成无错误。 为了玩上这样的模型,有人花上10多万元,组7台M4 Pro Mac mini+1台M4 Max Macbook Pro的家用超算。 总计496G显存(64*7+48),才能跑起个4bit量化版,但属实算得上“家用AGI”配置了。 另一个极端是选择R1数据蒸馏版Qwen 1.5B小模型,小到浏览器就能跑,每秒能输出60个tokens。 与此同时,各种榜单也在抓紧测试,纷纷跑出了结果。 R1横扫各大榜单 首先是LiveBench,与LiveCodeBench一样,题目是随时间更新的,所以相对受认可。 R1的表现在o1-preview到o1之间,其中只有数据一项超过o1。 不过再带上成本成本约1/30这个条件看,又是不一样的感觉,给老哥整无语了。 唯一的抱怨是上下文窗口太短。 o1系列一战成名的AR
………………………………