文章预览
去年年初大家讲涌现讲得比较多,因为大模型存在涌现现象,所以大家都对大模型的发展非常乐观。涌现的本质是有些困难的任务小模型做不了,大模型突然就能做了,这自然带给大家对未来乐观的预期:就是说我将来把模型做得更大一点,现在尽管很多事都做不好,但是将来一定能做好,所以说大家非常乐观。去年年初的时候大家讲得比较多,2023年年中出了一篇论文(Are Emergent Abilities of Large Language Models a Mirage?)说涌现是不存在的,把这条线给否掉了,那它到底存在不存在?我有几点看法。 第一,先说那个文章是怎么说这个事的,它是这么说的:如果我选一个不平滑的指标来评估一个任务的性能,比如说任务的准确率,我们就会看到涌现现象,模型小效果就不行,到了一定规模突然就变好了。如果用每个token的错误率,这就是平滑的一个指标,
………………………………