文章预览
大语言模型走到哪了?最近一年,不断迭代背后的关键因素有哪些?未来尚有 哪些挑战和机遇? 在6月14日,北京智源大会大语言模型论坛中, Llama3、百川大模型、ChatGLM、MiniCPM等国内外知名模型的作者们 共同回答了关于大语言模型的一些关键问题,并给出了最新的论断: 北京大学助理教授贺笛: 高效Transformer在解决复杂推理问题时表现不如标准Transformer。 ChatGLM作者东昱晓: 大模型能力的涌现与预训练损失(loss)的降低相关,而非模型参数量或计算量的大小。 浙江大学副教授张宁豫: 从GPT-2到GPT-4,大语言模型不断迭代,其背后的系统工程或许是关键因素。 面壁智能CTO曾国洋: 模 型的知识密度不断提升,更小参数量能保存更多知识,因此端侧模型必然发展。 百川智能研究员王炳宁: 不能盲目依靠大数据和大参数,关键是单位时间内如何更好
………………………………