文章预览
摘要:大模型能力提升不断解锁新的应用场景 过去一年,大模型能力的发展速度超出我们预期。以衡量 LLM 的常用的多语言理解均值评 测标准(MMLU)为例,2021 年底全球最先进大模型的 MMLU 5-shot 得分刚达到 60%, 2022 年底超过 70%,而 2023 年底已提升至超过 85%。在语言能力之外,AI 大模型的多模 态能力也快速提升。2023 年初,主流闭源大模型通常为纯文本的 LLM。2023 年至今,闭 源模型的多模态能力具有大幅度提升,目前主流闭源大模型通常具备图像理解、图像生成 能力。部分最前沿的闭源大模型,例如 GPT-4o、谷歌 Gemini,支持的模态更加多元,能 够理解文本、图像、音频、视频(帧),并生成文本、图像、音频。2022 年 9 月,红杉资 本预计还需要近十年的时间,大模型才能实现实习生级别的代码生成、好莱坞质量的视频 和区别于机械声的人类质
………………………………