文章预览
一转眼有半年没发技术文章了。虽然最近半年在持续做 LLM 应用相关的开发工作,不过大家可能也明显感觉到,最近一段时间那种“刷新认知”的技术或应用变化并不多,所以也一直没有足够的激情来写新文章。 模型进展 从模型角度来说,自从去年 3 月 GPT-4 发布以来,我们好像没有看到太多令人激动的模型能力的大幅提升。虽然做大模型的人经常会提我们可以期望模型能力很快会有 10 倍的提升,但仔细拆解下,模型能力的提升的方向可能跟我们想的并不太一样。 如果把模型能力分成感知,推理 (reasoning),生成三个方面,很多做 Agent 应用的同学最关注的还是推理能力。但最近一年模型能力的主要进展似乎集中在感知和生成方面,也就是各种多模态能力的补全。例如 Sora 的视频生成能力,GPT-4o 的语音能力,Suno.ai 的音乐生成等。多模态能力的增强
………………………………