专栏名称: 张俊林say
自然语言处理
今天看啥  ›  专栏  ›  张俊林say

LLama 3 405B模型效果已经赶上目前最好的闭源模型比如G-20240724201003

张俊林say  · 微博  ·  · 2024-07-24 20:10
    

文章预览

2024-07-24 20:10 本条微博链接 LLama 3 405B模型效果已经赶上目前最好的闭源模型比如GPT 4o和Claude 3.5,这算是开源届的大事,技术报告接近100页,信息很丰富,粗略看了一下,很有启发。这里就LLaMA 3的模型结构、训练过程做些解读,并对其影响、小模型如何做、合成数据等方面谈点看法。 一.LLaMA 3模型结构 LLaMA 3的模型结构如图1所示,这基本已经形成目前Dense LLM模型的标准结构了,绝大多数LLM模型结构都与此非常接近。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览