一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

实践指南: hzwer大佬的模型优化与迭代策略

深度学习自然语言处理  · 公众号  ·  · 2024-12-19 22:00
    

文章预览

知乎:黄哲威 hzwer (已授权) 链接:https://www.zhihu.com/question/31785984/answer/53910308820 编辑:深度学习自然语言处理 LLM所有细分领域群、投稿群从这里进入! 搭积木心得 从头造轮子已经不适合现在的深度学习生产方式了,很多方案都是把很多项目搭在一起 现在有一个定义好的任务和一个简单的基建可以跑出效果,不管是祖传的还是开源社区魔改来的,现在嫌结构不够先进,怎么换一块积木? 以图进图出任务为例,上网一搜光是结构有编解码 CNN,各种魔改 UNet,UNet + transformer,随便哪个还有一堆参数,怎么选? 找个大佬一问,指了几篇 ICLR 新论文,说这个结构听说上限高你试试,一搜都没代码 刷谷歌学术或者知乎,好像有非常多的新技术能用,连优化器好像都能换个新的 钻个牛角尖,两周就过去了,周会又要装死了。设计一整套新方案,不知道怎么 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览