文章预览
来源:知乎,编辑:Datawhale 地址: https://www.zhihu.com/question/299434830/answer/2141600017 观点一:Brain Is All You Need @全村的希望 的回答 图像的话直接人眼当CNN用,直接提取特征,别人还在慢吞吞的 transformer 的时候,你已经 根据大脑的 attention 给特征标出了自适应权重 ,这一步直接先领先别人一大截。 计算部分也只是麻烦一点点而已,首先先买两个算盘,一般情况下你就 双手进行并行运算 ,算的时候左脑和右脑最好分开运算,这样效率能提升许多。 最后还可以把珠子扳开进行 半精度运算 ,也能提升效率,脑子算热了就去顺便洗个头,然后午睡一下清一下脑脊液 矩阵乘法 就去汤家凤老师那边学一下三行四列的行列式是怎么算的,买本1800多练练 计算 最后你还不需要调参,这是最关键的,别人还在那边 AdamW 优化学习率,你这边 自适应超参 ,超过 sota 多
………………………………