文章预览
↓ 推荐关注↓ 这个文章与其说是上分技巧,不如说是刷分技巧~~~ 很多论文你看了看发现变动不大,但是就是效果变好了,可以对应着看看这个文章,。 我估计,都在下面的总结了。 文章内容仁者见仁~~ 算力碾压 1.1 改大 batchsize,假装迭代次数对齐 1.2 多训 epoch,但是不明说,把训练长度换成以迭代次数报告,反之亦然,反正不能让人一眼看出来不对齐 1.3 epoch 数不变,但是一个样本用好几回,从而偷偷多过数据 1.4 把模型里下采样次数减小,模型计算量大了好几倍,但是只和别人比参数量 1.5 不在意计算量和参数量的领域狂堆算力 1.6 把算力很大的组件描述一笔带过,效率分析也只分析其它组件 1.7 用重参数化把模型搞的很大,训练很慢但是反正比推理开销 1.8 EMA / 多模型融合涨点,有条件还能自蒸馏 1.9 选个超级小的训练集,这样只要专心解决过
………………………………