专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
目录
相关文章推荐
今天看啥  ›  专栏  ›  包包算法笔记

大模型中有哪些形式简单却很巧妙的上分方法?

包包算法笔记  · 公众号  ·  · 2024-11-11 12:00
    

文章预览

作者:黄哲威 hzwer 链接:https://www.zhihu.com/question/347847220/answer/26536819499 前大模型时代写过一些深度学习的上分方法: 所有数据集上给神经网络刷分的通用方法 这里加一些hzwer分享的也适用于大模型的。 算力碾压 1.1 改大 batchsize,假装迭代次数对齐 1.2 多训 epoch,但是不明说,把训练长度换成以迭代次数报告,反之亦然,反正不能让人一眼看出来不对齐 1.3 epoch 数不变,但是一个样本用好几回,从而偷偷多过数据 1.4 把模型里下采样次数减小,模型计算量大了好几倍,但是只和别人比参数量 1.5 不在意计算量和参数量的领域狂堆算力 1.6 把算力很大的组件描述一笔带过,效率分析也只分析其它组件 1.7 用重参数化把模型搞的很大,训练很慢但是反正比推理开销 1.8 EMA / 多模型融合涨点,有条件还能自蒸馏 1.9 选个超级小的训练集,这样只要专心解决过拟 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览