主要观点总结
本文总结了计算机视觉领域中为了提高模型性能而采用的一系列策略和方法,包括调整训练策略、改变模型结构、优化超参数、使用复杂训练技巧等。
关键观点总结
关键观点1: 训练策略与模型结构调整
包括增大batch size、多训练epoch、调整样本使用次数、改变模型的下采样次数等,旨在通过不同的训练策略提高模型的性能。
关键观点2: 超参数优化
通过调整学习率、优化器超参数、随机种子等,来改进模型的性能。其中有些超参数被隐藏在代码里,成为magic number。
关键观点3: 模型组件替换与增加
将模型的relu替换为swish或leaky relu等,增加SE layer、便宜的attention连接等,通过模组之间的不同组合来提高模型性能。
关键观点4: 增量设计与复杂性增加
包括使用复杂的损失函数、扩展模型组件、加入预训练参数等,以提高模型的起点和上限。
关键观点5: 测试方法与评价指标的多样性
使用多种测试方法和评价指标,例如只报告部分进步的指标、故意让测试方法和训练场景不对齐等,来优化测试结果。
关键观点6: 终极方法的使用与注意事项
包括抄袭并更名别人的方法、报告高性能但实际并未开源实验验证、直接写论文不实验等,提醒使用者需要注意这些方法可能存在的问题和风险。
文章预览
点击上方“ 计算机视觉工坊 ”,选择“星标” 干货第一时间送达 内容来自知乎,「计算机视觉工坊」整理,如有侵权请联系删除 https://www.zhihu.com/question/347847220 作者: 黄哲威 hzwer 算力碾压 1.1 改大 batchsize,假装迭代次数对齐 1.2 多训 epoch,但是不明说,把训练长度换成以迭代次数报告,反之亦然,反正不能让人一眼看出来不对齐 1.3 epoch 数不变,但是一个样本用好几回,从而偷偷多过数据 1.4 把模型里下采样次数减小,模型计算量大了好几倍,但是只和别人比参数量 1.5 不在意计算量和参数量的领域狂堆算力 1.6 把算力很大的组件描述一笔带过,效率分析也只分析其它组件 1.7 用重参数化把模型搞的很大,训练很慢但是反正比推理开销 1.8 EMA / 多模型融合涨点,有条件还能自蒸馏 1.9 选个超级小的训练集,这样只要专心解决过拟合 超参数 2.1 通过
………………………………