文章预览
第一原则, 别错 。 很多人会开发模型,但这其实一点用都没有,实习生也会开发模型,稍微会写代码的学过数学的都会开发模型。拿一个现成的数据集,按照某些流程训练一个模型,太容易了。 然后忘了生产。离线做了一堆乱七八糟的特征处理,没想过线上生产的问题,例如 /n 和 /(n-1) 的问题,例如类别变量的 mapping ,例如各种异常值的处理。还有,网格搜索调参,找到了非常离谱的模型结构,其实都是不懂。 怎么解决呢?你得先有这个意识,知就会行,最后通过一致性验证来保证。开发是一套数据处理和模型打分的逻辑,生产是另一套,只有通过真实的样本验证两种打分的一致性,你才能无限接近 100% 地杜绝错误。 第二呢, 异常的处理 ,包括性能不足的超时。 异常返回什么,超时返回什么,通过还是拒绝,不同的环节可能都不一样。不是
………………………………