文章预览
核心结论 树模型的训练细节 输入特征的构造: 树模型需要人工构造特征来捕捉时间依赖性。以纯截面70特征为输入的模型表现,明显弱于以添加时序信息的430特征为输入的模型,IC低1pct以上,RANKIC低接近2pct,ICIR和RANKICIR也有较大差距,多头年化超额低7pct以上。 数据预处理方案的选择: 解释变量X截面上进行稳健的Zscore标准化,减小异常值对标准化结果的影响。预测标签Y截面上进行Zscore标准化。 调参技巧: 使用Optuna调参方法,调参后模型在测试集上的效果有明显提高,IC和RANKIC提高近1pct,多头年化超额提高近4pct。 随机种子的影响: 不同种子下得到的模型表现较为接近,IC和RANKIC相差都在0.5pct以内,多头年化超额相差2pct以内。不同种子下得到的模型相关性很高。 树模型和神经网络模型的比较: 相 同输入特征下,MLP、GRU模型效果均不如XGB模型,
………………………………