文章预览
昨天发了一道跟方差有关的题目,尽管投票中很多人说会做,给出完整解答的只有一位同学。 该题目探索了一个很有意思的问题:假如去掉一些样本,能保证方差不减少,那应该去掉哪些样本?直观上, 应该去掉“中间”的样本。 事实上也是如此,我们必须去掉最中间的样本。这还不够,第二问揭示了去掉的样本在n+1两侧一样多。 第三问刻画了去掉的样本的“ 集中性”,也就是说这些去掉的样本应该比原样本更集中,因此方差才会更小。 标答对于第三问有两个做法: 第一个做法更为本质,直接刻画了可去除子集S在[n+1+m, 2n+1]中的占比,并得到:S在这个集合中的占比,不高于S在[1,2n+1]中的占比。 也就是说,S在靠近两侧的地方密度更低。 第二个做法更为快捷,直接巧妙地选取样本xi,使得样本的方差和下标集的方差直接挂钩
………………………………