文章预览
作者简介 李赛,中国人民大学统计与大数据研究院副教授。研究方向包括高维复杂数据的统计推断问题,机器学习和遗传学驱动的统计方法和理论,基于工具变量的因果推断等。 一、背景介绍 近年来,迁移学习方法与理论在统计学、机器学习、生物医学等领域被广泛研究与应用。在想法层面,迁移学习放弃了"从零开始"的路线,而是选择"站在巨人的肩膀上",即通过整合大量已有数据和信息,提升目标新任务的学习效率。 具体而言,迁移学习考虑存在多个数据集,包括 个源数据集和一个目标数据集,源数据集往往总样本量较大,目标数据集因为成本或道德的限制往往样本量较小。我们的目标是结合 个源数据集的信息,对目标数据集进行精准预测/估计/推断。注意我们允许收集的 个数据集是异质的,这里放宽了传统机器学习中的假设——训练数据
………………………………