【ICML2024】PrE-Text：在大规模语言模型（LLM）时代对私人联邦数据进行语言模型训练

专知 · 公众号 · · 2024-06-07 14:00

文章预览

设备上的训练是目前在私人、分布式用户数据上训练机器学习（ML）模型的最常见方法。尽管如此，设备上的训练存在几个缺点：（1）大多数用户设备太小，无法在设备上训练大型模型，（2）设备上的训练对通信和计算资源需求很高，（3）设备上的训练难以调试和部署。为了解决这些问题，我们提出了Private Evolution-Text（PrE-Text），一种生成差分隐私（DP）合成文本数据的方法。首先，我们展示了在多个数据集上，使用PrE-Text合成数据训练的小模型（适合在用户设备上运行的模型）在实际隐私制度下（ϵ = 1.29，ϵ = 7.58）优于在设备上训练的小模型。我们在使用9倍更少的轮次、每轮次6倍更少的客户端计算和每轮次100倍更少的通信的情况下实现了这些结果。其次，在PrE-Text的DP合成数据上微调大型模型提高了大型语言模型（LLM）在相同隐私预算范围内的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

直播海南 · 甲流来袭，宝妈们要当心！这份预防攻略快收好

昨天

地理蹊 · 考前每日练 | 哀牢山环境复杂，禁区内闲人勿扰（2025届211）

4 天前

大周先生 · 终于...有人站出来了！

7 月前

云南网 · 这种蔬菜大量上市，很多人爱吃！医生提醒：请正确烹煮，中毒没有特效解毒剂

4 月前

爱可可-爱生活 · 神经网络中的奥卡姆剃刀悖论，其实并不是真正的矛盾。“简单即是美”-20250104165706

1 周前