专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

微软、上海交通等发布首届数据污染报告，开闭源模型皆被污染

AIGC开放社区 · 公众号 · · 2024-12-03 06:15

文章预览

专注AIGC领域的专业社区，关注微软、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！随着GPT-4、o1等大模型的出现，生成式AI产品迎来了井喷式增长，但数据污染问题却给模型的准确性和可靠性带来了严重挑战。简单来说，数据污染是指在自然语言处理中，评估数据被无意中包含在预训练数据集中，从而影响模型评估结果的情况。为了深入研究数据污染问题，麻省理工、上海交通、哈佛大学、微软研究院、IBM、剑桥大学等20多家机构联合召开了首届数据污染（2024CONDA）研讨会，旨在收集当前可用数据集和模型中数据污染的证据并公布了实际情况。研究人员主要通过公开的拉取请求收集所有污染证据，并在接收前进行讨论。贡献者需要填写几个关键信息，例如，受污染的资源、在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

环保人 · 环评写了处理效率，验收就要监测处理效率？就要监测处理前的浓度？不要的话有什么依据？

22 小时前

小学数学 · 【口算练习85】1-6年级小学数学口算专项练习

2 天前

超级数学建模 · 限时领 | 苹果最新惊艳全网大作《小小世界》一二季来了！神奇世界处处充满爱

2 天前

小学数学 · 思维训练：1-6年级思维训练每日一题-737期

5 天前

环保人 · 万一环评表遗漏了规划的敏感保护目标，怎么申辩？有无官方文件资料依据？！

5 天前

USTC计算几何实验室 · GCL学术成果：SIGGRAPH Asia 2024—基于多视图一致性扩散模型的多视图转换方法

3 月前

京师就业 · 星辰公开课 | 2025年公考书展活动（四）

1 月前

氧叔本叔 · 范冰冰亲选的内娱继承者，刚崭露头角就被压得毫无水花？

1 周前