今天看啥  ›  专栏  ›  硅星人Pro

大模型混入0.001%假数据就「中毒」,成本仅5美元!NYU新研究登Nature子刊

硅星人Pro  · 公众号  · 科技媒体  · 2025-02-05 10:03
    

文章预览

文章转载于新智元 LLM训练的一个核心原则,通常表达为「垃圾输入,垃圾输出」,指出低质量的训练数据会导致模型产生同样低劣的输出。 由于LLM通常使用互联网上大规模爬取的文本作为训练材料,难以被筛选的有害内容就会成为一个持久的漏洞。对于医疗相关的大模型,数据污染尤其令人担忧,因为应用领域的特殊性,错误输出对诊断结果和病人护理产生的不利影响要严重得多。 那么,数据污染究竟在多大程度上会成为问题?是否需要将数据集中相当大比例的数据替换为包含虚假信息的数据,才能让大模型「中毒」? Nature Medicine看灯的一项最新研究指出,并不需要想象的那么多。 论文地址:https://www.nature.com/articles/s41591-024-03445-1 1 搞坏一款大模型有多容易 研究者通过使用OpenAI GPT-3.5 API并进行提示工程,为外科、神经外科和药物三个医学子领 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览