专栏名称: 腾讯安全
致力于成为产业数字化升级的安全战略官,守护政府及企业的数据、系统、业务安全,为产业数字化升级保驾护航
今天看啥  ›  专栏  ›  腾讯安全

警惕!你的数据快被AI爬虫爬完了!

腾讯安全  · 公众号  ·  · 2024-07-30 18:45

文章预览

最近一两年,全世界科技圈最火的话题就是AI大模型了。 各种文生文、文生图乃至文生视频大模型横空出世,顷刻间满足了人类对未来世界的畅想,诞生了无数商机与可能性。 各家人工智能公司都摩拳擦掌,倾尽全力打造自己的大模型,希望能在这场全新的科技拉力赛中占据领先位置。 但,繁荣和进步的背后,也隐藏着巨大的数据安全危机。 众所周知,海量的数据是训练大模型的必备材料。就像想发动一辆车需要汽油一样,想把大模型训练好,就需要大量优质的数据来做“汽油”。比如,OpenAI在训练GPT-4时使用了大约13万亿个token,按照Epoch的研究员Pablo Villalobos预测,GPT-5大约需要60到100万亿个token才能实现预期中的效果增长。而这些token,正来自于海量的数据。 而规模如此庞大的数据又从何而来呢?当然是来自于互联网啦。 在过去一两年的时间内 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览