专栏名称: AI有道
一个有情怀、有良心的公众号。AI领域机器学习、深度学习等知识集中营,干货满满。期待与你共同进步!
今天看啥  ›  专栏  ›  AI有道

训练大模型,这次竟卡在没图这里了。。。

AI有道  · 公众号  ·  · 2024-11-22 10:55

文章预览

作为一个 10 年经验的 AI 从业者,我一直相信这条铁律: 在训练 AI 模型时,数据就是核心,不管是深度学习目标检测、图像分类、大模型训练,都毫无疑问需要大量图像样本作为支撑。 可是,想要从网上抓到足够多的高质量图像数据,并不是一件轻松的事。直接使用爬虫爬取网络图片是常规办法。但是,直接暴力的爬虫方法可能会面临各种问题: 1、IP 封禁 : 如果一个 IP 频繁访问同一个网站,尤其是短时间内抓取大量图片,网站可能会认为这是“非正常”行为,结果直接把IP封禁了。 2、地域限制 : 有的网站会对不同国家的访问做出限制。 比如一些国外资源,国内 IP 可能无法访问,或内容会有差异。 3、隐私 风险 : 如果是用自己公司的 IP 去爬数据,很容易暴露自己的真实身份,还可能带来一些不必要的麻烦和风险。 那么,怎么解决这些问题 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览