文章预览
来源:AI大镖客 作为起点的数据相关问题 数据获取 Q7. 企业获取AI训练数据有哪些来源? 在我国现行法律框架下,AIGC企业训练数据获取的可能合法渠道主要有以下三种:一是合法爬取数据,即自主编写或使用爬虫工具,从公开网页上批量自动化采集所需数据;二是直接使用现有的开源数据集,即被其他数据主体因公益性目的主动开放的数据;三是在数据交易所直接购买现成的数据集。 Q8. 爬取数据应当符合什么规范?需要考虑Robots协议吗? 合法爬取数据需要满足三个条件: 首先,被爬取数据应当为数据或数据所在网站的直接或间接所有者自发完全开放、任何人均可自由取用的数据,若爬取不开放或仅部分开放的数据,则可能涉嫌侵犯他人数据权益。 其次,爬取行为应当尊重网站运营者的意愿。例如许多网站运营者可能会主动设置反爬措施,如设
………………………………