文章预览
本文作者系360奇舞团前端开发工程师 概念 网络爬虫是 伪装成客户端 与服务端进行数据交互的程序,重点模拟人的行为 爬虫的步骤 发起网络请求 爬虫请求模块 requests:requests是Python中使用最广泛的HTTP请求库,可以发送HTTP/HTTPS请求,同时支持Cookie、文件上传等功能 urllib:是Python的标准库之一,提供了用于打开和读取URL的接口 import requests res = requests.get( 'demo.com/?1' ) print (res.content) User-Agent 的设置 User-Agent可以让服务器了解客户端所使用的操作系统、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等 设置的作用:模拟不同的客户端环境,不仅可以规避某些网站对爬虫的封禁和限制 自定义代理池 ua_list = [ 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0' , 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.1
………………………………