专栏名称: 奇舞精选
《奇舞精选》是由奇舞团维护的前端技术公众号。除周五外,每天向大家推荐一篇前端相关技术文章,每周五向大家推送汇总周刊内容。
今天看啥  ›  专栏  ›  奇舞精选

python爬虫

奇舞精选  · 公众号  ·  · 2024-07-04 18:00

文章预览

本文作者系360奇舞团前端开发工程师 概念 网络爬虫是 伪装成客户端 与服务端进行数据交互的程序,重点模拟人的行为 爬虫的步骤 发起网络请求 爬虫请求模块 requests:requests是Python中使用最广泛的HTTP请求库,可以发送HTTP/HTTPS请求,同时支持Cookie、文件上传等功能 urllib:是Python的标准库之一,提供了用于打开和读取URL的接口 import requests  res = requests.get( 'demo.com/?1' ) print (res.content) User-Agent 的设置 User-Agent可以让服务器了解客户端所使用的操作系统、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等 设置的作用:模拟不同的客户端环境,不仅可以规避某些网站对爬虫的封禁和限制 自定义代理池 ua_list = [      'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0' ,      'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.1 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览