专栏名称: Python开发
分享Python相关技术文章、学习资料、视频教程、热点资讯、工具资源、课程书籍等。每天推送,欢迎投稿!
今天看啥  ›  专栏  ›  Python开发

常用Python爬虫库汇总

Python开发  · 公众号  ·  · 2024-12-18 18:00
    

文章预览

很多人学Python,都是从爬虫开始的,毕竟网上类似的资源很丰富,开源项目也非常多。 Python学习网络爬虫主要分3个大的版块:  抓取  ,  分析  ,  存储 当我们在浏览器中输入一个url后回车,后台会发生什么? 简单来说这段过程发生了以下四个步骤: • 查找域名对应的IP地址。 • 向IP对应的服务器发送请求。 • 服务器响应请求,发回网页内容。 • 浏览器解析网页内容。 那么学习爬虫需要掌握哪些库呢 通用: 1.urllib -网络库(stdlib)。 2.requests -网络库。 3.grab – 网络库(基于pycurl)。 4.pycurl – 网络库(绑定libcurl)。 5.urllib3 – Python HTTP库,安全连接池、支持文件post、可用性高。 6.httplib2 – 网络库。 7.RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。 8.MechanicalSoup -一个与网站自动交互Python库。 9.mechanize -有 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览