从零开始的 Python 爬虫速成指南

马哥Linux运维 · 公众号 · 运维 · 2017-10-01 11:06

主要观点总结

本文介绍了以最短时间编写最简单的爬虫的方法，可以抓取论坛的帖子标题和帖子内容。受众为没有写过爬虫的萌新，需要准备Python、Scrapy和一个IDE或文本编辑工具。

需要准备Python、Scrapy和一个IDE或文本编辑工具。

通过命令行建立一个工程，工程名为miao（可以替换为你喜欢的名字）。通过scrapy startproject miao创建目录结构，在spiders文件夹中创建一个python文件，如miao.py，作为爬虫的脚本。

使用xpath定位页面元素，提取帖子标题和url。递归抓取每个帖子的内容，使用yield Request将抓取的内容交给parse_topic函数解析。

定义Item来描述爬取的结果，包括url、标题和内容等。通过pipelines处理已抓取、解析后的内容，可以写入本地文件或数据库。

通过Middleware配置请求信息，如设置UA、代理等。通过Pipeline配置处理爬取的结果，如写入文件、数据库等。

使用Pycharm作为开发调试工具，配置运行参数和工作环境。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博