专栏名称: 马哥Linux运维
马哥linux致力于linux运维培训,连续多年排名第一,订阅者可免费获得学习机会和相关Linux独家实战资料!
相关文章推荐
今天看啥  ›  专栏  ›  马哥Linux运维

从零开始的 Python 爬虫速成指南

马哥Linux运维  · 公众号  · 运维  · 2017-10-01 11:06
    

主要观点总结

本文介绍了以最短时间编写最简单的爬虫的方法,可以抓取论坛的帖子标题和帖子内容。受众为没有写过爬虫的萌新,需要准备Python、Scrapy和一个IDE或文本编辑工具。

关键观点总结

关键观点1: 准备工作

需要准备Python、Scrapy和一个IDE或文本编辑工具。

关键观点2: 建立工程

通过命令行建立一个工程,工程名为miao(可以替换为你喜欢的名字)。通过scrapy startproject miao创建目录结构,在spiders文件夹中创建一个python文件,如miao.py,作为爬虫的脚本。

关键观点3: 解析页面

使用xpath定位页面元素,提取帖子标题和url。递归抓取每个帖子的内容,使用yield Request将抓取的内容交给parse_topic函数解析。

关键观点4: 处理内容

定义Item来描述爬取的结果,包括url、标题和内容等。通过pipelines处理已抓取、解析后的内容,可以写入本地文件或数据库。

关键观点5: 配置Middleware和Pipeline

通过Middleware配置请求信息,如设置UA、代理等。通过Pipeline配置处理爬取的结果,如写入文件、数据库等。

关键观点6: 调试和配置

使用Pycharm作为开发调试工具,配置运行参数和工作环境。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照