专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
目录
相关文章推荐
OSC开源社区  ·  我爱你,中国! ·  2 天前  
程序猿  ·  “有了 Copilot ... ·  4 天前  
今天看啥  ›  专栏  ›  OSC开源社区

40 行代码拿下拉勾网招聘数据

OSC开源社区  · 公众号  · 程序员  · 2017-05-01 08:28

文章预览

#  点击图片报名上海、南京源创会  # 摘要: 最近在学MapReduce,出于练手的想法,把拉钩网上的招聘信息拿下做一次分析。 环境: ubuntu : 16.04 python : 3.5.2 scrapy : 1.3.3 编辑器 : vim 分析拉勾网(http://www.lagou.com): 可以看到在左侧有着各行各业的招聘信息,今天就把各行各业的招聘都给拿下来。 创建一个scrapy爬虫项目: 使用基本(basic)模板创建一个蜘蛛(spider): 整个项目目录结构如下: 配置settings.py文件: 设置请求头(可以根据自己需要设置): 配置ITEM_PIPELINES优先级: '''爬太快对人家网站不太好'''',所以设置我设置0.5一次: 最后配置图如下 编写items.py文件(item文件定义抓取数据格式): 因为这里只需要职位的序号,薪水,公司名称,职位名称,公司位置。所以items ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览