专栏名称: 数盟

数盟（数据科学家联盟）隶属于北京数盟科技有限公司，数盟致力于成为培养与发现“数据科学家”的黄埔军校。数盟服务包括：线下活动、大数据培训。官网：http://dataunion.org，合作：contact@dataunion.org

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

独家 | 手把手教你用Python进行Web抓取（附代码）

数盟 · 公众号 · 大数据 · 2018-11-23 22:00

文章预览

作者：Kerry Parker 翻译：田晓宁校对：丁楠雅本文约 2900字，建议阅读 10分钟。本教程以在Fast Track上收集百强公司的数据为例，教你抓取网页信息。作为一名数据科学家，我在工作中所做的第一件事就是网络数据采集。使用代码从网站收集数据，当时对我来说是一个完全陌生的概念，但它是最合理、最容易获取的数据来源之一。经过几次尝试，网络抓取已经成为我的第二天性，也是我几乎每天使用的技能之一。在本教程中，我将介绍一个简单的例子，说明如何抓取一个网站，我将从Fast Track上收集2018年百强公司的数据： Fast Track： http://www.fasttrack.co.uk/ 使用网络爬虫将此过程自动化，避免了手工收集数据，节省了时间，还可以让所有数据都放在一个结构化文件中。用Python实现一个简单的网络爬虫的快速示例，您可以在GitHub上找到本教程中所介 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博