专栏名称: 数盟
数盟(数据科学家联盟)隶属于北京数盟科技有限公司,数盟致力于成为培养与发现“数据科学家”的黄埔军校。 数盟服务包括:线下活动、大数据培训。 官网:http://dataunion.org,合作:contact@dataunion.org
目录
相关文章推荐
今天看啥  ›  专栏  ›  数盟

独家 | 手把手教你用Python进行Web抓取(附代码)

数盟  · 公众号  · 大数据  · 2018-11-23 22:00

文章预览

作者:Kerry Parker  翻译:田晓宁 校对:丁楠雅 本文 约 2900字 ,建议阅读 10分钟 。 本教程以在Fast Track上收集百强公司的数据为例,教你抓取网页信息。 作为一名数据科学家,我在工作中所做的第一件事就是网络数据采集。使用代码从网站收集数据,当时对我来说是一个完全陌生的概念,但它是最合理、最容易获取的数据来源之一。经过几次尝试,网络抓取已经成为我的第二天性,也是我几乎每天使用的技能之一。 在本教程中,我将介绍一个简单的例子,说明如何抓取一个网站,我将从Fast Track上收集2018年百强公司的数据: Fast Track: http://www.fasttrack.co.uk/ 使用网络爬虫将此过程自动化,避免了手工收集数据,节省了时间,还可以让所有数据都放在一个结构化文件中。 用Python实现一个简单的网络爬虫的快速示例,您可以在GitHub上找到本教程中所介 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览