注册
登录
专栏名称:
马哥Linux运维
马哥linux致力于linux运维培训,连续多年排名第一,订阅者可免费获得学习机会和相关Linux独家实战资料!
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
目录
相关文章推荐
InfoQ 架构头条
·
OpenAI 宣布采用竞对 ...
·
2 天前
今天看啥
›
专栏
›
马哥Linux运维
Python爬虫基础知识:百度贴吧网络爬虫及源码分享
马哥Linux运维
·
公众号
·
运维
· 2017-03-27 08:03
文章预览
糖豆贴心提醒,本文阅读时间6分钟 百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。 项目内容: 用Python写的百度贴吧的网络爬虫。 使用方法: 新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。 程序功能: 将贴吧中楼主发布的内容打包txt存储到本地。 原理解释: 首先,先浏览一下某一条贴吧,点击只看楼主并点击第二页之后url发生了一点变化,变成了: http://tieba.baidu.com/p/2296712428?see_lz=1 =1 可以看出来,see_lz=1是只看楼主,pn=1是对应的页码,记住这一点为以后的编写做准备。 这就是我们需要利用的url。 接下来就是查看页面源码。 首先把题目抠出 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
InfoQ 架构头条
·
OpenAI 宣布采用竞对 Anthropic 协议,一夜将 MCP 送上热搜!Karpathy:赶紧歇了吧
2 天前
哲学王读书
·
简直被这些脑残气笑了!
8 月前
卢诗翰
·
#2025年直播人才缺口将超过1900万# #网络主播的类型到底-20241107164011
5 月前
许斐
·
再来给大家看一组,太空银 车身色美图真的太好看了!#小米 SU7-20250214141104
1 月前
宁夏药安早知道
·
2025年国家药品抽检工作会召开
1 月前
三观大厦
·
[干货]怎么不花冤枉钱的给父母买保险?
1 周前