专栏名称: 极客之家
关注互联网前沿技术,推荐好用的、实用的互联网项目,打开思路,开阔眼界,挖掘出每一个精品开源项目
今天看啥  ›  专栏  ›  极客之家

11k star,一个强大的 Java 版爬虫框架

极客之家  · 公众号  ·  · 2024-10-18 09:15

文章预览

webmagic 是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。 本项目在GitHub上有11.4K Star,非常热门,让不熟悉爬虫的小白也可以玩转爬虫。 申明:此教程仅供爬虫学习交流使用,切忌非法使用爬虫! 主要特色 完全模块化的设计,强大的可扩展性。 核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。 提供丰富的抽取页面API。 无配置,但是可通过POJO+注解形式实现一个爬虫。 支持多线程。 支持分布式。 支持爬取js动态渲染的页面。 无框架依赖,可以灵活的嵌入到项目中去。 总体架构 WebMagic的结构分为 Downloader 、 PageProcessor 、 Scheduler 、 Pipeline 四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。 快速开始 引入依 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览