专栏名称: 船山信安
船山院士网络安全团队唯一公众号,为国之安全而奋斗,为信息安全而发声!
今天看啥  ›  专栏  ›  船山信安

关于URL采集的构想与实现

船山信安  · 公众号  ·  · 2024-08-22 00:00

文章预览

闲言碎语 最近公司要求检查公司网站首页是否被挂了暗链,网上查了下对应脚本较少且,于是就写了一个关于获取网站的链接的脚本,随着要求的不断增加,再加上一些天马行空的想象,最后写了一款URL采集器 前言 URL采集是一项重要的工作,它能帮我们快速的采集到符合需求的相关URL,但市面上大部分的URL采集软件的原理都是利用多个搜索引擎的接口,输入关键字,如:采集招聘网址URL,一般是输入求职/招聘等关键字,然后对每个接口进行最大化的采集网址,自定义黑名单URL,最后去重。 这意味着需要尽可能多的接口包括但不限于谷歌、百度等,然后传参对返回的页面提取网址基于黑名单过滤部分网址,最后迭代页数。 看上去没错,输入关键词获取相关的网址。但却隐藏着几个缺点: 1、采集网址都是被搜索引擎收录的,导致许多符合需求的UR ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览