主要观点总结
文章介绍了通过Google的webcache获取站点快照URL的方法,作为绕过Cloudflare防护的解决方法。文章还提到了其他网站如web.archive.org也提供类似服务,但效果不如Google。
关键观点总结
关键观点1: 通过Google的webcache获取站点快照URL。
可以使用特定的URL格式通过Google的webcache访问站点快照,以获取站点的html内容。
关键观点2: 站点快照的不同版本选择。
通过Google的webcache访问站点快照时,可以选择有渲染的完整版本、文字版本或源码版本。
关键观点3: 快照延迟问题。
虽然快照有半天到一天的延迟,但相对于Cloudflare防护的繁琐,仍然是一种可行的解决方法。
关键观点4: 其他网站提供的类似服务。
除了Google的快照,其他网站如web.archive.org也提供类似服务,但效果不如Google,快照的延迟更高。
文章预览
偶然看到的,通过 Google 的 webcache 来获取站点快照 URL 示例:https://webcache.googleusercontent.com/search?q=cache:https://www.piie.com/ 比如 piie 站点,正常浏览会触发 cloudflare 的质询。 通过 webcache 访问:https://webcache.googleusercontent.com/search?q=cache:https://www.piie.com/ 可以选择有渲染的完整版本,或者文字版本,或者源码版本 站点内容 详情页对比 ,webcache 内容: 页面内容: 笔者测试了一些站点,像 piie.com、ecfr.eu、wsj.com之类都可通过这种方法获取 html 内容。 虽然快照有半天到一天的延迟,但相对于 Cloudflare 防护的繁琐,也不失为一种解决方法。 而对一些特定采集场景,使用 webcache 可能有出其不意的效果。 除了 google 的快照,一些网站也提供类似服务 比如 https://web.archive.org/ 不过效果并没有 google 好,快照的延迟更高。 大家有其他方法可留言
………………………………