爬虫！还是爬虫！给劳资爬！！

生信杂谈 · 公众号 · · 2018-04-21 22:14

文章预览

有些浏览器的数据并不好爬，比如需要登录后才能访问指定网页，或者先检测浏览器是否支持JS或者需要预先加载JS脚本才能浏览。对于这类网站，我们得请出神器 selenium ！selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决JavaScript渲染问题。一起来看看selenium在R中的应用。点击查看之前爬数据库的文章：使用R语言爬取Pubchem药物信息使用R语言爬取DailyMed药物信息 R语言批量爬取NCBI基因注释数据还是以上期的 pubchem 数据库为例，如果直接使用 Rcurl 、 rvest 、 XML 来爬的话，你会发现你爬下来的完全不是想要的，比如药物 9 - Cis - Retinoic 20Acid ,其在pubchem中的页面如下：我们使用常规方法爬取，根据页面链接获得 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国安全生产网 · 电动自行车维修点凌晨起火致8人死亡！

8 小时前

建德公安 · 疯狂“横扫”30多个电瓶，这个“电瓶杀手”终落网

昨天

防骗大数据 · “老板”发语音让你转账？该如何应对？

昨天

中国计算机学会 · 金牌协办：广州大学附属中学｜2024WCET年度论坛

10 月前

化妆品财经在线 · M·A·C迎来新全球营销一把手

7 月前

forcode · //中介为卖房跟你谈恋爱，千万警惕买房杀猪盘房产中介装成普通人跟-20250127222727

2 月前