专栏名称: 生信杂谈
生物信息学;生物信息;计算机辅助药物设计;测序分析;Python;R;机器学习;论文写作;网站制作;LOL;dota2。
今天看啥  ›  专栏  ›  生信杂谈

爬虫!还是爬虫!给劳资爬!!

生信杂谈  · 公众号  ·  · 2018-04-21 22:14
    

文章预览

有些浏览器的数据并不好爬,比如需要登录后才能访问指定网页,或者先检测浏览器是否支持JS或者需要预先加载JS脚本才能浏览。对于这类网站,我们得请出神器 selenium !selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。一起来看看selenium在R中的应用。 点击查看之前爬数据库的文章:  使用R语言爬取Pubchem药物信息   使用R语言爬取DailyMed药物信息   R语言批量爬取NCBI基因注释数据   还是以上期的  pubchem 数据库为例,如果直接使用  Rcurl 、  rvest 、  XML 来爬的话,你会发现你爬下来的完全不是想要的,比如药物  9 - Cis - Retinoic 20Acid ,其在pubchem中的页面如下:  我们使用常规方法爬取,根据页面链接获得 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览