专栏名称: 生信媛
生信媛,从1人分享,到8人同行。坚持分享生信入门方法与课程,持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。
今天看啥  ›  专栏  ›  生信媛

生信数据预处理的Linux三大神器

生信媛  · 公众号  · 生物  · 2020-03-20 10:16
    

文章预览

阅读此文前,强烈建议先去了解一下正则表达式。 正则表达式(Regular Expression,RE,regex)是一个强大字符串操作引擎,可用于检索、替换那些符合某个模式(规则)的文本的。 grep:最快的文本搜索工具 如果你想要成功,就要做到你所在领域的最好。——中二的hoptop grep就是在文本提取和匹配上最快的工具,因为它只有一个目标,在每一行找匹配的内容,并且在这个任务上没有其他程序比他是做的更好。 继续以拟南芥基因组和注释文件作为练习对象。 wget -c -4 -q http://www.arabidopsis.org/download_files/Genes/TAIR10_genome_release/TAIR10_chromosome_files/TAIR10_chr_all.fas   & wget -c -4 -q http://www.arabidopsis.org/download_files/Genes/TAIR10_genome_release/TAIR10_gff3/TAIR10_GFF3_genes.gff & 在注释文件中查找某一个 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览