专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
今天看啥  ›  专栏  ›  生信菜鸟团

生物信息学常见文件格式

生信菜鸟团  · 公众号  · 生物  · 2024-10-14 18:02

文章预览

学习笔记总结于『生信技能树』马拉松课程 本文介绍生物信息学常见的几种文件格式:fasta格式、fastq格式、gff格式、gtf格式 一、fasta格式 fasta:一种 基于文本 用于表示 核酸序列 或 多肽序列 的格式,缩写可以是 fa、fas、fna、faa 文件特征:分为 两个部分 ,id行和序列行(注意不是分为两行,而是两个部分) id行:以">"开头,有时候会包含注释信息,如 chr1、chr2 ... 序列行:一个字母表示一个碱基/氨基酸,ATCGN 或 20种氨基酸(ATCGN的N意思是,确定这个地方有序列,但不知道是ATCG的哪一个) 图1 二、fastq格式 fastq:一种保存生物序列(通常为 核酸序列 )及其测序质量得分信息的文本格式(如果是二代测序拿到的结果应该是fastq格式,如果是三代测序,结果不一定是fastq格式,还有可能是其他格式例如bam格式)。 FASTQ文件中, 一个序列 通常由 四行组 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览