收藏文章 楼主
生信分析中常见的数据文件格式
版块:电子商务   类型:普通   作者:tretert   查看:364   回复:0   获赞:0   时间:2022-06-19 19:10:15

  前面我们介绍了各种测序技术的原理:illumina、Sanger、第三代和第四代测序技术原理,我们测序得到的是带有质量值的碱基序列fastq格式,参考基因组是fasta格式。⽤⽐对⼯具把fastq格式的序列回帖到对应的fasta格式的参考基因组序列,就可以产⽣sam格式的⽐对⽂件。把sam格式的⽂本⽂件压缩成⼆进制bam⽂件可以节省空间。如果是记录某些位点或者区域碱基的变化,就是VCF⽂件格式。如果对参考基因组上⾯的各个区段标记它们的性质,⽐如哪些区域是外显⼦,内含⼦, UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式⽂件,记录染⾊体号以及起始终⽌坐标,生信分析正负链即可。

  1.fastq文件

  FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。

  FASTQ文件中每个序列通常有四行:

  序列标识以及相关的描述信息,以‘@’开头;

  第二行是序列

  第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加

  第四行,是质量信息,和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。

 我 在下方展示

 
回复列表
默认   热门   正序   倒序

回复:生信分析中常见的数据文件格式

暂无用户组
退出
等级:0级
学途币:
游客:

平台声明:

为打造一个高质量、高收录的外链平台,站长将针对所有普通用户投稿的内容进行审核,针对文章原创度、文章格式是否杂乱、外链数量是否泛滥等多个方面对投稿内容进行审核测评,只有满足条件的内容才会通过审核。

平台将持续严厉打击发布虚假不实信息内容,一经发现立即删除,且将对发布虚假内容的账号进行相应的处罚。

当用户等级达到2级及以上等级之后,可联系站长【QQ:724413399】免费升级至VIP会员组,将免费获得发贴免审核权限,以后发的帖子都将跳过审核直接发布成功!

Powered by HadSky 7.7.16

©2015 - 2024 seo学途论坛网

XML( 1234567891011 )

您的IP:107.23.156.199,2024-03-29 20:25:04,Processed in 0.05441 second(s).

网站备案号:黔ICP备19009860号-2

seo学途论坛网是一个可以免费发外链的论坛,大家可以免费发布含有纯文本外链、锚文本外链的精美软文内容,也可以在论坛中与大家进行交流、讨论更多话题。
头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
免责声明

1、本站资源,均来自网络,版权归原作者,所有资源和文章仅限用于学习和参考 。

2、不得用于商业或非法用途,否则,一切责任由该用户承担 !

3、本站内容如不慎侵犯了你的权益,敬请谅解,内容素材由网友自发上传并非本站意愿,您可参照文章侵权处理流程联系我方解决!


侵权删除请致信 E-Mail:724413399@qq.com