数据的质量控制软件——fastQC

本文转载自“计算表观遗传学”,己获授权。

编者按

目前的高通量测序技术可以在单次运行中产生数亿个序列。在分析此序列以得出生物学结论之前,应该执行一些简单的质量控制检查,以获得较好的原始数据,并且确保数据中没有任何问题或偏差,本文就来介绍一款简单常用的质量检测工具fastQC。

大多数测序平台会生成一个QC报告作为其分析流程的一部分,但这通常只能识别由测序仪本身产生的问题。FastQC的开发和维护主要由Babraham Bioinformatics实验室负责,旨在提供一个可以发现来自测序平台或起始文库问题的QC报告。

FastQC有两种模式运行。它可以作为独立的交互式应用程序运行,用于临时分析少量的Fastq文件,也可以以非交互模式运行,用于集成到较大的分析流程中,用于并行批量处理大量文件。

1 下载和安装

FastQC是用java写的,所以需要一个Java Runtime Environment,还需要Picard BAM/SAM库,软件支持多个系统平台,包括Windows版、Linux和MacOS。本文使用Linux环境。

FastQC官网下载:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

这里我们选择下载编译好的程序,上传软件安装包到Linux服务器,使用unzip命令来进行解压缩。然后进入解压缩文件,fastqc文件即是主程序,使用chmod u+x 命令修改为可执行权限。

如果觉得官网下载安装太麻烦,推荐conda安装最方便:

conda install fastqc,一句话搞定。
关于conda软件的安装和使用,详见下文:

1 使用的命令

我们在服务器上用命令行来运行fastQC:

最简单的使用方法:fastqc *.fastq.gz,即可开始对所有测序数据进行评估。下面还有完整命令行规则和参数说明

fastqc[-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]seqfile1 .. seqfileN

-o 用来指定输出文件的所在目录,生成的报告的文件名是根据输入来定的,注意是不能自动新建目录的。输出的结果是.zip文件,默认不解压缩,命令里加上--extract则压缩。

-f       用来强制指定输入文件格式,默认自动检测。支持fastq、bam、sam极相应的gz压缩格式

-c      污染物选项,输入的是一个文件,格式是Name[Tab] Sequence,#开头的行是注释,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析。

-q      会进入沉默模式,指定这个选项的时候,程序不会实时报告运行的状况,即不出现下面的提示:

Started analysis of target.fq

Approx 5% complete for target.fq

Approx 10% complete for target.fq

1 fastQC报告解读

打开生成的HTML格式的结果报告,如下图所示:

Summary 概要

本部分就是整个报告的目录,整个报告分成若干个部分。合格会有个绿色的对勾,警告是黄色叹号,不合格是红叉。

Basic Statistics 基本信息

Encoding指测序平台的版本和相应的编码版本号,可推测是Phred 33 或是Phred 64 质量分数的编码方式。

Total Sequences输入文本的reads的数量。

Sequence length 测序的长度

%GC 是我们需要重点关注的一个指标,这个值表示的是全部序列中的GC含量,这个数值一般是物种特异的,比如人类基因组就是42%左右。

用箱式图的方式展示数据质量,图中X轴每1个位置,都是该位置的所有序列的测序质量的统计。纵轴是质量得分,Q =-10*log10(p),p为测错的概率。所以一条reads某位置出错概率0.01时,其quality就是20。横轴是测序序列的位置。蓝色线是各个位置的平均值的连线。一般要求此图中,所有位置的10%分位数大于20,也就是常说的Q20过滤。

所以上面的这个测序结果质量很好。如果任何碱基质量低于10,或者是任何中位数低于25报警,如果任何碱基质量低于5,或者是任何中位数低于20报错。

这一模块是检查在测序平台上,reads中每一个碱基位置在不同的测序小孔之间的偏离度,偏离度越高,碱基质量越差。纵轴表示测序小孔,蓝色表示低于平均偏离度,越红则说明偏离平均质量方差越多,也就是说质量越差,本图中都是蓝色表明质量很好。如果出现质量问题可能是短暂的,如有气泡产生,也可能是长期的,如在某一小孔中存在杂质。偏离度小于平均值2以上报警,偏离度小于平均值5以上不合格。

这是为了检测一部分质量特别差的reads,如果有则会在图上出现多个峰,如在测序仪边缘的reads。纵轴是reads数目,横轴是质量分数,代表不同Phred值对应了多少的reads。

本图中,测序结果主要集中在高分中,证明测序质量良好。当峰值小于27(错误率0.2%)时警报,当峰值小于20(错误率1%)时不合格。

展示碱基含量分布,它根据碱基的位置对每个位置上的A,C,G,T的含量进行统计,横轴为位置,纵轴为百分比。正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。当任一位置的A/T比例与G/C比例相差超过10%发出警报,超过20%则数据不合格。

图中红色曲线是实际的测序GC含量分布图,而蓝色曲线则是理论分布(正态分布,不过均值不一定都是50%,而是由平均GC含量推断的)。如果红色曲线形状存在比较大的偏差,往往是由于文库污染造成的。红色曲线越平滑越好,越接近蓝色曲线越好。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。偏离理论分布的reads超过15%时发出警报,超过30%时报不合格。

纵轴是百分含量,横轴是read的位置,当测序仪不能确切地测定出某一个碱基时就会标注为N,正常情况下N的比例是很小的,所以图上常常看到一条直线。当看到有峰时,说明测序出了问题。当任意位置的N的比例超过5%警报超过20%不合格。

每次测序仪测出来的长度在理论上应该是完全相等的,但是总会有一些偏差,如此图中,40bp是主要的,但是还是有少量的39和41bp的长度,不过数量比较少,不影响后续分析,当测序的长度有很大不同时,则表明测序仪在此次测序过程中产生的数据不可信,但对于某些测序平台,具有不同的read长度是完全正常的。当reads长度不一致时警告,当有长度为0的read时不合格。

横轴为reads重复的次数,纵轴为重复次数对应的reads占不重复的reads的比例。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,那么表明存在富集的偏好(enrichment bias)(比如:测序过程中的PCR重复,转录组测序中某些基因表达量高),序列重复比例越高,则表明实际有用的序列越少。图中有蓝红两条线,蓝色线表示的是文件中所有的序列中duplicate程度的分布,红色线表示的是去冗余之后的序列,含量表示的在全部序列都考虑时不同冗余程度的序列所占的比例。重复reads占总数的比例大于20%时警报,大于50%时不合格。

如果有某个序列大量出现,就叫做over-represented。标准是占全部reads的0.1%以上。但是因为用的是Duplicate sequences前200,000条数据,所以有可能over-represented reads不在里面,参考意义不大。

此图衡量的是序列中两端adapter的情况,如果在fastqc分析的时候-a(指定含adapters序列文件)选项没有内容,则默认使用图例中的通用adapter序列进行统计。含有adapter超过所有reads的5%的警告,超过10%不合格。

这个图统计的是,在序列中某些特征的短序列重复出现的次数,我们可以看到11-14bp的时候图例中的短序列出现了非常多的次数,一般来说,出现这种情况,要么是adapter没有去除干净,而又没有使用-a参数;要么就是序列本身可能重复度比较高,如建库PCR的时候出现了bias。

 

更多详细信息参考fastQC使用说明:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/


猜你喜欢

10000+: 菌群分析  宝宝与猫狗  梅毒狂想曲 提DNA发Nature  Cell专刊  肠道指挥大脑

系列教程: 微生物组入门 Biostar 微生物组   宏基因组

专业技能: 学术图表  高分文章  生信宝典 不可或缺的人

一文读懂: 宏基因组 寄生虫益处 进化树

必备技能: 提问 搜索   Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析: 图表解读 分析流程 统计绘图

16S功能预测   PICRUSt   FAPROTAX   Bugbase Tax4Fun

在线工具: 16S预测培养基 生信绘图

科研经验: 云笔记   云协作 公众号

编程模板:  Shell   R Perl

生物科普:   肠道细菌  人体上的生命  生命大跃进   细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2200+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读 《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

刘永鑫Adam
关注 关注
  • 2
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java环境下运行fastqc_质控软件fastQC的安装及用法
weixin_30609253的博客
03-02 1393
FastQC是一款基于Java的软件,它可以快速地对测序数据进行质量评估,得到多个测序数据质量参数,让我们对测序数据质量有个初步的认识,从而判断后续的质控如何进行。FastQC的下载与安装1、安装路径cd /data/hushy/tools/2、下载nohup wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fas...
FastQC
J_Fun的博客
03-02 7865
软件下载: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ 下载为一个zip文件; Linux中安装: 1.unzip对文件解压得到FastQC文件夹 2.打开FastQC文件夹,用chmod u+u fastqc命令,给fastqc这个主程序增加可执行属性 3.命令行运行 fastqc [-o output
数据质量控制软件----fastQC
Rita_rr的博客
04-20 2122
FastQC的基本介绍: FastQC是一款基于Java的软件,它可以快速地对测序数据进行质量评估,其官网为:Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data 高通量测序数据的高级质控工具 输入FastQ,SAM,BAM文件,输出对测序数据评估的网页报告 ​
推荐开源项目:FastQC - 高通量测序数据质量控制的利器
最新发布
gitblog_00007的博客
05-08 319
推荐开源项目:FastQC - 高通量测序数据质量控制的利器 项目地址:https://gitcode.com/s-andrews/FastQC 1、项目介绍 在生物信息学领域,高质量的测序数据是科研成果的基础。FastQC就是这样一款专为高通量测序数据质量检查设计的强大工具。它能够对fastq或bam格式的原始序列文件执行一系列分析,并生成详细的报告,帮助研究人员发现和解决潜在的问题。 (Fa...
datacleaner 数据质量管理软件
11-26
数据质量管理分析软件,运用于数据仓库数据分析校验
数据质量控制软件Q-CHECKER(转)
weixin_30678349的博客
06-20 496
随着企业信息化建设的不断深入进行,我们的企业将逐步地发展成为数字化企业。其中作为最基本构成的CATIA数模已经是产品开发制造的唯一依据,CATIA数模的质量就是加工的质量,就是制造的质量,就是生产出的产品的质量。 数模中不可避免地存在许多缺陷,这些缺陷大部分是不能被设计人员察觉的。我们需要一个工具使我们能够迅速检测出数模中有哪些问题、知道它们在什么地方、并快速消除掉这些缺陷。 德国...
测序数据质量统计软件fastqc,multiqc
qq_27390023的博客
09-28 699
简单用法 fastqc test1.fq # 处理一个文件 # -t ${threads} # 处理多个文件 fastqc *fq ls *fq|xargs fastqc 利用循环语句 for file in $(ls *fq);do fastqc $file;done for file in `ls *fq`;do fastqc $file;done # 后台执行,并行处理 for file in `ls *fq`;do fastqc -t 2 $file &;done 打开结
用服务器进行FastQC的操作步骤
weixin_49621901的博客
04-20 279
1. 在SecureCRT 8.3上登录服务器 2. 找到原始数据所在目录,ls命令查看内容 3.我们的目的是对原始数据进行fastqc,输入命令:fastqc filename (即fastqc seqfile1 seqfile2 .. seqfileN),开始分析,也可以加上一些参数 fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. s......
数据治理——质量保证.pdf
11-18
数据治理——质量保证.pdf
数据结构——————KMP算法
03-12
数据结构——————KMP算法
质量认证——生产件批准程序
06-13
质量认证——生产件批准程序
软件工程——思维导图
02-25
软件工程是一门研究用工程化方法构建和维护有效的、实用的和高质量软件的学科。它涉及程序设计语言、数据库、软件开发工具、系统平台、标准、设计模式等方面。
数据质量——项目跟踪与监控.pdf
11-18
数据质量——项目跟踪与监控.pdf
fastQC 质控结果解读
weixin_30413739的博客
08-28 983
参考网址:https://zhuanlan.zhihu.com/p/20731723 转载于:https://www.cnblogs.com/lmt921108/p/7442525.html
FastQC使用与结果详细解读
win_win223的博客
11-18 6998
FastQC的使用与结果详细解读
转录组原始数据质控与过滤·各种方法尝试
mushroom234的博客
11-25 2302
因为我是直接trinity开始的,后面面才开始补加数据前处理,毕竟都是练手所以没关系。但实际上这部分应该放在前面。下载一个基因组很小的细菌做试炼:Pelagibacter phage Greip EXVC021P
转录组之质量控制(FastQC)[学习笔记通俗易懂版]
qq_74093550的博客
07-04 3255
FastQC是一个用于高通量序列数据质量控制程序。FastQC可以读取并分析多种格式的序列数据,并且可以以交互的形式来检查几种不同的质量结果,或者创建一个可以集成到自动分析流程中的报告。该软件生成的结果是html格式文件,使用可以使用浏览器打开,非常便捷。
【双端测序有参转录组数据上游完整软件代码、参数及输出结果】
weixin_56701701的博客
12-13 1230
qc为输入文件夹 -o输出指令,multiqc为输出文件夹名称,-n zz为生成报告的前缀名称。*fq.gz是文件后缀名,-o输出指令,qc为输出文件夹名称 -t为线程数。在进行代码之前,确保软件安装,环境和目录都是对的情况下。fastqc和multiqc软件fastqc和multiqc软件
数据结构与算法——c++版》
08-11
数据结构与算法——c 版》是一本介绍数据结构和算法的学习教材。这本书以C语言为主要编程语言,全面讲解了数据结构和算法的基本概念及其常见的应用。通过学习本书,读者可以掌握C语言中常用的数据结构和算法,提高编程能力和解决实际问题的能力。 首先,书中详细介绍了数据结构的概念和分类,包括线性结构(如数组、链表、队列、栈等)和非线性结构(如树、图、堆等)。每种数据结构都给出了对应的定义、特点和常见的应用场景,方便读者理解和运用。 其次,书中深入浅出地讲解了算法的常用思想和方法,如递归、分治、贪心、动态规划等。每种算法都附有详细的实例分析和代码实现,帮助读者理解算法的原理和应用。 此外,书中还介绍了常用的数据结构和算法的分析和性能评估方法,帮助读者选择合适的数据结构和算法来解决实际问题。通过练习题和编程实践,读者可以加深对所学知识的理解和运用。 总体而言,这本教材是一本很好的学习数据结构和算法的指导书,不仅适合初学者入门,也适合已有一定基础的读者进一步提高。通过学习这本书,读者可以掌握C语言中的数据结构和算法,提高编程能力,为以后的软件开发与算法设计打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
1518
原创
6535
点赞
3万+
收藏
1万+
粉丝
关注
私信
写文章

热门文章

  • R语言常用函数:交集intersect、并集union、找不同setdiff、判断相同setequal 123949
  • Windows10远程桌面Ubuntu16.04 92121
  • QIIME 2教程. 01简介和安装 Introduction & Install(2020.11) 83953
  • R语言:生成正态分布数据生成--rnorm,dnorm,pnorm,qnorm 80622
  • Canoco5绘制漂亮的DCA或CCA图 79173

分类专栏

  • 宏基因组分析 18篇
  • R语言绘图包 22篇
  • 扩增子分析 36篇
  • 作者解读 4篇
  • software 51篇
  • shell 19篇
  • R 44篇
  • papers 191篇
  • 扩增子 90篇
  • 宏基因组 76篇
  • 经验 26篇
  • 科普 21篇
  • 新闻 50篇

最新评论

  • 微生物环境因子分析(RDA/db-RDA)-“ggvegan“介绍

    m0_73024791: db-RDA

  • SBB:南土所褚海燕组-pH主导土壤中固氮群落的共存与装配

    2401_85669625: 图5的代码教程有吗表情包表情包

  • 你想要的生信知识全在这——生信宝典目录 (181202)

    Poooz: 好详细

  • iMeta | ggClusterNet微生物网络分析和可视化保姆级教程

    qq_41757959: 百度网盘的链接失效了

  • 微生物群落基于KEGG预测功能的丰度分布图绘制

    无机语文: 功能预测

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • MPB | 孙海汐等从细菌基因组中预测活性前噬菌体工具Prophage Hunter的使用流程和常见问题...
  • MPB | 王建军等-​群落构建过程的定量指标扩散-生态位连续体指数
  • 视频回放 | 文涛-ggClusterNet在微生物组网络分析中的应用
2024
06月 32篇
05月 79篇
04月 79篇
03月 75篇
02月 61篇
01月 79篇
2023年876篇
2022年564篇
2021年629篇
2020年655篇
2019年613篇
2018年447篇
2017年137篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司昆明seo优化公司天门英文网站建设报价普洱网站优化按天扣费公司大连seo推荐怀化网站优化按天扣费醴陵网站建设推荐呼和浩特企业网站改版公司芜湖企业网站改版报价玉溪百度网站优化排名阜阳网站推广系统推荐坪山百度seo报价漳州网站制作宁波网站优化推广报价海东模板推广哪家好武汉优秀网站设计哪家好郑州企业网站改版多少钱营口seo网站优化公司乌海网站推广系统哪家好沈阳网站搜索优化价格武威网站开发宝鸡网站排名优化哪家好广元营销型网站建设晋中百度关键词包年推广哪家好舟山seo优化价格清徐百度标王价格湖州SEO按天计费价格赤峰企业网站建设哪家好临夏网站关键词优化价格济南百姓网标王推广价格北海设计公司网站公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化