基因表达数据的聚类分析方法

介绍

基因表达(gene expression) 是指将来自基因的遗传信息合成功能性基因产物的过程。

基因表达产物通常是蛋白质,但是非蛋白质编码基因如转移RNA(tRNA)或小核RNA(snRNA)基因的表达产物是功能性RNA。

所有已知的生命,无论是真核生物(包括多细胞生物)、原核生物(细菌和古细菌)或病毒,都利用基因表达来合成生命的大分子。

基因编码并可用于合成蛋白质,这个过程称为基因表达。

在像人类这样的高等生物中,根据细胞类型(神经细胞或心脏细胞)、环境和疾病状况等各种因素,数以千计的基因以不同的量一起表达。

例如,不同类型的癌症在人类中引起不同的基因表达模式。可以使用微阵列( Microarray )技术研究不同条件下的这些不同基因的表达模式。

微阵列和基因表达谱

来自微阵列的数据可以想象为矩阵或网格,矩阵中的每个单元格对应于特定条件下的基因表达值。

如下图所示,矩阵的每一行对应一个基因 gi ,每一列对应一个条件/样本 si

在这里插入图片描述

人类有大约 20,000 个表达基因,假设我们想知道它们的表达模式,即在不同类型的人类癌症下哪些基因产生更高或更低水平的蛋白质。

另外,假设已知有 20 种人类癌症,那么微阵列基因表达矩阵的结果就有 20,000 行对应基因,20 列对应于 20 种癌症。

基因表达聚类

分析基因表达数据的第一步是在经典数据挖掘中对基因或样本进行聚类
可以根据基因在所有条件下的表达模式对基因进行聚类,并且可以使用所有基因的基因表达模式对样本进行聚类。

关于聚类问题

对于基因聚类,数据点是基因,特征是所有样本的表达值。
因此,在针对癌症示例的基因聚类中,将聚类 20,000 个数据点( data-points ),每个点具有 20 个维度。

聚类基因表达数据提供了对基因共调控(co-regulation)和基因细胞功能的重要见解。
聚集在一起的基因在所有样本中具有相似的表达模式,这可能表明这些基因的共同调控。
此外,来自同一簇的基因可能执行类似的细胞功能,这有助于注释新发现的基因。

相反,对于样本聚类,样本是使用跨所有基因的基因表达量作为特征进行聚类的数据点。由此将聚类 20 个数据点,每个点具有 20,000 个维度。

下面,我们将讨论执行聚类的不同方法

  • Llyod’s
  • K-均值聚类 ( K-means clustering )
  • 层次聚类 ( Hierarchical Clustering )

邻近计算

邻近计算(Proximity calculation)
用于聚类的数据点之间的距离或接近度很重要,因为所有聚类算法的工作原理都是将近点聚集在一个聚类中。

使用 Pearson 相关系数中的特征计算数据点 OiOj 之间距离的有效措施之一:

Pearson( O i O_i Oi, O j O_j Oj) = ∑ d = 1 p ( O i d − μ o i ) ( O j d − μ o j ) ∑ d = 1 p ( O i d − μ o i ) 2 ∑ d = 1 p ( O j d − μ o j 2 ) \frac {\sum_{d=1}^p(O_{id} - \mu_{oi} )(O_{jd} - \mu_{oj} )}{\sqrt {\sum_{d=1}^p(O_{id} - \mu_{oi})^2} \sqrt {\sum^p_{d=1}(O_{jd} - \mu_{oj}^2)} } d=1p(Oidμoi)2 d=1p(Ojdμoj2) d=1p(Oidμoi)(Ojdμoj)

K均值聚类

k均值聚类算法(k-means clustering algorithm)
是一种迭代求解的聚类分析算法。属于无监督学习算法。

步骤:
预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。

聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件

以下是一个二维数据。通过查看散点图,数据似乎包含 3 个不同的聚类。
因此,我们将任意发起 3 个聚类质心(cluster centroids)或聚类中心(cluster centers)。由于我们还没有任何聚类,这些质心(centroids)是空间中的任意点。

在这里插入图片描述

然后,我们计算所有点与 3 个质心的距离,并将这些点分配到它们最近的聚类。然后,我们使用聚类中分配的点重新计算质心。

聚类中心只是聚类中所有点的平均值。

在这里插入图片描述

重新计算点与 3 个新分配的质心的距离,并将这些点重新分配到它们最近的聚类。
在点被重新分配到它们最近的聚类后,重新计算聚类中心。

在这里插入图片描述

重复上述步骤直到中心点收敛(convergence),基本上不在发生变化或满足精度为止。

在这里插入图片描述

层次聚类

层次聚类(Hierarchical Clustering)
是一种渐进式聚类技术,它从小簇开始,逐渐将密切相关的小簇合并成更大的簇,直到只剩下一个大簇为止

相对于 K-means 的最大优势之一是层次聚类不必预先定义聚类的数量。相反,可以在聚类过程完成后推断最佳聚类数。

使用以下包含 25 个数据点的二维数据仔细研究层次聚类算法

在这里插入图片描述

  1. 将每个点分配给它自己的单个簇,即有 25 个簇,每个簇包含 1 个点。

  2. 然后,计算每个聚类中心点。

  3. 计算所有的质心距离并将两个簇连接到一个质心最近的新簇中。重新计算新形成的簇的质心。

在这里插入图片描述

迭代 1

再次计算所有的质心距离,并检测最近的两个簇并将其连接到一个新簇中。重新计算新簇的质心。

在这里插入图片描述

迭代 2

重复3个步骤,计算所有的质心距离,合并2个最近的簇,重新计算新形成的簇的质心,直到只得到一个包含所有25个数据点的大簇(收敛)。

在这里插入图片描述

动图展示

在这里插入图片描述


整个层次聚类过程可以使用如下所示的树状图进行可视化,其中分叉树的叶节点是数据点,内部节点显示执行的每个合并步骤。

在这里插入图片描述

左侧的高度比例显示了聚类合并的距离
最低的内部节点距离很小,表明最近的簇或点首先被合并。
最高的内部节点距离很远,表示相距很远的点或簇以最高距离连接到一个簇中。

实际的聚类解决方案是通过在指定距离截止点处跨聚类树状图绘制一条水平线来获得的。

簇数等于水平切割线遇到的交点数。
例如,在距离截止值(distance cutoff)=60 处绘制的红色水平线为 25 个数据点定义了 3 个clusters。

例子

一个例子显示了通过基因表达数据的层次聚类识别的不同类型的弥漫型B大细胞淋巴瘤(diffuse large B-cell lymphoma)。

根据确定的不同类型,我们对癌症预期如何发展的估计会有所不同,并且还可能导致处方治疗的差异。

在这里插入图片描述

生信技术
关注 关注
  • 8
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基因表达数据分析
05-16
基因数据分析,归纳全面,举例简单易懂,很适合初学者学习,
基因表达聚类分析及可视化
悟道西方
12-26 1万+
欢迎关注天下博客:http://blog.genesino.com/2017/11/gene-cluster/ 共表达基因的寻找是转录组分析的一个部分,样品多可以使用WGCNA,样品少可直接通过聚类分析如K-means、K-medoids (比K-means更稳定)或Hcluster或设定pearson correlation阈值来选择共表达基因。下面将实战演示K-means、K-medoids聚
生信分析—差异分析,聚类分析,相关性分析
anyinglengtong的博客
11-18 3188
生信中提到的二代数据通常指的是第二代测序数据,即在基因组学研究中使用的第二代高通量测序技术生成的数据。第二代测序技术包括Illumina/Solexa、454/Roche、Ion Torrent等平台,它们通常以高通量、低成本、高准确性和较短的读长为特点。这些技术的出现使得大规模基因组测序成为可能,对于遗传学、演化生物学、临床医学等领域的研究起到了重要的推动作用。表型:生物个体可观测的性状。基因型:是指某一生物个体全部基因组合的总称。它反映生物体的遗传构成,即从双亲获得的全部基因的总和。
基因芯片(Affymetrix)分析5:聚类分析
R语言与生物信息学
04-23 1万+
基因芯片(Affymetrix)分析1:芯片质量分析基因芯片(Affymetrix)分析2:芯片数据预处理基因芯片(Affymetrix)分析3:获取差异表达基因基因芯片(Affymetrix)分析4:GO和KEGG分析基因芯片(Affymetrix)分析5:聚类分析 聚类又称非监督分类,是一种探索性数据分析(Exploratory Data Analysis, EDA)方法,其目的是把有限
基因系统聚类
深未来技术
12-29 768
一、下面的HIERARCHICALCLUSTERING算法需要输入一个n*n的距离矩阵d,并产生数据的n个不同的分划,以树的形式输出。 HIERARCHICALCLUSTERING(d,n)  形成n个类,每个类含有一个元素  构建图T,为每个类分配一个单独的顶点  while 存在多于一个类       找到最近的2个类C1和C2        将C1和C2合并成
实战--利用HierarchicalClustering 进行基因表达聚类分析
weixin_30535565的博客
11-18 587
利用建立分级树对酵母基因表达数据进行聚类分析 一、原理 根据基因表达数据,得出距离矩阵   ↓ 最初,每个点都是一个集合 每次选取距离最小的两个集合,将他们合并,然后更新这个新集合与其它点的距离 新集合与别的集合距离的计算方法 ①两个集合之间的最短距离 ②两个集合所有点之间求距离求平均 → 把这个新集合加入距离矩阵中,原来的两个小集合就被替换掉 如此...
模式识别谱聚类matlab,基因表达聚类分析
weixin_30320771的博客
03-16 735
对于基因表达数据的分析是生物信息学的研究热点和难点。转化为数学问题,分析任务是从数据矩阵 M 中找出显著性结构,结构类型包括全局模型 (model) 和局部模式 (pattern) 。对基因表达数据的分析是数据挖掘问题,所采用的方法包括通过可视化进行探索性数据分析( Exploratory Data Analysis )、描述建模 (descriptive modeling) 、分类、聚类、回...
基因表达模式聚类以及可视化
热门推荐
xxxxx
07-19 2万+
最近在使用RNA_seq数据做些分析,结果得到了大量差异表达以及共表达基因,如何合理展示这些基因也是一件不简单的事情。除了常见的热图(heatmap)展现形式,今天在推荐另外一种展示方式(上图C)。需要R包TCseq或者Mfuzz。我这里给出的代码是基于TCseq。 输入文件就是一个基因表达量的矩阵,如下图。 代码也很简单,见下图,也请点击阅读原文查看代码。​ library(TCseq)
基于粒子群算法的基因表达聚类分析方法.pdf
09-28
基于粒子群算法的基因表达聚类分析方法.pdf
基于SOM网络的基因表达数据聚类分析 (2006年)
05-14
提出了用自组织映射(SOM)网络对生物信息学基因表达数据进行聚类分析方法。用SOM网络对酵母基因表达数据进行聚类。通过对映射结果的分析,表明SOM网络有较高的分类正确率,用于基因表达数据聚类分析是...
一种有效的基因表达数据模糊核聚类分析方法
02-25
本文提出了一种新的模糊核聚类分析方法(FKCA),它可以识别所需的聚类数并获得更稳定的基因表达数据结果。 首先,为了优化特征差异并估计最佳簇数,引入了高斯核函数以改进频谱分析方法(SAM)。 通过将减法聚类与...
基因表达数据聚类分析中的应用 (2004年)
05-09
将该算法应用于两个公开的基因表达数据集,并用一种新的评价方法Normalized Cut将聚类结果与其他聚类方法的结果进行了比较。结果表明,该文的聚类算法优于其他聚类算法,聚类结果具有明显的生物学意义,并能对数据的类别...
基于空间连续性分析的基因表达数据聚类的主观性
03-10
聚类已被广泛用作基因表达数据的预测工具,但在很深的层次上仍然存在问题:聚类的不同起始点导致不同的收敛过程。 但是,初始点的设置主要取决于实验者的判断。 这种主观性会带来问题,包括局部极小值和选择错误的...
ClusterGVis 对基因表达时间序列聚类和可视化
weixin_45822007的博客
01-05 6386
没关注?伸出手指点这里1引言很久之前写过使用 Mfuzz 和 hclust 的方法来对基因进行聚类和可视化。但是许多人觉得 Mfuzz 出图不是特别美观,此外提供的调整参数也很少,相关推文见:使用 Mfuzz 包聚类分析并自定义绘图基因 hclust 聚类并绘制聚类热图和表达趋势图此外我们还会见到 RNA-SEQ 时序分析的 热图 和 表达趋势折线图 及每个亚群的 通路富集结果 可视化在一起,例如...
基因组学」使用OrthoFinder进行直系同源基因分析
xuzhougeng blog
02-14 7424
谈论到直系同源基因分析的时候,大部分教程都是介绍OrthoMCL,这是2003年发表的一个工具,目前的引用次数已经达到了3000多,但这个软件似乎在2013年之后就不在更新,而且安装时还需要用到MySQL(GitHub上有人尝试从MySQL转到sqlite)。 而OrthoFinder则是2015年出现的软件,目前已有400多引用。该软件持续更新,安装更加友好,因此我决定使用它来做...
rna聚类分析_【陈巍学基因】RNA-seq
weixin_39971132的博客
12-03 1818
RNA-seq是高通量测序中最常见的一种应用,本期视频介绍其:1.方法原理2.生物信息分析表达差异(1)火山图展示(2)聚类分析(3)GO分析(4)Pathway分析(KEGG分析)结构变异(1)可变剪接(2)融合基因(3)点突变 RNA高通量测序(RNA-sequencing,缩写为RNA-seq)是目前高通量测序技术中被用得最广的一种技术,RNA-seq可以帮助我们了解:各种比较条件下,所有基...
GEO数据库获取基因表达数据
一只电饭煲的博客
04-01 1万+
GEO数据库获取基因表达数据欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使
Mothur3进阶_Mothur扩增子基因序列处理_数据比对、聚类及其处理评估
HUANWEIFENXI的博客
09-04 996
本人在读研究生,方向环境微生物。之前在学习生物信息分析过程中在网络上四处奔走获取相关学习资料与解决问题,好生麻烦。于是,我就把与同学一起做的一些生物信息分析相关教程与经验总结搬运到这个CSDN这个大平台上来,希望能够与大家一起学习讨论。班门弄斧,大神见文多指教,抱拳抱拳抱拳抱拳! 本节主要讲解使用Mothur软件对扩增子基因序列进行数据库比对,过滤,聚类,去除嵌合体及其处理评估。 01数据数据库的比对 使用pcr.seqs命令针对感兴趣的区域定制一个数据库,将序列与参考序列比对。参考数据库(silv
建筑总高度4.95米,建筑占地面积14.8米*16.6米D075-两层-14.80&16.60米-施工图.dwg
最新发布
05-27
建筑总高度4.95米,建筑占地面积14.8米*16.6米D075-两层-14.80&16.60米-施工图.dwg
研究基因图谱聚类方法的必要性
02-25
基因图谱聚类是将基因数据分成几个组的过程,使得同一组中的基因具有相似的表达模式。这是基因表达数据分析的一种常用方法,具有以下必要性: 1. 帮助研究人员理解基因表达模式:基因图谱聚类可以将成千上万的基因分为若干组,每组内的基因具有相似的表达模式,从而可以帮助研究人员更好地理解这些基因的生物学功能和相互关系。 2. 促进基因数据挖掘:通过对基因图谱进行聚类分析,可以发现与某些生理或病理过程相关的基因集合,进一步研究这些基因集合的功能和相互作用,可以揭示新的生物学机制和疾病的潜在机制。 3. 可以指导药物研发:基因图谱聚类可以帮助研究人员发现与某种疾病相关的基因群,这些基因群可能是潜在的药物靶点。基于这些靶点的研究,可以发现新的药物,并帮助研究人员更好地设计治疗方案。 因此,基因图谱聚类是理解基因表达数据、发现新的生物学机制和疾病机制、以及指导药物研发的重要方法

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • Docker教程(超全总结) 46980
  • 进化树构建之邻接法(Neighbor-Joining)的介绍 21237
  • 物种内共线性分析——思路以及踩坑总结(二) 17337
  • R数据可视化|使用Scatterplot3d包制作3D散点图 16287
  • 使用hifiasm组装hifi基因组的方法介绍 11278

分类专栏

  • Python 5篇
  • 基因组 8篇
  • 转录组 1篇
  • 基因 3篇
  • HiC 4篇
  • Linux 1篇
  • Markdown教程 1篇

最新评论

  • 使用hifiasm组装hifi基因组的方法介绍

    peacezha: -l <INT=3> 清除重复的级别。0表示禁用,1表示仅清除包含的单倍体,2表示清除所有类型的单倍体,3表示以最积极的方式清除所有类型的单倍体。默认情况下,3表示非trio装配,0表示trio装箱装配。对于trio装箱装配,仅允许级别0和级别1,可以看看这一篇https://blog.csdn.net/weixin_45898964/article/details/138682488

  • 使用hifiasm组装hifi基因组的方法介绍

    peacezha: 可以看看这一篇https://blog.csdn.net/weixin_45898964/article/details/138633726?spm=1001.2014.3001.5501

  • 使用hifiasm组装hifi基因组的方法介绍

    weixin_51083352: putty里的conda怎么安装

  • WGDI 分析全基因组复制事件完整流程

    Yorleleiyo: 引用「tab分割的基因对」 tab分割的基因对是什么意思?

  • WGDI 分析全基因组复制事件完整流程

    2301_77522275: 能教一教那些依赖如何安装嘛

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 1024程序员节,节日快乐
  • Python常用模块总结
  • Python 进阶教程笔记
2022年11篇
2021年36篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司延安高端网站设计推荐广安seo网站推广价格双龙网站优化软件推荐河池网站改版多少钱网站开发哪家好盐田关键词按天收费哪家好保山优化哪家好通化关键词按天收费报价延边优秀网站设计价格至尊标王价格广东网站排名优化安庆至尊标王多少钱九江网站优化软件哪家好临汾网站推广公司临沧品牌网站设计临猗网站seo优化报价河源模板制作报价保山英文网站建设德州网站推广方案哪家好怀化企业网站制作多少钱玉树网站优化软件多少钱昌都网络广告推广报价九江关键词按天收费公司龙岩百度seo推荐巴中品牌网站设计报价随州至尊标王推荐资阳网站优化排名报价德州模板制作公司黔南营销网站哪家好常德百搜标王推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化