首发于 因果推断

​概率图模型(一):概率图模型表示


每日一句

I never considered a difference of opinion in politics, in religion, in philosophy, as cause for withdrawing from a friend. — Thomas Jefferson

本文大纲如下:


本系列将介绍概率图模型,图的基础知识在[[图论(一):图和子图]]进行简单介绍。本文初始是为了引入因果图模型,在几经思考之后,表示、推断、学习、决策是统计、机器学习重要的组成部分,为了更好的引入后续知识、并构建自己的知识体系。决定从概率图开始介绍。

为什么需要概率图模型

p(x_1, x_2, x_3, x_4, x_5, x_6, x_7, x_8) \\

八个变量一共有2^8个状态。我们是否需要表示所有的状态?如果有更多的变量怎么般?图模型的主要好处之一是在表示联合分布时可以节省成本。用图形和条件来模拟变量之间的依赖关系可以大大减少描述联合分布所需的参数数量。

当我们引入专业知识后,八个变量之间的关系可以用上图表示。这时候联合分布可以由条件独立性计算:

\begin{aligned} &p(x_1, x_2, x_3, x_4, x_5, x_6, x_7, x_8)\\ &=p(X_1)p(X_2)p(X_3|X_1)p(X_4|X_2)p(X_5|X_2)P(X_6|X_3,X_4)P(X_7|X_6)P(X_8|X_5,X_6) \end{aligned}\\

结合专业知识和结构之后,联合分布表示的成本由2^8 降为2 + 2 + 4 + 4 + 4 + 8 + 4 + 8 = 36,缩减了256 / 36 \approx 7倍。

非正式地讲,图模型只是一个代表随机变量之间关系的图形。节点是随机变量(特征),边(或没有边)代表随机变量之间的关系或随机变量之间的依赖关系。关系的概念根据图的不同而不同。

变量之间的关系

对于避免不同人对同一现象的多重表述,严格定义一个图模型的每一个组成部分是至关重要的。首先深入严格定义两个随机变量之间的可能关系。严格定义两个随机变量之间的可能关系。这些随机变量可能有许多类型的的关系:

同样,有许多,其中一些在下面列出和讨论,每一个都有其 充分和不足之处。选择一个衡量标准并不是一项琐碎的任务,因为,虽然人们可以任意选择这样一个衡量标准,用数据画出图表,并从图表中提供令人信服的 "故事"。 除非严格选择衡量标准,否则该论证很容易被来自相同数据的反例所推翻。因此,了解每一种措施所带来的影响是至关重要的。

Pearson’s Correlation

皮尔逊相关系数(表示为ρ)是衡量随机变量之间关联的最著名和最基本的方法之一,其定义如下:

\rho(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{(Var(Y))}} \\

两个独立变量相关系数为0,则X \perp Y两变量是不相关的;但是,反之则不成立。例如,有两个随机变量X、Y是这样的:X∼U[-1,1],Y=X^2. 那么,Y依赖于X,它们是不相关的,因为:

Cov(X, Y ) = E[XY ] - E[X] E[Y ] = E[XY ] = E[X^3] = 0 \\

从上面的例子中可以看出,皮尔逊相关度只能捕捉到线性依赖。这反过来意味着皮尔逊相关在捕捉独立性方面是非常弱的。

互信息

上面介绍的皮尔逊相关系数的局限性使得我们希望有新的衡量方法,可以捕捉到非线性依存关系。衡量两个密度PQ之间距离的最常见的方法之一是Kullback-Leibler散度,简称KL-散度。

KL(P,Q) = \int_{x \in \mathcal{X}} P(x)log\frac{P(x)}{Q(x)}dx \\

当P和Q相等时,KL散度返回0,即P(x)=Q(x), \forall x \in \mathcal{X},当PQ进一步偏离时,KL散度返回一个更大的正值。由于我们同样希望距离为0,当P_{XY} (x, y) = P_X(x)P_Y (y), \forall(x, y) \in \mathcal{X} \times \mathcal{Y}时,我们希望二者距离为0,否则为正,可以利用KL散度来获得所期望的衡量标准,也就是所谓的互信息

I(X, Y) = KL(P_{XY},P_XP_Y) \\

I(X, Y) =0当且仅当X \perp Y.这种方法确实成功地捕捉到了非线性的依赖关系。然而,它带来了计算方面的问题 因为对非高斯、多模态、甚至可能是非参数密度的复杂组合j计算密度时非常困难的。

希尔伯特-施密特独立标准(HSIC)

最近的一个发现是HSIC(Gretton等人,2005),也能捕捉到非线性的依赖关系。它被定义为联合密度P_{XY}和边际分布乘积P_XP_Y之间的最大平均差异(MMD)。对于任意两个密度P,Q:

\begin{aligned} MMD(P, Q) &= ||\mu_k(P ) - \mu_k(Q)||_{\mathcal{H}_k}\\ \mu_k(P) &= \mathbb{E}_{Z~P}[\phi(Z)]\\ \phi(Z) &= feature map of kernel k \end{aligned} \\

该方法的一个重要属性是HSIC(X, Y )=0,当且仅当X⊥Y

局部相关(Partial Correlation)

两个随机变量之间的关联度量可以用来定义一个边际相关/依赖图。这种模型缺点是这种类型的图形模型信息量不大,原因是两个随机变量很少会有非零的关联度。我们几乎总能在一对变量之间找到一些统计学上的关联,要么是由于某些影响两个变量的基本过程,要么有时是由于随机。考虑以下例子: X=孩子的身高,Y=孩子的词汇量,Z=孩子的年龄。如果我们计算这些变量之间的成对关联度,我们期望发现所有这些变量都是非零的。然而,我们从 "常识 "中知道,孩子的身高和词汇量没有直接关系,相反,孩子的年龄是影响这两个值的基本变量。

我们可以在给定另一个变量的情况下,定义新的两个变量之间的相关度量。我们可以把它看作是给定另一个变量Z为条件后,或消除了Z的线性影响后,在两个变量X和Y之间测量的相关性。这被称为局部/条件相关性

\begin{aligned} \rho(X, Y |Z) = \rho(e_X, e_Y) = \frac{Cov(e_X, e_Y)}{\sqrt{Var(e_X)}\sqrt{Var(e_Y)}} & \\ e_X = X - (\beta_X^TZ + b_X)&\\ e_Y = Y - (\beta_Y^TZ + b_Y) \end{aligned} \\

这是Z与X和Z与Y线性回归的残差之间的相关性。类似于皮尔逊的相关性。

X \perp Y|Z \Rightarrow \rho(X, Y |Z) = 0 \\\rho(X, Y |Z) = 0 \nRightarrow X \perp Y|Z \\

局部相关图

现在可以构建一个比边际依赖图更有意义的图模型。如果一对变量在其他变量的情况下具有非显著的部分相关性,我们就把它们连接起来。这个模型的一个可能的问题是,计算每一对变量在所有其他变量上的部分相关是很昂贵的,因为我们需要首先为每个条件变量拟合(线性)回归模型。然而,事实证明,偏相关矩阵R有一个与反协方差矩阵\Theta相关的简单形式:

R_{ij} = \rho(X_i, X_j|X_{-ij}) \\R_{ij} = -\frac{\Theta_{ij}}{\sqrt{\Theta_{ii}}\sqrt{\Theta_{jj}}} \\

条件独立

条件独立性有助于降低统计和计算的复杂性。条件独立性的经典符号是X\perp Y |Z,X、Y、Z是随机变量。定义:

X\perp Y |Z \Leftrightarrow P(X, Y |Z) = P(X|Z)P(Y |Z) \\

如果想使用强依赖性度量或局部相关作为工具,提取条件独立性是一个艰难的任务。一个捷径是简单地对感兴趣的随机变量施加高斯假设。详细来说,假设(X, Y, Z)是同高斯的,我们有\rho(X, Y |Z) = 0 iff X \perp Y |Z

无向图模型(undirected graphical models)

节点对应于随机变量,而边对应于成对(非因果)关系。无向图模型是P(X, \theta_G),即随机变量X的概率分布,其参数由图G决定。 UGM例子:物理学模型、社会网络、蛋白质交互网络、建模围棋、.... 在信息检索等领域,这种模型可以用来描述概念之间的关系和实体之间的关系。

表示

无向图模型表示一个由无向图H定义的分布P(X_1, X_2, ......, X_n),以及一组与H的边相关的势函数(potential functions)\Phi_c:

$P(X_1, X_2, ......, X_n) = \frac{1}{Z}\prod_{c \in C}\Phi_c(X_c) \\

其中Z被称为配分函数(partition function), 也被称为吉布斯分布

Z = \sum_{x_1, x_2, \ldots, x_n}\prod_{c \in C} \Phi_c(X_c) \\

给定一个图,确定图模型中存在的所有 "Cliques"。这也被称为马尔科夫随机场马尔科夫网络,...

将Clique位势限制为正值可能是不方便的。用一个实值 "能量 "函数φc(Xc)以无约束的形式表示位势\phi_c(X_c):\phi_c(xc) = exp(-\pi_c(xc))。联合概率有一个很好的加性结构:

p(x) = \frac{1}{Z}exp\{-\sum_{c\in C } \phi_c(x_c)\}:=\frac{1}{Z}exp\{-H(x)\} \\

H(X)是自由能, 在物理上称之为玻尔兹曼分布,统计上成为对数线性模型:

P(X_1, X_2, X-3, X_4) = \frac{1}{Z}exp\{\sum_{ij}\phi_{ij}(X_i, X_j)\} = \frac{1}{Z}exp\{ \sum_{ij}\theta_{ij}x_ix_j + \sum_i \alpha_ix_i +C \} \\

整体能量函数可以表示为:H(X)=\sum_{ij}(x_i - \mu)\theta_{ij}(x_j - \mu) = (x-\mu)^T\Theta(x-\mu). 我们将利用这点从数据中恢复图的结构。 特别是当\Theta是稀疏的时候\Theta_{ij} = 0,那么x_ix_j之间就没有边。

对于G = {V,E},一个完全子图(Clique)是一个子图G' = \{V' \subseteq V, E' \subseteq E\},这样V'中的节点是完全相连的。一个极大团是一个完整的子图,使得任何超集都不是一个团。

上图中,最大团是{A,B,D},{B,C,D},而子团是{A,B},{C,D},...所有的边和单节点。使用团的原因: 团是基本单位,它捕捉了所有可能的依赖关系,而且不会被遗漏。如果我们从团内的子图开始构建,将它们相互连接,我们可能会有失去对一些相互依赖关系建模的风险。

团势能的解释


团势能是前概率性的权变函数,它提供了恢复或指定随机变量配置的偏差的方法。 在有向图形模型中,顶点的联合分布可以被分解为边际和条件分布的乘积。然而,在无向图形模型中,联合分布可以被分解为团势能的乘积。这些团势能不一定是边际分布。它们只代表变量的 "良好性 "或 "兼容性 "的概念。为了说明为了说明这一点,请考虑图中所示的图形。该图表示X\perp Z|Y,联合分布可以表示为p(x, y, z) = p(y)p(x|y)p(z|y),但它也可以用其他形式写成图中所示。

I-maps(Independence-map)

如何使用图来表示一个概率分布?定义I-maps是为了利用条件独立性定义图H和分布P之间的关系。表示为一个图将使描述P的所有条件独立性变得更加容易。 将I(P)定义为所有在P中成立的X \perp Z|Y形式的独立性断言的集合(与参数值无关)。 图H和其独立性断言集合I(H),如果I(H)\subseteq I(P), I(H)I(P)一个I-maps.可以发现只要是 I(P) 的子集,其对应的 G 就是概率分布 P 的 I-map,所以 I-map 可以有很多。只有 I(G) = I(P) 时,对应的 Graph 才可以等价地表示这个概率分布,也叫做 P 的 P-map (Perfect-map)。

全局马尔可夫性

什么样的分布可以由无向图来表示变量之间的独立性关系? 无定向图H的全局马尔可夫属性是:

I(H) = \{(X \perp Z|Y ) : sep(X;Z|Y )\} \\

也就是说,在给定集合Z的情况下,这两个集合被集合Z分开, 随机变量集合X和Y是独立的。

一个概率分布P满足无向图H的全局马尔科夫属性,如果对于任何不相交的X、Y和Z,使Y将X和Z分开,在给定Y的情况下,X是独立于Z的:

I(H) = \{(X \perp Z|Y ) : sep(X;Z|Y )\} \\

I(H)I(P)一个I-map.

局部马尔科夫性

无向图中一个节点X_i的相邻节点的集合被称为马尔科夫毯(表示为MB_{X_i})。

与H相关的局部马尔科夫独立性是:

I(H) = \{(X_i \perp V - \{X_i\} - MB_{X_i}|MB_{X_i} )\} \\

其中B是H中所有节点的集合。 这意味着给定X_i(图中的蓝色节点)的马尔科夫毯MB_{X_i}(图中的红色节点), X_i是独立于H中的所有其他节点(图中的白色节点).

小结

可靠性(从图到分布):P为一个分布,H是一个马尔可夫结构, 如果P是H上的吉布斯分布,那么保H是P的I-map。

完备性:H为一个马尔可夫网结构, 如果在给定Z时,X与Y在图H上不可分,则在给定Z时,X与Y在某些H上因子分解的分布中存在依赖关系。 需要注意:

图和分布之间没有严格的等价关系!

有向图模型( Directed Graphical Models)

在有向图形模型中,代表随机变量的节点由有向边连接,表示节点之间的因果关系。这种类型的有向GM被称为贝叶斯网络有向图模型

因子分解

Bayesian Networks(贝叶斯网络,BN)是一个有向图模型,其节点代表随机变量,其边缘代表随机变量之间的定向影响。

给定一个有向无环图(DAG),概率分布形式是符合的图的特点,根据 "节点给定其父节点"连乘。

P(X) = \prod_{i=1}^dp(X_i|X_{\pi_i}) \\

其中X_{\pi_i}X_i的父节点,d为图中节点数量。

结构与独立性

Common parents/Fork

给定父节点B,解耦A和C:A \perp C | B

P(A,C|B)=P(A|B)P(C|B) \\

Cascade/Chain

给定节点B,解耦A和C:A \perp C | B

P(A,C,B)=P(A)P(B|A)P(C|B) \\

V -structure/colider

给定节点C,耦合A和B:A \perp C

P(A,B, C)=P(A)P(B)P(C|A,B) \\

I-Maps

同样使用I-maps来建立图和分布之间的关系。一个分布P满足与图G相关的局部独立性,当且仅当P可表示为与图G相关的一组条件概率分布(Conditional Probability DistributionsCPD)。

设P是X上的一个分布。我们定义*I(P)*为在P中成立的(X\perp Y|Z)形式的独立性断言的集合。

K是任意一个与一组独立性集合I(K)相关的图。如果I(K)\subseteq I, 则K是一个I-map 。

要使G成为P的I-map,就必须使G中任何独立性在P中也必须成立。

局部马尔科夫假设

贝叶斯网络结构G是一个有向无环图(DAG),其节点代表随机变量X_1,X_2,...,X_N。 让Pa_{X_i}表示G中X_i的父母,NonDescendants_{X_i}表示图中是X_i的非后裔的变量。那么G编码了以下一组局部条件独立性假设:

I(\mathcal{G}) : \{X_i \perp NonDescendants_{X_i}|Pa_{X_i}: \forall i\} \\

每个节点X_i在给定其父节点的情况下都独立于其非后裔变量。

如果变量xy在道德化(moralized)祖先图中是分离的,那么在给定z的情况下,它们是D分离(D-separated)的(条件独立)。

通过删除感兴趣的随机变量及其祖先以外的所有节点来构建祖先图。然后对祖先图进行道德化处理,去除边上的所有方向,并将原本不相连且有一个共同子节点的节点连接起来。如果有一种方法可以从一个节点到另一个节点,那么这两个节点就不是条件独立的。

全局马尔科夫假设

如果不能将 "贝叶斯球(Bayes-ball) "从X中的任何节点发送到Z中的任何节点,那么在给定Y的情况下,X与Z之间是DD-separated。

chain/cascade

Y 没有观测\Leftrightarrow ,路径是Acitvate的

V- structure/colider


Y 没有观测\Leftrightarrow ,路径是Acitvate的

Fork/common parents

Y 或者Y的后代被观测\Leftrightarrow ,路径是Acitvate的

图中的分离属性意味着相关变量的独立属性。在构建分布时,我们可以直接使用因子化法来机械地组装一个分布,即 p(x)=\prod_{i=1:d}p(x_i|x_{\pi_i})

Conditional probability density (CPDs)

为了建立下面这个带有连续随机变量的图形的联合分布,我们可以使用条件概率密度函数。下面是一个定义连续随机变量依赖的例子:

对于离散变量,我们看下图的例子:


小结

可靠性:如果一个分布P根据G进行因子化,那么I(G)\subseteq I(P)(保证)。 完备性: 对于任何根据G分解的分布P,如果(X\perp Y |Z)\in I(P),那么d-sep_G(X; Y |Z) (不保证)

参考文献

  1. Daphne Koller and Nir Friedman, Probabilistic Graphical Models: Principles and Techniques

深圳SEO优化公司莱芜seo天水SEO按天扣费哪家好邢台网站优化按天扣费哪家好桐城百度竞价包年推广推荐阿坝网站开发哪家好杭州seo网站推广价格荷坳外贸网站制作公司莱芜网站改版报价和田网站推广方案推荐天水seo网站推广哪家好驻马店百度爱采购推荐安顺网络推广公司酒泉网站优化按天扣费价格坂田网站seo优化宁波网站推广工具哪家好哈尔滨关键词排名包年推广哪家好唐山建设网站多少钱清远企业网站改版价格保山网站优化推广荷坳网站改版推荐河池网站优化按天扣费多少钱长春seo排名报价吉祥网站优化按天计费报价吉林网站搭建推荐本溪网站优化按天扣费报价本溪模板推广公司迁安seo多少钱天津网站优化软件推荐坪山网站seo优化推荐漳州网站设计公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化