概率模型(四):条件随机场(CRF)

匿名 (未验证) 提交于 2019-12-02 22:59:29

条件随机场(Conditional Random Field,CRF)是一个比较重要的概率模型,在详细介绍CRF之前,首先简单介绍一下概率图(Probabilistic Graphical Model,PGM),有时候简称图模型(Graphical Model, GM).

PGM

概率图模型用图的形式表示一组随机变量。图中的节点表示一个或一组随机变量,图中的边代表随机变量间的依赖关系。

概率图模型分为有向图模型和无向图模型,如下:

下面将依次介绍

有向图模型

有向图模型中,我们主要考虑贝叶斯网络,它满足下面特征的模型:

对于一个无向图G G以及它表示的一组随机变量X=x1,x2,...,xNX={x_1,x_2,...,x_N},xix_i的所有父节点组成的集合我们记作XπiX_{\pi i},如果XX的联合概率分布可以表示为:

p(X)=i=1Np(xixπi)p(X)=\prod_{i=1}^Np(x_i|x_{\pi i})

那么GG被称为一个贝叶斯网络

常见的贝叶斯网络有:sigmoid信念网络(SBN),朴素贝叶斯模型,以及上篇的隐马尔科夫模型

SBN

模型的局部条件概率表示为:

p(xkXπk,W)=σ(w0+xiXπkwixi) p(x_k|X_{\pi k},W)=\sigma(w_0+\sum_{x_i\in X_{\pi k}}w_ix_i)

朴素贝叶斯

模型的局部条件表示为:

P(xkXπk)=P(Xπkxk)P(xk)P(Xπk) P(x_k|X_{\pi k})=\frac{P(X_{\pi k}|x_k)P(x_k)}{P(X_{\pi k})}

P(Xπkxk)P(xk)\propto P(X_{\pi k}|x_k)P(x_k)
=P(xk)xiXπkP(xixk)=P(x_k)\prod_{x_i\in X_{\pi k}} P(x_i|x_k)

隐马尔科夫模型

上一篇详细介绍了此模型,它的联合分布概率表示为:
P(Q,V)=qtQ,vtVP(vtvt1)P(qtvt) P(Q,V)=\prod_{q_t\in Q,v_t\in V}P(v_t|v_{t-1})P(q_t|v_t)

其中P(vtvt1)P(v_t|v_{t-1})是转移概率,P(qtvt)P(q_t|v_t)为输出概率。

无向图模型

对于无向图模型,我们主要考虑马尔科夫随机场(Markov Random Field,MRF),也称为马尔科夫网络(Markov Network).

无向图G,图中的节点表示随机变量,边表示随机变量间的依赖关系。如果图中随机变量的联合概率分布P(X)满足成对、局部或全局马尔可夫性,则G被称为马尔科夫随机场

那么我们分别来解释下成对、局部、全局马尔科夫性分别是什么性质。

成对马尔科夫性

无向图中的任意不直接相连的两个节点xi,xj x_i,x_j,以及除它们之外的所有节点组成的集合,记作XOX_O.

如果给定XOX_O的情况下,xi,xjx_i,x_j条件独立,则称无向图满足成对马尔科夫性质,即:

P(xi,xjXO)=P(xiXO)P(xjXO)P(x_i,x_j|X_O)=P(x_i|X_O)P(x_j|X_O)

局部马尔科夫性

无向图中的任意一个节点xk x_k, 与之直接向量的节点组成的集合,记作XN(k)X_{N(k)},xkx_k之外的所以其他节点组成的集合,记作XkX_{-k}.

如果:

P(xkXN(k))=P(xkXk)P(x_k|X_{N(k)})=P(x_k|X_{-k})

则称无向图满足局部马尔科夫性。

全局马尔科夫性

无向图中不直接相邻节点集合XA,XB X_A,X_B,已经连接他们的节点组成的集合XCX_C

如果:

P(XA,XBXC)=P(XAXC)P(XBXC)P(X_A,X_B|X_C)=P(X_A|X_C)P(X_B|X_C)

则称无向图满足全局马尔科夫性。

有向图中联合概率分布可以分解为局部条件概率的乘积形式,无向图中的联合概率分布如果计算呢?

无向图中的边不表示因果依赖关系,所以不能运用链式法则分解为条件概率的乘积形式。在介绍无向图联合概率分解方法之前,先引入团的概念。

无向图中的全联通子图,有称为团,如果一个团加入任何一个节点后不能构成团,则称之为最大团

HC定理

无向图满足成对、局部或全局马尔科夫性,当且仅当联合分布概率可以表示一系列定义在最大团上的非负函数的乘积形式,即

P(X)=1ZXcC(Xc) P(X)=\frac{1}{Z}\prod_{X_c\in C}\phi(X_{c})
其中,
Z=XcC(Xc)Z=\sum_{X_c\in C}\phi(X_c)

称为配平函数(partition function),(Xc)0\phi(X_c)\ge0称为势能函数,XcX_c为一个最大团,CC为最大团组成的集合

由于势能函数必须是非负的,所以经常采用势能函数:

(Xc)=exp(E(Xc))\phi(X_c)=exp(-E(X_c))

其中E(Xc)E(X_c)被称为能量函数。如此,联合概率分布可表示为:

P(X)=1ZXcC(Xc)P(X)=\frac{1}{Z}\prod_{X_c\in C}\phi(X_c)
=1ZXcCexp(E(Xc))=\frac{1}{Z}\prod_{X_c\in C}exp(-E(X_c))
=1Zexp(XcCE(XC))=\frac{1}{Z}exp(\sum_{X_c\in C}-E(X_C))

条件随机场就是常见的无向图模型之一,另外常见的无向图模型还有对数线性模型、玻尔兹曼机和受限玻尔兹曼机。介绍条件随机场之前,先简单介绍一下对数线性模型,玻尔兹曼机与受限玻尔兹曼机在之前的文章里已有介绍,不再赘述。

对数线性模型

势能函数采用:
c(Xcθc)=exp(θcTfc(Xc)) \phi_c(X_c|\theta_c)=exp(\theta_c^T f_c(X_c))

所以联合分布概率表示为:

P(Xθ)=1z(θ)XcCexp(θCTfc(Xc))P(X|\theta)=\frac{1}{z(\theta)}\prod_{X_c\in C}exp(\theta_C^T f_c(X_c))

log(P(Xθ))=log(XcCexp(θcTfc(Xc)))log(z(θ))log(P(X|\theta))=log(\prod_{X_c\in C}exp(\theta_c^T f_c(X_c)))-log(z(\theta))