马尔可夫随机场

概率图模型是一类用图来表达变量相关关系的概率模型

使用无向图的模型称为马尔可夫网(Markov Net)马尔可夫随机场(Markov Random Field, MRF)

假设有联合概率分布P(X),我们可以用无向图G(V,E)来表示P(X)

G中任意一个结点vV表示一个随机变量Xv,而任意边eE表示其连接的两个结点(随机变量)间的依赖关系

给定概率分布P(X),其对应的无向图模型G(V,E)满足:

全局马尔可夫性:假设G中结点集合AB必须经过节点集合C,则给定随机变量子集XC时,随机变量子集XAXB条件独立,即

P(XA,XB|XC)=P(XA|XC)P(XB|XC)

根据全局马尔可夫性,可进一步推论无向图G满足:

局部马尔可夫性:vVG的任意一个结点,W是与v邻接的结点的集合,U=V/(vW)是除vW外所有结点的集合,则

P(Xv,XU|XW)=P(Xv|XW)P(XU|XW)

也即给定某变量的邻接变量,则其他变量条件独立于该变量

成对马尔可夫性:u,vVG的任意两个不直接相连的变量,W是除u,v外的所有其他变量,则

P(Xv,Xu|XW)=P(Xv|XW)P(Xu|XW)

无向图模型的因子分解

首先给出团和极大团的定义

团:CG是无向图G的结点子集,若C中任意两结点间均有边相连,则称C为团

极大团:C是无向图G的团,且在C中加入任意其他结点后C不再是团,则称C为极大团

将联合概率分布表示为其无向图中极大团上的随机变量的函数的乘积的操作,称为无向图模型的因子分解,即

P(X)=1ZCΨC(XC)

其中常数Z是规范化因子,用于保证P(X)的积分为1,其值由下式给出,但实际中Z通常是难以计算的

Z=XCΨC(XC)

函数ΨC(XC)称为势函数(potential function),势函数必须非负,因此常定义为指数形式

ΨC(XC)=exp(H(XC))

Hammersley-Clifford定理指出:无向图模型的分布一定可以表示为图上所有最大团上的势函数的乘积

条件随机场

条件随机场(Conditional Random Field, CRF)是一种对条件概率进行建模的马尔可夫随机场

具体来说,给定观测序列X=(X1,X2,,XN)和标记序列Y=(Y1,Y2,,YN),CRF对P(Y|X)进行建模

若随机变量Y构成一个由无向图G=(V,E)表示的马尔科夫随机场,即

P(Yv|X,YV/{v})=P(Yv|X,YW),whereWv

则称G为概率分布P(Y|X)的条件随机场

其中V/v是除结点v外的所有结点,W是所有与v邻接的结点的集合

虽然图G可以有任意结构,但实际中一般关注的是线性链条件随机场(linear chain CRF),如下图所示

形式化的说,线性链CRF满足$P(Yi|X,Y_1,…,Y{i-1},Y{i+1},…,Y_n)=P(Y_i|X,Y{i-1},Y_{i+1})$

线性链CRF广泛用于NLP等序列处理,例如词性标注任务中,观测序列X是单词序列,标记序列Y则是词性序列

chain_CRF

显然线性链CRF上每对相邻的Yi构成一个极大团每个Yi本身构成一个,因此P(Y|X)可通过因子分解表示为

P(Y=y|X=x)=1Zexp(ki=1n1λktk(yi1,yi,x,i)+ki=1nμksk(yi,x,i))

其中tk,sk称为特征函数tk是定义在上的特征函数,称为转移特征sk是定义在结点上的特征函数,称为状态特征,特征函数一般取值为1或0,常数λk,μk是相应特征函数的权重

与HMM相同,CRF也关注观测序列概率计算、参数学习和预测三个问题并有相应的算法

(反正传统方法用的不多了所以算法挖个坑以后再填)