熵的物理意義是體系混亂程度的度量。熵可以用來表示任何一種能量在空間中分佈的均勻程度,能量分佈得越均勻,熵就越大。
香農對信息的定義:信息是用來消除隨機不確定性的東西。
1948年,香農將統計物理中熵的概念引入到信道通信的過程中,定義為信息熵。信息熵是接受的每條消息中包含的信息的平均值,度量信息的不確定性,熵越大,信源的分佈越隨機。數學上,信息熵其實是信息量的期望。
H(X) = - sum_{i=1}^{m} p_i(x) log p_i(x)
熵的單位為比特(bit)。
信息熵有三條性質:
聯合熵(Joint Entropy)就是度量一個聯合分佈的隨機系統的不確定度。分佈為$p(x,y)$
的一對隨機變量,其聯合熵的定義為:
begin{aligned} H(X,Y) &= - sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log p(x,y) \ &= - sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log p(x)P(y|x) \ &= - sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log p(x)- sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log P(y|x) \ &= - sum_{x in mathcal{X}} p(x) log p(x) -sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log P(y|x) \ &= H(X) + H(Y|X) end{aligned}
註: - sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log p(x) 通過邊緣化 y 得到 - sum_{x in mathcal{X}} p(x) log p(x)
條件熵(Conditional Entropy) H(Y|X) ,表示在已知隨機變量 X 的條件下隨機變量 Y 的不確定性,其定義為:
H(Y|X)= -sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log P(y|x)
對於兩個隨機變量 X 和 Y , 如果其聯合分佈為 p(x,y) ,邊緣分佈為 p(x),p(y) ,其互信息可以定義為:
begin{aligned} I(X,Y) &=H(X)-H(X|Y) \ &= - sum_{x in mathcal{X}} p(x) log p(x) + sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log P(x|y) \ &= - sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log p(x) + sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log P(x|y) \ &= sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log frac{p(x|y)}{p(x)} \ &= sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log frac{p(x,y)}{p(x)p(y)} end{aligned}
因此: H(X)-H(X|Y)=H(Y)-H(Y|X) 。
互信息 I(X,Y) 表示為知道事實 Y 後,原來信息量減少瞭多少。
相對熵(Relative Entropy)又稱為KL 散度(Kullback-Leibler divergence), 是兩個概率分佈 P 和 Q 差別的非對稱性的度量。假設 P 為觀察得到的概率分佈,Q 為另一種概率分佈來近似 P,它們之間的 KL 散度為:
begin{aligned} KL(P || Q) &= sum_{i=1}^{N} P(x_i) log frac{P(x_i)}{Q(x_i)} \ &= sum_{i=1}^{N} P(x_i)(log P(x_i) - log Q(x_i)) \ &= sum_{i=1}^{N} P(x_i)log P(x_i)- sum_{i=1}^{N} P(x_i)log Q(x_i) \ &= -H(P) + H_P(Q) end{aligned}
H_P(Q) 表示在P分佈下,使用Q進行編碼需要的比特, H(P) 表示對分佈P所需要的最小比特。因此, KL(P || Q) 的物理意義是使用Q分佈進行編碼相對於分佈P進行編碼所多出來的比特。需要註意的 KL 散度是非對稱的, KL(P||Q) neq KL(Q||P) 。
交叉熵(Cross Entropy)的公式為:
H(P,Q)=-sum_{i=1}^nP(x_i)log(Q(x_i))
即為相對熵中的 H_P(Q) 。相對熵=交叉熵-信息熵。在機器學習,需要評估真實分佈和預測分佈之間的差距,可以使用相對熵進行度量差異,而相對熵中的 H(P) 是不變的,因此,一般直接使用交叉熵衡量兩個分佈的差異以評估模型。
最大熵原(Maximum entropy principle),認為學習概率模型時,在所有可能的概率模型中,熵最大的模型是最好的模型。
換句話,最大熵原理遵循:
有點像俗語“不要把雞蛋放在同一個籃子裡”。
最小熵原理是一個無監督學習的原理,“熵”就是學習成本,而降低學習成本是我們的不懈追求,所以通過“最小化學習成本”就能夠無監督地學習出很多符合我們認知的結果,這就是最小熵原理的基本理念。
page
上一篇
下一篇