熵的基礎知識

熵的物理意義是體系混亂程度的度量。熵可以用來表示任何一種能量在空間中分佈的均勻程度,能量分佈得越均勻,熵就越大。

信息熵

香農對信息的定義:信息是用來消除隨機不確定性的東西。

1948年,香農將統計物理中熵的概念引入到信道通信的過程中,定義為信息熵。信息熵是接受的每條消息中包含的信息的平均值,度量信息的不確定性,熵越大,信源的分佈越隨機。數學上,信息熵其實是信息量的期望。

H(X) = - sum_{i=1}^{m} p_i(x) log p_i(x)

熵的單位為比特(bit)。

信息熵有三條性質:

  • 單調性,即發生概率越高的事件,其所攜帶的信息熵越低;
  • 非負性,即信息熵不能為負,因此在 log 前添加負號;
  • 累加性,即多個隨機事件同時發生存在的總不確定性的量度可以表示為各事件不確定的量度的和。

聯合熵

聯合熵(Joint Entropy)就是度量一個聯合分佈的隨機系統的不確定度。分佈為$p(x,y)$的一對隨機變量,其聯合熵的定義為:

begin{aligned} H(X,Y) &= - sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log p(x,y) \ &= - sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log p(x)P(y|x) \ &= - sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log p(x)- sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log P(y|x) \ &= - sum_{x in mathcal{X}} p(x) log p(x) -sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log P(y|x) \ &= H(X) + H(Y|X) end{aligned}

註: - sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log p(x) 通過邊緣化 y 得到 - sum_{x in mathcal{X}} p(x) log p(x)

條件熵

條件熵(Conditional Entropy) H(Y|X) ,表示在已知隨機變量 X 的條件下隨機變量 Y 的不確定性,其定義為:

H(Y|X)= -sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log P(y|x)

互信息

對於兩個隨機變量 XY , 如果其聯合分佈為 p(x,y) ,邊緣分佈為 p(x),p(y) ,其互信息可以定義為:

begin{aligned} I(X,Y) &=H(X)-H(X|Y) \ &= - sum_{x in mathcal{X}} p(x) log p(x) + sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log P(x|y) \ &= - sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log p(x) + sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log P(x|y) \ &= sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log frac{p(x|y)}{p(x)} \ &= sum_{x in mathcal{X}} sum_{y in mathcal{Y}} p(x,y) log frac{p(x,y)}{p(x)p(y)} end{aligned}

因此: H(X)-H(X|Y)=H(Y)-H(Y|X)

互信息 I(X,Y) 表示為知道事實 Y 後,原來信息量減少瞭多少。

相對熵

相對熵(Relative Entropy)又稱為KL 散度(Kullback-Leibler divergence), 是兩個概率分佈 P 和 Q 差別的非對稱性的度量。假設 P 為觀察得到的概率分佈,Q 為另一種概率分佈來近似 P,它們之間的 KL 散度為:

begin{aligned} KL(P || Q) &= sum_{i=1}^{N} P(x_i) log frac{P(x_i)}{Q(x_i)} \ &= sum_{i=1}^{N} P(x_i)(log P(x_i) - log Q(x_i)) \ &= sum_{i=1}^{N} P(x_i)log P(x_i)- sum_{i=1}^{N} P(x_i)log Q(x_i) \ &= -H(P) + H_P(Q) end{aligned}

H_P(Q) 表示在P分佈下,使用Q進行編碼需要的比特, H(P) 表示對分佈P所需要的最小比特。因此, KL(P || Q) 的物理意義是使用Q分佈進行編碼相對於分佈P進行編碼所多出來的比特。需要註意的 KL 散度是非對稱的, KL(P||Q) neq KL(Q||P)

交叉熵

交叉熵(Cross Entropy)的公式為:

H(P,Q)=-sum_{i=1}^nP(x_i)log(Q(x_i))

即為相對熵中的 H_P(Q) 。相對熵=交叉熵-信息熵。在機器學習,需要評估真實分佈和預測分佈之間的差距,可以使用相對熵進行度量差異,而相對熵中的 H(P) 是不變的,因此,一般直接使用交叉熵衡量兩個分佈的差異以評估模型。

最大熵原理

最大熵原(Maximum entropy principle),認為學習概率模型時,在所有可能的概率模型中,熵最大的模型是最好的模型。

換句話,最大熵原理遵循:

  • 滿足已知信息(約束條件)
  • 不做任何未知假設(剩下的等概率)

有點像俗語“不要把雞蛋放在同一個籃子裡”。

最小熵原理

最小熵原理是一個無監督學習的原理,“熵”就是學習成本,而降低學習成本是我們的不懈追求,所以通過“最小化學習成本”就能夠無監督地學習出很多符合我們認知的結果,這就是最小熵原理的基本理念。

參考資料

  • 信息,熵,聯合熵 page

发表回复

相关推荐

轻松看懂建筑电气图纸,只需要记住这些图例,附全套电气图例!

施工图纸作为施工建筑的灵魂,在一套图纸中会有各式各样的图纸,在图纸绘制出来的时候就决定了建筑的的造型。图纸中会用不同 ...

· 54秒前

有機肥生產線丨關於有機肥料的加工,你可能需要瞭解這些

本文,鼎輝機械將從“生產加工有機肥所需設備”、“組建有機肥生產線需要考慮的問題”兩個方面對有機肥的生產線進行簡要介紹。文...

· 2分钟前

迪士尼人物名称大全!只认识玲娜贝儿?!附:上海迪士尼新春限定打卡攻略+内部员工实用tips!

作为上海迪士尼的小迷妹,怎么可以只认识玲娜贝儿!星黛露!

· 5分钟前

《你丫上瘾了》

白洛因从小没妈,顾海也从小没妈。 顾海的妈妈因病去世,白洛因的妈妈去给顾海当了后妈。 白洛因的妈妈为了儿子前程想给儿子 ...

· 5分钟前

一分鐘瞭解:技術員證書怎麼報考?技術員證書的報考條件?技術員證書報考流程?

技術員作為技術型的專業人才崗位的代替性還是比較低的,技術員經過努力還可以發展成為工程師,最近有很多人咨詢小編技術員證...

· 7分钟前