贝叶斯信息量准则(BIC)

Bayesian information criterion(BIC)或Schwarz information criterion(SBC,SBIC)是统计学中用于在有限模型集合中选择最佳模型的方法。它计算概率函数,并为模型中的参数数量增加一个惩罚项。这有助于避免过度拟合,并为模型选择提供了一种平衡的方法。

BIC是由Gideon E. Schwarz开发的,他将贝叶斯参数应用于该准则。它与Akaike信息准则(AIC)类似,AIC是由受Schwarz贝叶斯形式主义的启发而开发的Akaike。BIC和AIC都被广泛用于模型选择,BIC的惩罚项比AIC大。

总之,BIC是在有限选项中选择最佳模型的宝贵工具。它对参数数量的惩罚项有助于避免过度拟合,使其成为数据分析中热门选择。

数学表述:

BIC是一种渐近结果,是在数据分布符合指数族分布的假设下得出的。

其中:

• x = 观测数据;

• n = x中的数据点数,观测数,或等价地,样本大小;

• k = 要估计的自由参数的数量。如果估计的模型是线性回归,则k是回归器的数量,包括截距;

• p(x|k) = 给定参数个数时观测数据的概率; 或者是给定数据集时参数的似然度;

• L = 估计模型的似然函数的最大值。

BIC approx -2 cdot ln p(x|k) or BIC = -2 cdot ln (L)+ k ln(n)

在假设模型误差或扰动独立且服从正态分布的前提下,以及导数对于真实方差的对数似然的边界条件为零,这就变成了以下形式(加上一个常数,该常数仅依赖于n而不是模型):

BIC = n cdot ln(widehat{sigma_e^2)} + k cdot ln(n) , widehat{sigma_e^2} 是误差方差。

注:其中,“误差”是指实际观测值与预测值之间的差异,而“方差”是指这些误差的平方的平均值。

在这里,误差方差计算公式:

widehat{sigma_e^2} = frac{1}{n}sum_{i=1}^n (x_i – bar{x})^2

根据概率论, widehat{sigma_e^2} 是真实方差( {sigma^2} )的一个有偏估计量。这里,表示近似误差方差的无偏形式。它定义为:

widehat{widehat{sigma_e^2}} = frac{1}{n-1}sum_{i=1}^n(x_i -bar{x})^2

在正态性假设下,BIC 变得更易处理:

BIC = chi^2 + k cdot ln(n)

请注意,由于从对数似然到 chi^2 的转换,需要添加了一个常数;然而,在使用BIC确定“最佳”模型时,该常数变得基本可以忽略不计。

给定任意两个估计模型,BIC值较低的模型,更推荐。BIC是 widehat{sigma_e^2}k 的递增函数。也就是说,因变量中未解释的变异和解释变量的数量增加都会增加BIC的值。因此,较低的BIC值意味着要么使用较少的解释变量,要么拟合得更好,或者两者都有。相比于AIC,BIC通常更严厉地惩罚自由参数,但这取决于 n 的大小和 n k 的相对大小。

需要注意的是,当对比的所有估计中因变量的数值相同时,才能使用BIC来比较估计的模型。与使用F检验或似然比检验比较模型的情况不同,被比较的模型不需要是嵌套的。

特点总结:

  • 不依赖于先验分布或先验是“模糊的”(一个常数)。
  • 可以通过预测数据的方式来衡量参数化模型的效率。
  • 对模型的复杂性进行惩罚,其中复杂性是指模型中的参数数量。
  • 与最小描述长度准则大致相等,但符号为负。
  • 可以根据特定数据集中存在的内在复杂性来选择聚类数量。
  • 与其他惩罚似然准则(如RIC和Akaike信息准则)密切相关。

常用的例子:

Bayes信息准则(BIC)是一种用于模型选择的统计准则。它对模型进行评估,考虑了模型的拟合优度和模型复杂度,可以用来选择最优模型。在具体的使用案例中,BIC通常与贝叶斯推断一起使用。在贝叶斯推断中,我们通过后验概率分布来计算模型参数的不确定性。BIC可以用来选择最优模型,它是一个用于比较不同模型的统计量,通过比较BIC值可以确定哪个模型最有可能解释数据。BIC值是一个惩罚项,它对复杂度大的模型进行了惩罚,同时鼓励选择拟合度高的模型。因此,BIC可以用来避免过度拟合的问题,同时选择一个简单而又精确的模型。

例子1 – 时间序列分析

一个具体的案例是在时间序列分析中,我们可以使用BIC来选择最优的ARIMA模型。ARIMA模型是一种广泛用于时间序列分析的模型,它涉及到很多参数的选择。通过使用BIC来评估不同的ARIMA模型,我们可以确定最优的模型,并使用该模型来进行预测。

在时间序列分析中,BIC通常用于选择最优的自回归移动平均(ARMA)或自回归综合移动平均(ARIMA)模型。以下是使用BIC在时间序列分析中进行模型选择的一般步骤:

  1. 确定ARIMA模型的可能范围,并生成候选模型。这通常涉及选择ARIMA模型的阶数,即选择ARIMA(p,d,q)模型的p、d、q值。p表示自回归阶数,d表示差分阶数,q表示移动平均阶数。一般而言,通过观察数据的自相关和偏自相关图,可以大致确定这些参数的范围。
  2. 对于每个候选模型,估计模型参数并计算BIC值。估计模型参数可以使用最大似然方法,贝叶斯方法或其他方法。然后,将估计参数和数据代入BIC公式中计算BIC值。
  3. 比较每个候选模型的BIC值,并选择具有最小BIC值的模型。BIC值越小,模型越好。通过比较BIC值可以选择最佳的模型。

需要注意的是,BIC值仅仅是模型选择的一种指标。当使用BIC选择模型时,还应该对模型进行其他评估,例如检查模型残差的自相关性和正态性,以确保模型的可靠性和准确性。

例子2 – 机器学习

  1. 神经网络模型选择:在神经网络模型中,选择最优模型是一个重要的问题。通过使用BIC,我们可以评估不同的神经网络模型,并选择最简单和最具有预测能力的模型。
  2. 特征选择:特征选择是机器学习中的一个重要问题,它涉及到选择哪些特征用于建模。通过使用BIC,我们可以比较不同特征组合的性能,并选择最优组合。

思考:

如果一个统计模型或学习机的参数映射到概率分布的映射是一一映射,并且它的Fisher信息矩阵始终是正定的,则称其为规则的。否则,它被称为奇异的。在规则的统计模型中,贝叶斯自由能由贝叶斯边缘似然的对数取负得到定义,可以通过Schwarz贝叶斯信息准则(BIC)渐近地逼近,而在奇异模型中,这种逼近不成立。最近,人们证明了奇异模型的贝叶斯自由能可以通过使用有理不变量实对数典范阈值(RLCT)的广义公式渐近地给出,而不是BIC中参数数量的一半。基于代数几何方法,已经发现了几种统计模型的RLCT的理论值。然而,仅使用训练样本估计贝叶斯自由能是困难的,因为RLCT取决于未知的真实分布。

R example

data("CarTask",package = "bayesbr")

car_bayesbr <- bayesbr(probability ~ NFCCscale + task, data = CarTask,
iter =100)
bic = BIC_bayesbr(car_bayesbr)

<< · Back Index ·>>

发表回复

相关推荐

2021年有哪些值得一看的日本动漫番剧

1、转生成蜘蛛又怎样! 【评分】8.8 【类型】冒险、搞笑、奇幻 【网络播放】bilibili 《转生成蜘蛛又怎样》讲述本该是高中女 ...

· 27分钟前

Deepl:一款优秀的专业翻译软件

虽说大家都学了很多年的英语,但翻译软件还是离不开。

· 30分钟前

豪爵USR125小踏板摩托-購車心路歷程

23年9月7日更新車子騎瞭快兩年瞭,除瞭有幾次剛啟動怠速不穩的時候熄火,基本沒啥問題,可能跟我自己裝的遙控鑰匙有關系。整...

· 31分钟前

有趣的几何图形,给设计带来的灵感

朋友,你注意过生活中有趣的现象吗?我们看热闹的时候,喜欢围成一圈,建筑物大多数都是正方形的,当然也有正三角形的(比如 ...

· 31分钟前

原來這些國傢竟然通過這些方式培養孩子的藝術才能!

  每個孩子都是天生的藝術傢,問題是怎麼在長大之後,仍然保持這種天賦。  ——畢加索  我們常常看到孩子快樂時,會自發...

· 35分钟前