Bayesian information criterion(BIC)或Schwarz information criterion(SBC,SBIC)是统计学中用于在有限模型集合中选择最佳模型的方法。它计算概率函数,并为模型中的参数数量增加一个惩罚项。这有助于避免过度拟合,并为模型选择提供了一种平衡的方法。
BIC是由Gideon E. Schwarz开发的,他将贝叶斯参数应用于该准则。它与Akaike信息准则(AIC)类似,AIC是由受Schwarz贝叶斯形式主义的启发而开发的Akaike。BIC和AIC都被广泛用于模型选择,BIC的惩罚项比AIC大。
总之,BIC是在有限选项中选择最佳模型的宝贵工具。它对参数数量的惩罚项有助于避免过度拟合,使其成为数据分析中热门选择。
BIC是一种渐近结果,是在数据分布符合指数族分布的假设下得出的。
其中:
• x = 观测数据;
• n = x中的数据点数,观测数,或等价地,样本大小;
• k = 要估计的自由参数的数量。如果估计的模型是线性回归,则k是回归器的数量,包括截距;
• p(x|k) = 给定参数个数时观测数据的概率; 或者是给定数据集时参数的似然度;
• L = 估计模型的似然函数的最大值。
BIC approx -2 cdot ln p(x|k) or BIC = -2 cdot ln (L)+ k ln(n)
在假设模型误差或扰动独立且服从正态分布的前提下,以及导数对于真实方差的对数似然的边界条件为零,这就变成了以下形式(加上一个常数,该常数仅依赖于n而不是模型):
BIC = n cdot ln(widehat{sigma_e^2)} + k cdot ln(n) , widehat{sigma_e^2} 是误差方差。
注:其中,“误差”是指实际观测值与预测值之间的差异,而“方差”是指这些误差的平方的平均值。
在这里,误差方差计算公式:
widehat{sigma_e^2} = frac{1}{n}sum_{i=1}^n (x_i – bar{x})^2
根据概率论, widehat{sigma_e^2} 是真实方差( {sigma^2} )的一个有偏估计量。这里,表示近似误差方差的无偏形式。它定义为:
widehat{widehat{sigma_e^2}} = frac{1}{n-1}sum_{i=1}^n(x_i -bar{x})^2
在正态性假设下,BIC 变得更易处理:
BIC = chi^2 + k cdot ln(n)
请注意,由于从对数似然到 chi^2 的转换,需要添加了一个常数;然而,在使用BIC确定“最佳”模型时,该常数变得基本可以忽略不计。
给定任意两个估计模型,BIC值较低的模型,更推荐。BIC是 widehat{sigma_e^2} 和 k 的递增函数。也就是说,因变量中未解释的变异和解释变量的数量增加都会增加BIC的值。因此,较低的BIC值意味着要么使用较少的解释变量,要么拟合得更好,或者两者都有。相比于AIC,BIC通常更严厉地惩罚自由参数,但这取决于 n 的大小和 n 与 k 的相对大小。
需要注意的是,当对比的所有估计中因变量的数值相同时,才能使用BIC来比较估计的模型。与使用F检验或似然比检验比较模型的情况不同,被比较的模型不需要是嵌套的。
Bayes信息准则(BIC)是一种用于模型选择的统计准则。它对模型进行评估,考虑了模型的拟合优度和模型复杂度,可以用来选择最优模型。在具体的使用案例中,BIC通常与贝叶斯推断一起使用。在贝叶斯推断中,我们通过后验概率分布来计算模型参数的不确定性。BIC可以用来选择最优模型,它是一个用于比较不同模型的统计量,通过比较BIC值可以确定哪个模型最有可能解释数据。BIC值是一个惩罚项,它对复杂度大的模型进行了惩罚,同时鼓励选择拟合度高的模型。因此,BIC可以用来避免过度拟合的问题,同时选择一个简单而又精确的模型。
一个具体的案例是在时间序列分析中,我们可以使用BIC来选择最优的ARIMA模型。ARIMA模型是一种广泛用于时间序列分析的模型,它涉及到很多参数的选择。通过使用BIC来评估不同的ARIMA模型,我们可以确定最优的模型,并使用该模型来进行预测。
在时间序列分析中,BIC通常用于选择最优的自回归移动平均(ARMA)或自回归综合移动平均(ARIMA)模型。以下是使用BIC在时间序列分析中进行模型选择的一般步骤:
需要注意的是,BIC值仅仅是模型选择的一种指标。当使用BIC选择模型时,还应该对模型进行其他评估,例如检查模型残差的自相关性和正态性,以确保模型的可靠性和准确性。
如果一个统计模型或学习机的参数映射到概率分布的映射是一一映射,并且它的Fisher信息矩阵始终是正定的,则称其为规则的。否则,它被称为奇异的。在规则的统计模型中,贝叶斯自由能由贝叶斯边缘似然的对数取负得到定义,可以通过Schwarz贝叶斯信息准则(BIC)渐近地逼近,而在奇异模型中,这种逼近不成立。最近,人们证明了奇异模型的贝叶斯自由能可以通过使用有理不变量实对数典范阈值(RLCT)的广义公式渐近地给出,而不是BIC中参数数量的一半。基于代数几何方法,已经发现了几种统计模型的RLCT的理论值。然而,仅使用训练样本估计贝叶斯自由能是困难的,因为RLCT取决于未知的真实分布。
data("CarTask",package = "bayesbr")
car_bayesbr <- bayesbr(probability ~ NFCCscale + task, data = CarTask,
iter =100)
bic = BIC_bayesbr(car_bayesbr)
<< · Back Index ·>>