我国居民收入差距基尼系数回归模型比较

2022-09-12

一、单纯形分布和正态分布密度函数对比

绘制均值同为0.4、方差同为0.0796的单纯形分布 (Simplex Distribution) 和正态分布密度函数曲线如图1 (a) 所示, 均值同为0.4、方差同为0.0357的单纯形分布和正态分布密度函数曲线如图1 (b) 所示。由这两幅图可直观看出:较小方差单纯形分布的密度函数曲线的形状更类似于正态分布的钟形, 较大方差单纯形分布的密度函数曲线有两个峰值, 分别靠近区间的两端, 此时的单纯形分布密度函数与正态分布密度函数有较大的差别。由此推测, 方差很小的单纯形分布更接近正态分布。事实上, 这个结论在理论上是得到证明的了。

二、全球基尼系数的分布拟合

世界银行网站公布了世界各国1980年-2016年部分基尼系数, 样本容量为1356, 对这组数据进行探索性分析, 绘制频率直方图、核密度估计曲线、正态分布拟合曲线和单纯形分布拟合曲线如图2所示。从图2直观来看, 单纯形分布拟合曲线比正态分布拟合曲线更接近频率直方图和核密度估计曲线, 因此, 两种分布拟合的效果虽然都不理想, 但是单纯形分布拟合这组数据的效果相对要优于正态分布。

三、我国居民收入差距基尼系数回归模型比较

本文综合考虑已有文献关于我国居民收入差距基尼系数影响因素的研究成果, 结合数据的有效性, 从经济增长、财政支出、教育和人口等方面确定影响因素指标, 选取人均GDP (元) (X1) 、GDP增长率 (X2) 、国家财政性教育经费支出 (亿元) (X3) 、全国财政支出 (亿元) (X4) 、65岁以上人口比重 (X5) 、国家财政社会保障和就业支出 (亿元) (X6) 这六个指标作为影响我国居民收入差距基尼系数的备选因素, 模型的因变量为基尼系数 (Y) 。

从世界银行网站和《中国统计年鉴》收集上述六个指标1995-2016年的数据, 用向后剔除选择自变量的方法, 分别建立线性回归模型和单纯形分布回归模型, 并统一使用张朋和邱振国 (2014) 中计算Akaike信息量准则 (AIC) 和Bayes信息量准则 (BIC) 的公式计算AIC和BIC, 它们是用来衡量模型优劣的一种准则, 值越小, 模型越优, 计算结果如表1所示。

从表1可知, 两类模型选择的重要变量都是X 2—GDP增长率、X 3—国家财政性教育经费支出 (亿元) 、X5—65岁以上人口比重、X 6—国家财政社会保障和就业支出 (亿元) , 但是, 线性回归模型的AIC和BIC均小于单纯形分布回归模型, 因此, 针对这组数据, 线性回归模型略优于单纯形分布回归模型。

但是, 用线性回归模型来拟合基尼系数具有一定的局限性, 因为假设基尼系数服从正态分布, 是不妥当的。只有当基尼系数的方差很小, 集中在均值的附近取值时, 方可认为其近似地服从正态分布, 将其在区间[0, 1]之外取值的概率忽略不计。1995-2016年我国基尼系数的均值为0.4367, 标准差只有0.06, 所以, 可认为近似地服从正态分布。

摘要:居民收入差距基尼系数是在0和1之间取值的比例数据, 单纯形分布随机变量恰好在0和1之间取值, 而正态分布随机变量在负无穷大和正无穷大之间取值, 那么在研究基尼系数的影响因素分析时, 是选择常用的正态分布线性回归模型合适, 还是选择单纯形分布回归模型适合呢?本文基于1995年-2016年我国的基尼系数数据建立线性回归模型和单纯形布回归模型, 对两类模型的拟合效果进行比较评价。

关键词:基尼系数,回归模型,世界银行

参考文献

[1] 唐琥珀.单纯形分布模型变量选择[D].贵州财经大学, 硕士学位毕业论文, 2013.

[2] 张文专, 段星德.基尼系数单纯形分布回归模型的变量选择[J].今日财富, 2018 (10) :66-67.

[3] Zhang P, Qiu Z, Shi C.Simplexreg:An R Package for Regression Analysis of Proportional Data Using Simplex Distribution[J].Journal of Statistical Software, 2016, 71:1-21

[4] 张朋, 邱振国.基于单纯形分布的比例数据的回归分析[J].中国科学:数学, 2014, 44 (1) :89-104

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:质量风险管理在无菌原料药中的应用下一篇:依法行政法律文化基础的探讨