ACTA Scientiarum Naturalium Universitatis Pekinensis
基于 Euler 公式的无尺度分布 Gini 系数估计公式
陈彦光
北京大学城市与环境学院城市与经济地理系, 北京 100871; E-mail: chenyg@pku.edu.cn
摘要 为了解决集中化指数代替Gini系数度量规模和空间分布不平衡引发的偏差问题, 提出一个Gini系数的近似估计思路。针对社会经济系统中的无尺度分布现象, 借助Euler公式, 基于Zipf定律, 推导一个累积分布的对数函数, 据此构造一个Gini系数的近似估计公式。将此公式应用于京津冀城镇体系, 借助夜晚灯光数据计算 22 年的Gini系数。结果表明gini系数与集中化指数存在显著差异。由此得出结论: 集中化指数适用于有尺度分布现象, 所提新方法则适用于无尺度分布现象。研究结果有助于认识不平衡测度的适用范围, 并可为进一步发展Gini系数的直接估计方法提供参考。关键词 Pareto 分布; Zipf 定律; Euler 公式; Lorenz 曲线; Gini 系数; 无尺度现象中图分类号 K90; O213
科学研究首先要描述研究对象的特征, 然后设法解释其背后的原理或者因果关系。描述手段通常是测度或者数学模型[1]。对于空间和等级分布而言,一个基本的任务是描述其均衡性或者差异性。为此,人们构造了各种指数, 其中著名的有基于Lorenz曲
线的Gini系数[2–3]。gini系数之类的测度可以将复杂现象的众多数据浓缩为一个简单的数字, 为人们快速了解系统结构特征提供判据[4]。Gini系数不仅可以描述地理现象的等级分布, 而且可以反映空间分布的不均衡特征[5]。困难在于, 很难找到一个适合
各种分布现象的普适函数来描述观测数据的累积分布曲线。如果不能利用某种函数建立模型, 则无法直接估计Gini系数。不得已而求其次, 人们采用集中化指数代替Gini系数[6]。在应用中, Gini系数和集中化指数都可以作为分布不平衡指数。然而, 集中化指数是基于特征尺度(如平均值和标准差)的, 而很多社会经济现象(如人类收入分布和城市规模分布)没有特征尺度, 所以平均值无效, 协方差也不可靠, 导致集中化指数的计算结果显著偏离Gini系数的本真值。在这种情况下, 借助标度分布思想, 寻找无尺度(scale-free)现象的Gini系数估计方法就成为必要。一种典型而普遍的无尺度分布现象就是Pareto分布, 该分布对应于位序–规模分布的Zipf 定
[7]律。本文基于 Zipf 定律的标准模式, 借助 Euler调和数列和公式, 推导出一个无尺度累积分布的Lorenz曲线的对数函数。利用这个函数的参数, 可以构建 Gini系数的快速估计公式。最后将理论推导结果应用于京津冀城市夜晚灯光面积规模分布分析。
1 理论基础1.1 理论依据——标度现象
无论自然界还是人类社会, 各种现象大致可以分为有尺度现象和无尺度现象[8]两类。对于具有自组织性质的人类社会, 无尺度现象更普遍[9]。有尺度现象指事物的分布具有一个特征长度或典型尺度。例如, 人类的身高是具有典型尺度的: 对于成人而言, 特别高的巨人和特别矮的侏儒非常罕见,绝大多数在某个种族的平均身高附近变动。有尺度现象的概率密度一般用Gaussian分布或者poisson分布描述。此类现象可以根据平均值和标准差进行预测, 例如在见到一个人之前, 可以估计他的身高范围。无尺度现象是没有典型尺度或特征长度的事物, 例如人类社会的收入、城市规模分布和单词使
[10–11]用频率等 。由于无法根据平均值和标准差预测无尺度现象, 故了解一个人之前, 无法判断他的收入有多高。以城市规模分布为例, 在任何一个国家或地区, 越大的城市越少, 越小的城镇越多, 平均值随样本规模的不同而改变。总之, 有尺度现象是中间特多, 两端极少, 有稳定的平均值; 无尺度现象则是一端特少, 另一端特多, 没有可靠的平均值[9,12–13]。无尺度现象的频率一般服从Pareto分布,而 Pareto分布在理论上等价于 Zipf 定律[14–15]。
无论是否存在特征尺度, 都涉及差异性特征的描述。累积频率曲线和分布差异测度都可以度量收入、财富以及城市规模之类的无尺度现象的统计特
[4]征 。可以用平均值刻画有尺度现象的总体特征,并且其差异不会引人注目, 例如人们绝不会担心人类的身高出现两极分化。无尺度现象的平均值则没有意义, 这类现象的过度均衡或者差距过大都会引发种种问题, 例如社会经济学家会为社会收入的过度平均或者太过不均而感到不安。分布可视为分配的结果, 衡量分配公平与否的简单常用的测度是基于Lorenz曲线的Gini系数。但Lorenz曲线没有统一的数学表达, 无法给出简洁的计算公式, 于是人们采用集中化指数代替Gini系数。然而, 集中化指数并不等价于Gini系数。其一, Gini系数理论上是基于连续分布的Lorenz曲线的, 而集中化指数则是针对离散数据构建的测度方法。其二, 集中化指数本质上是实际分布与均匀累积分布的协方差除以实际分布的平均值, 然后利用自由度校正后的结果。具体来说, 假定样本规模为N, 集中化指数本质上是自下而上的样本点数据序列与相应的位序序列的协方差除以平均值, 然后乘以2/(N–1)。该测度具有有效性的前提是实际分布具有特征尺度, 可以计算出确定的平均值。如果研究对象服从Pareto分布或者Zipf 定律, 则平均值和协方差无效[13,16]。可见, 集中化指数仅仅适用于有尺度分布。但是, 无尺度现象非常普遍, 集中化指数不能代替这类现象的Gini系数。
1.2 基于Euler公式的lorenz函数
基于常见的无尺度分布——位序–规模分布,可以导出一个Gini系数的快速估计公式。假定研究对象(如城市的规模)分布服从Zipf 定律[7]:
q P ( r ) Pr , (1)
1式中, r 表示位序, P1表示研究对象中最大要素的规模, q 为 Zipf 指数。在理想的情况下, q=1, 这种分布就是通常所谓的位序–规模法则, 它代表Zipf定律的纯粹模式, 本质上等价于二倍数法则[17]。在满足标准 Zipf 定律条件下, 将规模从大到小累积,可以得到
x x 1
P ( r ) P。 (2) 1 r r 1 r 1理论上, 可以假定研究对象的样品数目为无穷多
个。根据 Euler 调和数列公式, 可得1 r x lim ln x u , (3) x r 1式中, u=0.577216, 为Euler常数。根据标准 Zipf 分布, 取q=1, 将式(1)代入式(3), 得到x P ( r ) P ( u ln x)。 (4) 1 r 1设研究对象的总数为N, 则有N P ( r ) P ( u ln N)。 (5) 1 r 1如果将变量归一化之后再累加, 则 N=1, 从而x N u 1 P ( r) P ( r ) ln x u lnn u ln N
r 1 r 1
1 1 ln x。 (6) u不过, 由于现实中的样品数目N为有限, 在实际应用中, 参数u不再等于Euler常数, 故需要借助最小二乘法之类的算法重新估计模型参数。
2 模型和应用2.1 Gini 系数计算公式的导出
Lorenz曲线是基于某种频率或百分比的累积曲线。该曲线有两种表示方法: 一是凸形表示, 即频率或者百分比分布从大到小排列的累积曲线; 二是凹形表示, 即频率或者百分比分布从小到大排列的
累积曲线。两种表示方法在形式上是对偶的, 在计算结果上是等价的, 见图1。
推导Gini系数的某种表达, 可以采用凸形曲线;将集中化指数表示为标准差与平均值之比的形式,则可以基于凹形曲线。对于某种频率或百分比分布, 如果是绝对均匀的, 则累积曲线是一条直线,在Lorenz坐标图中形成对角线, 可以表示为
J ( x ) Cx , (7)式中, x为位序(可以归一化), J(x)为均匀分布函数。如果累积数以百分比的形式给出, 则对于N个样品,斜率C=100/N; 对于归一化变量, 则对角线的斜率C=1。如果分布是绝对集中的, 则累积频率或百分比曲线可以覆盖Lorenz坐标图的半个三角形。现实中的 Lorenz 曲线位于上述两种极端情况之间。Lorenz曲线l(x)与均匀分布曲线(即对角线j(x))包围的面积越大, 则分布越集中, 反之越均匀。根据分布的几何特征, 可以基于凸形Lorenz曲线和累积百分比定义一个Gini系数如下:
1 G 0N [ L ( x ) J ( x )]dx。 (8)
100 N 2如果变量归一化, 则N=1, 式中100被1替代, 三角形的面积为1/2, 从而得到基于累积频率的Gini系数的定义:
G 2 0 1[ L ( x ) J ( x )]dx。 (9)式(9)的几何意义是Lorenz曲线l(x)同对角线j(x)围成
的面积与对角线以上三角形面积的比率。当G=0时, Lorenz曲线与两个直角边重合, 此时为绝对均匀分布; 当G=1时, Lorenz曲线覆盖整个三角形, 此时为绝对集中分布。实际的G值介于0~1之间。
基于凸形Lorenz曲线可以导出gini系数的近似估计公式。假定累积分布以百分比形式给出, 在式(4)中, 令L(x)=∑p(r), a=up1, b=p1。得到累积分布的对数曲线:
L ( x ) x P ( r ) a b ln x。 (10) r 1如果Lorenz曲线能够用此函数近似拟合, 则根据定积分的求面积公式, Gini系数可写为 1
G 0 N L ( x ) J ( x) dx 100 N 2
1 N 0 ( a b ln x Cx )dx。 (11)
50N利用分部积分法, 并考虑到L’hospital法则, 可得1 50 N G ax b ( x ln x x ) x 2 50 N N 0 1 50( (12) a b b ln N 50)。当累积变量归一化以后, C=1, N=1, 50被1/2代替, 则 式(12)可以化为
G 2( ln N 1/ 2) 2( ) 1, (13)式中, α和β为归一化之后的回归系数。变量归一化前后量纲不同。因此, 如果数据保留的小数位较多,则式(12)和(13)将会给出完全相同的数值; 否则, 式(13)的结果更为精确。这意味着, 实际操作中最好采用归一化的变量估计Gini系数。
2.2 京津冀城镇体系的Gini系数估计
本文以京津冀地区(即北京、天津和河北部分地区)的城市规模分布为例, 说明上述模型和公式的应用方法和效果。城市规模分布与收入、财富的分配一样, 属于无尺度现象, 故应借助上述模型,基于Lorenz曲线估计Gini系数, 刻画其分布频率和集中性程度。本文采用夜晚灯光数据作为规模测度, 通过计算获得Gini系数的时间序列。灯光数据包括灯光面积和灯光总数。两种测度给出的结果相差不明显。以2013年的灯光面积为例, 说明计算步骤。为简明起见, 仅考虑京津冀13个地级市(N=13),结果见表1。
第一步, 数据排序。将数据从大到小有序排列, 考察城市规模分布是否近似满足标准 Zipf 定律。Zipf模型拟合结果为
P ( r ) 4343.4513r 1.1310 , (14)
拟合优度R2=0.9508。可见, 2013年京津冀城市规模分布近似满足 Zipf 定律, 且 q=1.131≈1, 可以借助本文的方法估计Gini系数。
第二步, 数值累加。将上述有序排列的数据逐步累积加和, 最后的累积值是全部灯光面积的总和(12205.5555)。
第三步, 计算累积百分比。用累积数分别除以全部灯光面积的总和12205.5555, 再乘以100即可。然后, 将变量归一化(这一步非必须)。位序归一化:用位序值分别除以城市总数(N=13); 灯光面积累积数归一化: 用灯光面积累积值百分比除以100。
第四步, 参数估计。拟合对数模型, 并进行统计检验。采用累积百分比数据拟合式, 得到对数线性回归模型: L ( x ) P ( x ) 32.5816 26.5570 ln(x), (15)
x借助归一化的变量拟合的模型为
L ( x ) P ( x ) 1.0070 0.2656 ln(x)。 (16) x图 2 显示, 拟合效果良好, 拟合优度R2=0.9955。第五步, 计算Gini系数。基于百分比数据的估计结果为1 G (32.5816 26.5570 26.5570 ln(13) 50) 50 0.4828 , (17)借助归一化的数据估计结果为G 2(1.0070 0.2656) 1 0.4828 。 (18)
可见, 两种模型给出的结果完全相同。
采用类似的方法, 可以估计多个年份的Gini系数。根据Gini系数的年际变化, 可以探讨京津冀城镇规模分布的变化特征和趋势: 城市规模分布趋于均衡, 城镇体系的空间异质性减小(表2)。这意味着, 大城市的相对增长速度下降, 而小城市增长更为迅速。京津冀地区城镇发展的活力在于边缘地带, 即不同城市的交接区域。如果采用夜晚灯光总数代替灯光面积, 计算结果大同小异, 数值分布趋势高度一致, 分析结论完全相同。
3 讨论和结论
可以看出, 借助Euler公式和 Zipf 定律, 可以导出无尺度分布的Lorenz曲线, 而基于该曲线的函数可以导出无尺度分布现象的Gini系数估计公式。将该公式应用于京津冀城镇体系分布, 计算过程简单,分析结论明确, 效果令人满意。为了说明该公式的优点和适用范围, 不妨对Gini系数常规替代品——集中化指数进行讨论。基于凸形Lorenz曲线, 即从大到小的排列顺序, 集中化指数可以表示为I=(A – J)/(Z – J), 式中J为绝对均匀分布的百分比累计之和, Z为绝对集中分布的百分比累计之和, A为现实
[6]分布的百分比累计之和 。基于凹形Lorenz曲线,即从小到大的排列顺序, 集中化指数可以等价为J A cov( xr , r) I , (19) Z J x ( r 1)式中, cov表示协方差, xr为要素分布变量(从小到大排序), r =1, 2, 3, …, N 为从小到大的位序, x和 r 表示观测值和位序的平均值。利用式(19), 可以得到
京津冀城镇体系的集中化指数I。结果表明, I 与G 有显著差距。以灯光面积为例, 1992年的I= 0.7467, 相应的 G=0.7038; 2013 年的 I=0.5535, 相应的G=0.5012。二者之间满足一种幂律关系: I= 1.0017G0.868, 拟合优度R2=0.9996。这表明集中化指数与Gini系数在趋势上高度对应, 但并非线性关系: G 值越小, I值与其偏差越远(表 2)。偏差的原因在于, 对于无尺度分布, 平均值的有效性不够。
本研究的创新点在于以下方面: 1) 明确了集中化指数代替Gini系数的前提条件为有尺度分布; 2)借助Euler公式揭示了lorenz对数曲线的数理基础和适用范围; 3) 基于京津冀城镇体系, 提供了一个简单但系统的研究案例, 该案例对人们认识京津冀城镇体系的发展或许有启示。该方法的不足之处在于
1288 以下方面。1)应用效果。如果 Zipf 指数q显著偏离1, 则对数Lorenz曲线拟合效果不佳。不过, 正负误差彼此抵消, 实际计算结果大体上符合实际。2)适用范围。对于有特征尺度的分布, 本文给出的模型和公式不再有效。如果城市规模表现为首位(primate)型分布的情况, 上述方法也会受到局限。
综上所述, 可以得出以下主要结论。1)集中化指数适用于有尺度分布, 而本文的方法则适用于无尺度分布。只有当研究对象具有特征尺度的时候,才可采用集中化指数代替Gini系数, 否则可能导致有偏差的计算结果和分析结论。2) 在有限条件下,集中化指数可以代替Gini系数来描述无尺度分布特征。采用集中化指数代替Gini系数描述无尺度分布,只能开展纵向比较分析, 不宜进行横向比较, 更不