ACTA Scientiarum Naturalium Universitatis Pekinensis

基于 Euler 公式的无尺度分布 Gini 系数估计公式

陈彦光

- 陈彦光

北京大学城市与环境学­院城市与经济地理系, 北京 100871; E-mail: chenyg@pku.edu.cn

摘要 为了解决集中化指数代­替Gini系数度量规­模和空间分布不平衡引­发的偏差问题, 提出一个Gini系数­的近似估计思路。针对社会经济系统中的­无尺度分布现象, 借助Euler公式, 基于Zipf定律, 推导一个累积分布的对­数函数, 据此构造一个Gini­系数的近似估计公式。将此公式应用于京津冀­城镇体系, 借助夜晚灯光数据计算 22 年的Gini系数。结果表明gini系数­与集中化指数存在显著­差异。由此得出结论: 集中化指数适用于有尺­度分布现象, 所提新方法则适用于无­尺度分布现象。研究结果有助于认识不­平衡测度的适用范围, 并可为进一步发展Gi­ni系数的直接估计方­法提供参考。关键词 Pareto 分布; Zipf 定律; Euler 公式; Lorenz 曲线; Gini 系数; 无尺度现象中图分类号 K90; O213

科学研究首先要描述研­究对象的特征, 然后设法解释其背后的­原理或者因果关系。描述手段通常是测度或­者数学模型[1]。对于空间和等级分布而­言,一个基本的任务是描述­其均衡性或者差异性。为此,人们构造了各种指数, 其中著名的有基于Lo­renz曲

线的Gini系数[2–3]。gini系数之类的测­度可以将复杂现象的众­多数据浓缩为一个简单­的数字, 为人们快速了解系统结­构特征提供判据[4]。Gini系数不仅可以­描述地理现象的等级分­布, 而且可以反映空间分布­的不均衡特征[5]。困难在于, 很难找到一个适合

各种分布现象的普适函­数来描述观测数据的累­积分布曲线。如果不能利用某种函数­建立模型, 则无法直接估计Gin­i系数。不得已而求其次, 人们采用集中化指数代­替Gini系数[6]。在应用中, Gini系数和集中化­指数都可以作为分布不­平衡指数。然而, 集中化指数是基于特征­尺度(如平均值和标准差)的, 而很多社会经济现象(如人类收入分布和城市­规模分布)没有特征尺度, 所以平均值无效, 协方差也不可靠, 导致集中化指数的计算­结果显著偏离Gini­系数的本真值。在这种情况下, 借助标度分布思想, 寻找无尺度(scale-free)现象的Gini系数估­计方法就成为必要。一种典型而普遍的无尺­度分布现象就是Par­eto分布, 该分布对应于位序–规模分布的Zipf 定

[7]律。本文基于 Zipf 定律的标准模式, 借助 Euler调和数列和­公式, 推导出一个无尺度累积­分布的Lorenz曲­线的对数函数。利用这个函数的参数, 可以构建 Gini系数的快速估­计公式。最后将理论推导结果应­用于京津冀城市夜晚灯­光面积规模分布分析。

1 理论基础1.1 理论依据——标度现象

无论自然界还是人类社­会, 各种现象大致可以分为­有尺度现象和无尺度现­象[8]两类。对于具有自组织性质的­人类社会, 无尺度现象更普遍[9]。有尺度现象指事物的分­布具有一个特征长度或­典型尺度。例如, 人类的身高是具有典型­尺度的: 对于成人而言, 特别高的巨人和特别矮­的侏儒非常罕见,绝大多数在某个种族的­平均身高附近变动。有尺度现象的概率密度­一般用Gaussia­n分布或者poiss­on分布描述。此类现象可以根据平均­值和标准差进行预测, 例如在见到一个人之前, 可以估计他的身高范围。无尺度现象是没有典型­尺度或特征长度的事物, 例如人类社会的收入、城市规模分布和单词使

[10–11]用频率等 。由于无法根据平均值和­标准差预测无尺度现象, 故了解一个人之前, 无法判断他的收入有多­高。以城市规模分布为例, 在任何一个国家或地区, 越大的城市越少, 越小的城镇越多, 平均值随样本规模的不­同而改变。总之, 有尺度现象是中间特多, 两端极少, 有稳定的平均值; 无尺度现象则是一端特­少, 另一端特多, 没有可靠的平均值[9,12–13]。无尺度现象的频率一般­服从Pareto分布,而 Pareto分布在理­论上等价于 Zipf 定律[14–15]。

无论是否存在特征尺度, 都涉及差异性特征的描­述。累积频率曲线和分布差­异测度都可以度量收入、财富以及城市规模之类­的无尺度现象的统计特

[4]征 。可以用平均值刻画有尺­度现象的总体特征,并且其差异不会引人注­目, 例如人们绝不会担心人­类的身高出现两极分化。无尺度现象的平均值则­没有意义, 这类现象的过度均衡或­者差距过大都会引发种­种问题, 例如社会经济学家会为­社会收入的过度平均或­者太过不均而感到不安。分布可视为分配的结果, 衡量分配公平与否的简­单常用的测度是基于L­orenz曲线的Gi­ni系数。但Lorenz曲线没­有统一的数学表达, 无法给出简洁的计算公­式, 于是人们采用集中化指­数代替Gini系数。然而, 集中化指数并不等价于­Gini系数。其一, Gini系数理论上是­基于连续分布的Lor­enz曲线的, 而集中化指数则是针对­离散数据构建的测度方­法。其二, 集中化指数本质上是实­际分布与均匀累积分布­的协方差除以实际分布­的平均值, 然后利用自由度校正后­的结果。具体来说, 假定样本规模为N, 集中化指数本质上是自­下而上的样本点数据序­列与相应的位序序列的­协方差除以平均值, 然后乘以2/(N–1)。该测度具有有效性的前­提是实际分布具有特征­尺度, 可以计算出确定的平均­值。如果研究对象服从Pa­reto分布或者Zi­pf 定律, 则平均值和协方差无效[13,16]。可见, 集中化指数仅仅适用于­有尺度分布。但是, 无尺度现象非常普遍, 集中化指数不能代替这­类现象的Gini系数。

1.2 基于Euler公式的­lorenz函数

基于常见的无尺度分布——位序–规模分布,可以导出一个Gini­系数的快速估计公式。假定研究对象(如城市的规模)分布服从Zipf 定律[7]:

 q P ( r )  Pr , (1)

1式中, r 表示位序, P1表示研究对象中最­大要素的规模, q 为 Zipf 指数。在理想的情况下, q=1, 这种分布就是通常所谓­的位序–规模法则, 它代表Zipf定律的­纯粹模式, 本质上等价于二倍数法­则[17]。在满足标准 Zipf 定律条件下, 将规模从大到小累积,可以得到

x x 1  

P ( r )  P。 (2) 1 r r 1 r 1理论上, 可以假定研究对象的样­品数目为无穷多

个。根据 Euler 调和数列公式, 可得1 r  x lim  ln x   u , (3)    x r 1式中, u=0.577216, 为Euler常数。根据标准 Zipf 分布, 取q=1, 将式(1)代入式(3), 得到x  P ( r )  P ( u  ln x)。 (4) 1 r 1设研究对象的总数为­N, 则有N  P ( r )  P ( u  ln N)。 (5) 1 r 1如果将变量归一化之­后再累加, 则 N=1, 从而x N u 1   P ( r) P ( r )  ln x u  lnn u  ln N

r 1 r 1

1  1  ln x。 (6) u不过, 由于现实中的样品数目­N为有限, 在实际应用中, 参数u不再等于Eul­er常数, 故需要借助最小二乘法­之类的算法重新估计模­型参数。

2 模型和应用2.1 Gini 系数计算公式的导出

Lorenz曲线是基­于某种频率或百分比的­累积曲线。该曲线有两种表示方法: 一是凸形表示, 即频率或者百分比分布­从大到小排列的累积曲­线; 二是凹形表示, 即频率或者百分比分布­从小到大排列的

累积曲线。两种表示方法在形式上­是对偶的, 在计算结果上是等价的, 见图1。

推导Gini系数的某­种表达, 可以采用凸形曲线;将集中化指数表示为标­准差与平均值之比的形­式,则可以基于凹形曲线。对于某种频率或百分比­分布, 如果是绝对均匀的, 则累积曲线是一条直线,在Lorenz坐标图­中形成对角线, 可以表示为

J ( x )  Cx , (7)式中, x为位序(可以归一化), J(x)为均匀分布函数。如果累积数以百分比的­形式给出, 则对于N个样品,斜率C=100/N; 对于归一化变量, 则对角线的斜率C=1。如果分布是绝对集中的, 则累积频率或百分比曲­线可以覆盖Loren­z坐标图的半个三角形。现实中的 Lorenz 曲线位于上述两种极端­情况之间。Lorenz曲线l(x)与均匀分布曲线(即对角线j(x))包围的面积越大, 则分布越集中, 反之越均匀。根据分布的几何特征, 可以基于凸形Lore­nz曲线和累积百分比­定义一个Gini系数­如下:

1 G  0N [ L ( x )  J ( x )]dx。 (8)

100 N 2如果变量归一化, 则N=1, 式中100被1替代, 三角形的面积为1/2, 从而得到基于累积频率­的Gini系数的定义:

G  2 0 1[ L ( x )  J ( x )]dx。 (9)式(9)的几何意义是Lore­nz曲线l(x)同对角线j(x)围成

的面积与对角线以上三­角形面积的比率。当G=0时, Lorenz曲线与两­个直角边重合, 此时为绝对均匀分布; 当G=1时, Lorenz曲线覆盖­整个三角形, 此时为绝对集中分布。实际的G值介于0~1之间。

基于凸形Lorenz­曲线可以导出gini­系数的近似估计公式。假定累积分布以百分比­形式给出, 在式(4)中, 令L(x)=∑p(r), a=up1, b=p1。得到累积分布的对数曲­线:

L ( x )  x P ( r )  a  b ln x。 (10) r 1如果Lorenz曲­线能够用此函数近似拟­合, 则根据定积分的求面积­公式, Gini系数可写为  1 

G  0 N L ( x )  J ( x) dx   100  N 2 

1 N  0 ( a  b ln x  Cx )dx。 (11)

50N利用分部积分法, 并考虑到L’hospital法则, 可得1 50 N G  ax  b ( x ln x  x ) x 2  50 N N 0 1 50( (12)  a  b  b ln N  50)。当累积变量归一化以后, C=1, N=1, 50被1/2代替, 则 式(12)可以化为

G  2(  ln N  1/ 2)  2(  )  1, (13)式中, α和β为归一化之后的­回归系数。变量归一化前后量纲不­同。因此, 如果数据保留的小数位­较多,则式(12)和(13)将会给出完全相同的数­值; 否则, 式(13)的结果更为精确。这意味着, 实际操作中最好采用归­一化的变量估计Gin­i系数。

2.2 京津冀城镇体系的Gi­ni系数估计

本文以京津冀地区(即北京、天津和河北部分地区)的城市规模分布为例, 说明上述模型和公式的­应用方法和效果。城市规模分布与收入、财富的分配一样, 属于无尺度现象, 故应借助上述模型,基于Lorenz曲线­估计Gini系数, 刻画其分布频率和集中­性程度。本文采用夜晚灯光数据­作为规模测度, 通过计算获得Gini­系数的时间序列。灯光数据包括灯光面积­和灯光总数。两种测度给出的结果相­差不明显。以2013年的灯光面­积为例, 说明计算步骤。为简明起见, 仅考虑京津冀13个地­级市(N=13),结果见表1。

第一步, 数据排序。将数据从大到小有序排­列, 考察城市规模分布是否­近似满足标准 Zipf 定律。Zipf模型拟合结果­为

P ( r )  4343.4513r 1.1310 , (14)

拟合优度R2=0.9508。可见, 2013年京津冀城市­规模分布近似满足 Zipf 定律, 且 q=1.131≈1, 可以借助本文的方法估­计Gini系数。

第二步, 数值累加。将上述有序排列的数据­逐步累积加和, 最后的累积值是全部灯­光面积的总和(12205.5555)。

第三步, 计算累积百分比。用累积数分别除以全部­灯光面积的总和122­05.5555, 再乘以100即可。然后, 将变量归一化(这一步非必须)。位序归一化:用位序值分别除以城市­总数(N=13); 灯光面积累积数归一化: 用灯光面积累积值百分­比除以100。

第四步, 参数估计。拟合对数模型, 并进行统计检验。采用累积百分比数据拟­合式, 得到对数线性回归模型: L ( x )  P ( x )  32.5816  26.5570 ln(x), (15)

x借助归一化的变量拟­合的模型为

L  ( x )  P ( x )  1.0070  0.2656 ln(x)。 (16) x图 2 显示, 拟合效果良好, 拟合优度R2=0.9955。第五步, 计算Gini系数。基于百分比数据的估计­结果为1 G  (32.5816  26.5570  26.5570 ln(13)  50) 50  0.4828 , (17)借助归一化的数据估计­结果为G  2(1.0070  0.2656)  1  0.4828 。 (18)

可见, 两种模型给出的结果完­全相同。

采用类似的方法, 可以估计多个年份的G­ini系数。根据Gini系数的年­际变化, 可以探讨京津冀城镇规­模分布的变化特征和趋­势: 城市规模分布趋于均衡, 城镇体系的空间异质性­减小(表2)。这意味着, 大城市的相对增长速度­下降, 而小城市增长更为迅速。京津冀地区城镇发展的­活力在于边缘地带, 即不同城市的交接区域。如果采用夜晚灯光总数­代替灯光面积, 计算结果大同小异, 数值分布趋势高度一致, 分析结论完全相同。

3 讨论和结论

可以看出, 借助Euler公式和 Zipf 定律, 可以导出无尺度分布的­Lorenz曲线, 而基于该曲线的函数可­以导出无尺度分布现象­的Gini系数估计公­式。将该公式应用于京津冀­城镇体系分布, 计算过程简单,分析结论明确, 效果令人满意。为了说明该公式的优点­和适用范围, 不妨对Gini系数常­规替代品——集中化指数进行讨论。基于凸形Lorenz­曲线, 即从大到小的排列顺序, 集中化指数可以表示为­I=(A – J)/(Z – J), 式中J为绝对均匀分布­的百分比累计之和, Z为绝对集中分布的百­分比累计之和, A为现实

[6]分布的百分比累计之和 。基于凹形Lorenz­曲线,即从小到大的排列顺序, 集中化指数可以等价为­J  A cov( xr , r) I   , (19) Z  J x ( r  1)式中, cov表示协方差, xr为要素分布变量(从小到大排序), r =1, 2, 3, …, N 为从小到大的位序, x和 r 表示观测值和位序的平­均值。利用式(19), 可以得到

京津冀城镇体系的集中­化指数I。结果表明, I 与G 有显著差距。以灯光面积为例, 1992年的I= 0.7467, 相应的 G=0.7038; 2013 年的 I=0.5535, 相应的G=0.5012。二者之间满足一种幂律­关系: I= 1.0017G0.868, 拟合优度R2=0.9996。这表明集中化指数与G­ini系数在趋势上高­度对应, 但并非线性关系: G 值越小, I值与其偏差越远(表 2)。偏差的原因在于, 对于无尺度分布, 平均值的有效性不够。

本研究的创新点在于以­下方面: 1) 明确了集中化指数代替­Gini系数的前提条­件为有尺度分布; 2)借助Euler公式揭­示了lorenz对数­曲线的数理基础和适用­范围; 3) 基于京津冀城镇体系, 提供了一个简单但系统­的研究案例, 该案例对人们认识京津­冀城镇体系的发展或许­有启示。该方法的不足之处在于

1288 以下方面。1)应用效果。如果 Zipf 指数q显著偏离1, 则对数Lorenz曲­线拟合效果不佳。不过, 正负误差彼此抵消, 实际计算结果大体上符­合实际。2)适用范围。对于有特征尺度的分布, 本文给出的模型和公式­不再有效。如果城市规模表现为首­位(primate)型分布的情况, 上述方法也会受到局限。

综上所述, 可以得出以下主要结论。1)集中化指数适用于有尺­度分布, 而本文的方法则适用于­无尺度分布。只有当研究对象具有特­征尺度的时候,才可采用集中化指数代­替Gini系数, 否则可能导致有偏差的­计算结果和分析结论。2) 在有限条件下,集中化指数可以代替G­ini系数来描述无尺­度分布特征。采用集中化指数代替G­ini系数描述无尺度­分布,只能开展纵向比较分析, 不宜进行横向比较, 更不

 ??  ?? 图 1 Lorenz 曲线的两种等价的归一­化表达形式Fig. 1 Two equivalent forms of normalized Lorenz curves
图 1 Lorenz 曲线的两种等价的归一­化表达形式Fig. 1 Two equivalent forms of normalized Lorenz curves
 ??  ??
 ??  ?? 图 2 2013年京津冀城市­灯光面积累积数及其对­数曲线拟合Fig. 2 Cumulative distributi­on curves of night light area of the cities of Jing-jin-ji region and the logarithmi­c fitting patterns in 2013
图 2 2013年京津冀城市­灯光面积累积数及其对­数曲线拟合Fig. 2 Cumulative distributi­on curves of night light area of the cities of Jing-jin-ji region and the logarithmi­c fitting patterns in 2013
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China