中国跨区域人口迁移流空间结构研究——描述、模型表达与预测

时间：2023-09-18 08:40:15 来源：网友投稿

曾永明

(江西财经大学经济学院，江西南昌 330013)

2020年中国流动人口达到3.76亿，比2010年增长69.3%(1)数据来源：国务院第七次人口普查领导小组办公室.2020年第七次全国人口普查主要数据[M].北京：中国统计出版社，2021：80-81。，引起广泛关注。国家统计局局长宁吉喆在第七次全国人口普查发布会上表示，我国经济社会持续发展，为人口的迁移流动创造了条件，人口流动趋势更加明显，流动人口规模进一步扩大。人口迁移作为人口学过程之一和人口转变的重要部分[1-2]，因其特殊的空间属性，显著区别于生育、死亡过程。不过，年龄结构可以是人口学的中心概念(central concept)，但空间结构(比如人口迁移流)并不是[3]。事实上，人口迁移流动是规范人口学(formal demography)研究的基本组成部分，然而在中国生育制度的政策影响、人口老龄化及健康中国建设背景下，对于生育、死亡(健康)的研究比人口迁移的影响要更深远。不同于生育、死亡过程一般仅影响独立的某区域，人口迁移流发生在一个多区域系统内：每个区域迁出人口均迁往多个其他区域，形成一个交互的空间“流结构”和系统[1]，因此对于人口迁移流空间结构的概念定义和测量依然比较模糊，模型化表达更是不足[3]，对人口迁移流空间结构的深化研究也从未停止。

虽然莱文斯坦(Ravenstien)、刘易斯(Lewis)等大批学者研究了人口迁移的基本规律、生成动因等[4-5]，为人口迁移理论研究作出巨大贡献，但从量化的人口统计学角度来描述或测量、模型化表达和预测人口迁移流空间结构的历史并不长。事实上，对人口迁移流空间结构研究的历史梳理后发现，对人口迁移流的描述、模型化表达和预测是人口迁移研究的三个阶段，也是不应该分割的三个系统过程或基本程式。“描述”应该是最为基础的阶段，它是对人口迁移流空间结构和迁移流的认识过程。人口迁移流不同于人口规模、人口年龄等向量形式，其表现出矩阵形式和交互结构，对其描述过程也就变得复杂，统计学意义上的平均值、中位数、标准差等不再适用，这也限制了早期关于人口迁移流的深化认识和研究，更阻碍了现实问题的发现与应用。早期由于跨区域人口迁移流量数据统计的不完整，导致数据缺失问题，描述都难以实现，也影响后续模型化和预测过程[6]。因此，早期关于人口迁移流空间结构的研究主要是集中在如何定义、测量和补数据上[7]。夏洛克(Shryock)在描述人口迁移流空间结构研究上做了早期的努力，定义和设置了移民区域偏好指数[8]。克莱顿(Clayton)比较早地定义了人口迁移流空间结构，认为移民在来源地和目的地之间的交互流动产生的联系即为迁移流空间结构，并将该定义应用在美国跨州移民的识别研究中[9]。多位学者将移民效应(migration efficiency)的概念广泛应用到人口迁移结构描述中[10-11]。最近拉莫(Raymer)等在整合前人研究基础上，采用乘法分量模型(Multiplicative Components Model)作为描述人口迁移结构的一般分析框架[12-14]，该模型简单并易于理解，已用于多个地区或国家的研究，在描述人口迁移流空间结构研究领域产生了较大影响。

在人口迁移流空间结构的描述性研究中，移民数据不同于存量数据，它以矩阵或对偶形式出现，数据要求更高，以致数据通常缺失而不完整，即便是在当前时代，国际移民矩阵数据也不完善，也就是说，对国际间移民的数据都未能精准掌握，而且估计出完整可行的移民矩阵并不容易。阿贝尔和山德尔(Abel &Sander)提出了一种在保持已知的净移民规模基础上从移民存量数据着手的估计方式，估算了全球196个国家间1990—2010的移民流数据，成果发表于Science杂志[15]，可见补数据对于人口迁移研究的重要性。拉莫也对北欧国家之间的移民缺失数据进行了弥补[6]。相比于国际移民数据，国家内部人口迁移流矩阵因人口普查或抽样调查得到相对完整的数据，因此对于国内人口迁移流空间结构的研究更多的是放在后两个阶段上：模型化表达和预测。

一个人口学概念如果能够通过简化通用的理论模型表达出来，对其接受认可和实际应用均是有益的。比如人们熟知的人口平衡方程、生命表或预期寿命、总和生育率测算等。人口迁移流空间结构并没有一个广泛接受的数学表达形式或模型，不过其特殊性在于，人口迁移链接了迁出地和迁入地多个区域，因此空间交互模型被认为是表达人口迁移流空间结构的最理想方式[3]。但具体到实证分析中，重心模型、熵最大化模型或信息最小化模型、对数线性模型也是常见的，不过其实这三者本质结构是一致的。当前多数学者采用对数线性模型来分析和解释人口迁移流空间结构，因为人口迁移流量表可以看作一个迁出地—迁入地双向列联表，表中的每个单元格就是人口迁移量，而对数线性模型有一个良好的统计理论和方法论机制将列联表分析和离散多变量分析框架完美地对接起来[16]，而且对数线性模型可以纳入广义线性模型中，其相对机动的变量分布设置形式使其能更好匹配人口迁移流量数据特征，比如泊松分布、二项分布等[17-18]。基于对数线性模型或重心模型等对中国跨区域人口迁移流空间结构的研究并不少[2，19]，但相对于国外类似研究有两点密切关联的差异，一是对人口迁移流数据内生规律和衍生形式利用和分析不足，即从人口统计学视角切入的基础性研究不多，主要是对内生数据之外的经济社会因素讨论较多；
二是局限于以迁入地、迁出地的区域效应和物理距离为主，对区域交互效应、年龄结构效应、性别效应及区域—年龄等交互效应拓展不足。

关于人口议题相关的预测大多是围绕总量或趋势视角，比如人口总量、城镇化和老龄化等，也有个别特殊的视角，比如人口分布预测[20-21]，但是关于人口迁移流的预测则不常见，因为它是“一张网”而不是“一个点”的预测，难度大幅提升。既有关于“流”的预测研究中，基于双边比例调整(bi-proportionally adjustment)方法的人口迁移流预测在国外有多位人口学者做了成功的尝试[3，16，22]。双边比例调整方法的基本原理是寻找一个合适的矩阵使其满足边际约束条件并与基期矩阵的分布函数保持一致。双边比例调整方法在国际贸易方面的研究文献较多，涉及基于区域间贸易流或投入产出表进行替代效应和制造效应的调整[23-24]。根据国际贸易相关理论，徐国祥和陈海龙首次对我国省区间人口投入产出表做了编制[25]，其中也应用到双边比例调整方法，但仅是作为估计值的调整方法，未应用到预测。汪子龙等基于多源数据并采用带有时间序列的线性拟合模型对人口迁移流进行了预测[26]，但实证对象并非国内而是欧盟国家之间的人口迁移流。可以说，国内关于人口迁移预测实属鲜见，虽然对于拥有庞大流动人口的中国进行人口迁移流预测非常有必要。

梳理国外研究发现，关于人口迁移流空间结构的描述、模型表达与预测三个阶段或三个系统过程的研究虽然比较零散，但基本形成了一般化的研究框架，在长期的探索过程中对各个子议题的研究有了比较有效的解决方式甚至是“标准程式”。遗憾的是国内对于这一框架的梳理还不足，理论研究较为稀缺，实证也较为罕见，尤其是对人口迁移流空间结构本身运行过程的分析还不足。显然，从人口统计学的角度来研究人口迁移流动的内生规律并基于人口迁移流矩阵自我数据生成过程的研究有很大价值。鉴于此，本文目的就在于将人口迁移流空间结构的描述、模型化表达和预测整合到一起，并作为一个标准程式，基于人口迁移流矩阵自我数据生成过程来研究我国跨区域人口迁移，期望形成关于中国人口迁移流空间结构研究的一个“基本程式”，也期待未来更多学者尤其国内学者对中国人口迁移问题进行研究，特别是从“流”数据内生过程出发，在“基本程式”上进行发展创新，推进国内空间人口学、人口统计学等研究，拓展人口迁移流的应用并对现实问题作出应有响应。本文具体研究内容包括：基于2011—2017年中国流动人口动态监测调查数据(China Migrants Dynamic Survey，CMDS)和最近三次的人口普查和抽样调查数据，并以长江经济带11省份和中国东部、中部、西部和东北四大区域之间人口迁移流为例，采用乘法分量模型来描述国内人口迁移流空间结构特征，通过对数线性模型来表达国内人口迁移流空间结构特征，应用双边比例调整法来预测国内人口迁移流空间结构特征，尝试通过描述、模型化表达和预测来建立一个国内人口迁移流空间结构的研究程式。

中国流动人口动态监测调查(CMDS)是由国家卫生健康委员会(原国家卫生和计划生育委员会)组织的在流入地对流动人口进行的连续断面调查，自2009年起每年进行监测调查。该调查以在流入地居住一个月以上、非本市(县、区)户籍的15—59 周岁流动人口为调查对象(2015年后不再设置年龄上限，即调查15周岁以上所有年龄段流动人口)，采取分层、多阶段、与规模成比例的PPS 方法进行抽样。调查区域涵盖全国31个省(市、自治区)和新疆生产建设兵团(不包含香港、澳门和台湾地区)。CMDS数据有比较详细的关于个体来源地(户籍地)和目的地(现居地)的空间属性，是分析流动人口空间结构的良好样本，还能结合年龄、性别等进行灵活分析。事实上，对CMDS的开发研究大多数限于个体经济、社会问题的应用，而忽视该数据库调查对象本身强烈的空间属性。本文从人口迁移流空间结构视角对这一数据库进行空间挖掘，充分挖掘其在人口空间统计上的应用价值。

需要说明的是，尽管CMDS始于2009年，但2009和2010年的调查方案与之后的调查有所差异，2011年后开始启用新的流动人口动态监测调查方案，调查体系更成熟，样本量更大，代表性也更好，因此本文起始年设为2011年。同时，因分析框架一致并限于篇幅，本文不分析所有年份，最终选择2011、2014和2017年样本进行实证分析。为了全面分析全国人口迁移流的空间结构，本应该选择全国31个省(市、自治区)为佳，但鉴于迁出地—迁入地OD结构(Origin-Destination)列联表过大和篇幅所限，文章以长江经济带11个省级单元为例，既有代表性，也能在文中列表分析。另外，加入年龄后，迁出地—迁入地—年龄ODA结构(Origin-Destination-Age)相关图表和模型参数更加复杂，因此进一步缩减到以中国东部、中部、西部和东北地区四个大区进行分析。当然，案例区域的选择并不影响研究的基本程式、基本结论和意义所在，而且全国任何区域、省级或市级间的人口迁移流空间结构分析完全同理。

具体实证分析中，本文实际上仅有一个变量或研究指标，即人口迁移流量，其他相关变量是通过人口迁移流量矩阵内生化而来。本文以流动人口户籍地作为迁出地(O)、以现居地作为迁入地(D)将样本进行汇总并建立起全国31个省份(剔除来源地为港澳台及国外样本，现居地不含港澳台及国外样本，无需处理)之间的人口迁移流量矩阵，并汇总为东部、中部、西部和东北四大区域之间的人口迁移流量矩阵。当考虑年龄结构时，则每个年龄段(比如每5岁一组)构建一个人口迁移流量矩阵(性别或户籍同理，限于篇幅本文实证中未作这类分析)。最终构建了长江经济带11省份2011年、2014年11×11×9的人口迁移流量矩阵和2017年11×11×14的人口迁移流量矩阵(9和14分别为每5岁一组的年龄组个数，2015年前调查对象为15—59岁，2015年之后为15岁以上所有年龄段流动人口)，以及中国四大区域2011年、2014年4×4×9的人口迁移流量矩阵和2017年4×4×14的人口迁移流量矩阵进行实证分析。另外，本文在人口迁移流的预测研究中，也用到了2000、2010和2020年的三次人口普查数据。

1.人口迁移流空间结构描述方法

人口迁移流量是一种计数(counts)数据，它可以从属性数据分析(categorical data analysis)视角中的列联表切入[27]，其中以双向或二维列联表最为基础。人口迁移流的基本结构是双向列联表，包括迁出地和迁入地(origin by destination，OD)，多维列联表还可以引入年龄、性别等人口学属性。

(1)双向列联表与人口迁移流空间结构基本描述。如表1所示，人口从来源地i迁移到目的地j，计两地间的人口迁移量为nij，从某来源地流出的边际总量(marginal totals)记为ni+，流入某目的地的边际总量记为n+j，而迁移总量记为n++。需要指出的是，区域内部的流动不计入测算，即当i=j时，nij=0，因为该流量不属于跨区域流动。人口迁移流列联表可以分解为几个独立的分量，并构成乘法分量模型[3]：

nij=(T)(Oi)(Dj)(ODij)

(1)

表1 人口迁移流的OD双向列联表结构

其中，总分量T(相当于表1中n++)表示总体迁移水平或总效应(overall effects)；
迁出地分量Oi(ni+/n++)表示来源地的相对推力或迁出效应，迁入地分量Di(n+j/n++)表示目的地的相对拉力或迁入效应，Oi和Dj构成主效应(main effects)；
迁出地—迁入地交互分量ODij定义为nij/[(T)(Oi)(Dj)]，表示观测迁移量与期望迁移量的比率(ratio of observed migration to expected migration)，也有学者将其解释为迁出地与迁入地之间的物理或社会距离[13]或吸引系数[26]，该值越大则两地间的联系越强。当交互分量大于1时，表示观测值多于期望值，反之当交互分量小于1时，表示观测值低于期望值。

(2)引入其他人口学特征的多维结构描述。式(1)是最基本的人口迁移流描述方式，这类模型还可以引入出生地、年龄、性别[13-15]等，其中年龄在移民过程中影响较大，移民本身是一个年龄选择(age-selective)过程[28]，因此，为了清晰展示各参数估计过程且考虑篇幅问题，本文仅引入年龄进行拓展分析(其他同理)。则模型表达形式为：

nijx=(T)(Oi)(Dj)(Ax)(ODij)(OAix)(DAjx)(ODAijx)

(2)

其中,A指年龄(age)，x表示5岁的年龄分组，其他参数同上。显然，式(2)相对于式(1)复杂很多，模型增加了年龄项，因此包含了三个二维交互项和一个三维交互项，总共有八个参数，称为饱和模型(简记ODA模型)。尽管如此，模型参数的意义和解释并未发生变化，依然相对简单，总效应T、主效应Oi和Dj、迁出地—迁入地交互效应ODij是一致的：

T=∑ijxnijx

(3)

Oi=∑jxnijx/T

(4)

Dj=∑ixnijx/T

(5)

ODij=∑xnijx/[(T)(Oi)(Dj)]

(6)

新增的相关年龄效应参数为：

Ax=∑ijnijx/T

(7)

OAix=∑jnijx/[(T)(Oi)(Ax)]

(8)

DAjx=∑inijx/[(T)(Dj)(Ax)]

(9)

ODAijx=nijx/[(T)(Oi)(Dj)(Ax)(ODij)(OAix)(DAjx)]

(10)

Ax、OAix、DAjx、ODAijx分别定义为年龄主效应、迁出地—年龄交互效应、迁入地—年龄交互效应和迁出地—迁入地—年龄交互效应。以上所有参数都需要满足相应约束条件：

∑iOi=∑jDj=Ax=1

(11)

(12)

其中，m为区域个数，k为年龄分组数。

2.人口迁移流空间结构描述的实证分析

(1)双向列联表：长江经济带省际人口迁移流描述。为了解释和描述各乘法分量，如表2和表3所示，基于2017年CMDS数据，以长江经济带11个省级单元之间的跨区域人口迁移流为例进行分析。表2显示，在调查的长江经济带56913个样本中跨省人口迁移流总量为23660人。从边际总量来看，安徽迁出人口最多(6579人)，浙江迁入人口最多(6869人)，其中安徽迁往江苏的流量最大(2118人)。表3是各乘法分量，为了解释各乘法分量数据生成过程，以江苏迁往上海的流量1216人为例，该流量值分解为四个乘法分量：

n21=(T)(O2)(D1)(OD21)=(23660)(0.072)(0.219)(3.25)=1216

或者：

OD21=n21/[(T)(O2)(D1)]=1216/[(23660)(0.072)(0.219)]=3.25

其中,下标2表示第二行的江苏，下标1表示第一列的上海。这些分量的解释比较简单，总分量23660人即长江经济带的跨省迁移人口总量，迁出地分量0.072表示7.2%的人口是从江苏迁出的，迁入地分量0.219表示21.9%的人口迁往上海，最后比较重要的交互分量3.25表示区域间的联系强度，数据意义为实际观测值与期望值的比率，即相对每10个期望迁移流，大约有32个实际迁移流。显然，交互分量3.25显著大于1，显示了两者之间较强的联系度。其具有强联系度(交互分量大于2)的有16个，比如上海—安徽、湖北—湖南、重庆—四川等，这些强联系度区域的共同特点是属于边界省份，在物理空间上相连，这一结果也符合人口迁移的地理临近规律[4]。从交互分量看，长江经济带省际间人口迁移流具有明显的空间选择性，高强度的流量发生在少部分空间，多数省份之间迁移流并不大。

表2 长江经济带人口迁移流列联表：观测流量人

表3 长江经济带人口迁移流列联表：乘法分量人

(2)多维列联表：引入年龄的中国四大区域人口迁移流描述。加入年龄后，ODA结构相关图表和模型参数更加复杂，限于篇幅，文章以中国东部、中部、西部和东北地区四个大区进行分析。趋势上则以CMDS中2011、2014和2017年三期的数据进行时间序列上的分析。依据前面提及的ODA饱和模型，包含八个参数。首先，总效应分量即跨区域流动总人口分别为42937、68009、55605，因为该分量是一个绝对数值，然而每年CMDS抽样的样本数不一致，因此趋势性的比较意义不大，不过这并不影响后续其他分量的趋势性分析(其他分量是相对数值，与样本量规模的具体值无关)。图1显示了区域主效应，其中迁出地主效应以中部为主，超过55%的跨区域迁入人口来自中部，西部也达到26%；
迁入地主效应在东部具有绝对优势，占比达到70%；
而西部和东北迁出地和迁入地主效应基本相当。综合比较发现，东部地区是中国主要迁入地，中部地区是主要迁出地。从时间趋势来看，波动非常微小，一个较为明显的趋势是东部的迁入地效应有所降低，而西部的迁入地效应有所增加，这符合最近中国人口迁移的新特点：西部人口就近迁移的趋势有所增加。人口回流和就近流迁表现出较强动力，从目前人口流动的范围来看，长距离，特别是跨省流动人口所占的比重呈现下降趋势，省内流动人口的地位上升明显[29]，传统的人口流动模式正被逐渐打破。

图1 迁出地主效应分量Oi和迁入地主效应分量Dj演变趋势

对于年龄主效应Ax，需要说明的是，CMDS调查均设定为15周岁以上流动人口，因此本文无法分析15岁以下人口的迁移结构。同时，在2015年以前，最高年龄设定为59周岁，即60岁以下，而2015年及之后不设上限，因此，本文分析的2011、2014年仅为15—59周岁，2017年为15周岁及以上，如图2所示。从曲线结构可以看出，中国人口迁移的年龄特征在2011—2017年基本一致，呈现明显的倒“U”型特征，其中25—40岁是人口迁移的主要群体。莱文斯坦的经典人口迁移法则中“年龄律”并未发生明显改变，中青年依然是人口迁移的核心群体。

图2 年龄主效应分量Ax演变趋势

从时间趋势来看，年龄波峰从2011年的35—39岁年龄段转到2014和2017年的25—29岁年龄段，说明这一时期中国人口迁移有从老一代向新生代转移的历史转变特征，年龄结构转向年轻化；
而且2011年25—29、30—34、35—39岁三个年龄段分布较为均衡，而后两个时期有明显的独立波峰特征。25岁以下的群体跨区域迁移比例有明显的下降趋势，原因可能包括，一方面是中国整体人口结构的变化，即生育下降的累计效应，另一方面是流动人口中的就近就业创业的比例在提升，跨区域流动则有所放缓[29]。45岁及以上群体迁移比例有明显的上升趋势，一方面可能是老龄化的宏观背景所导致，另一方面可能是因为当前家庭化迁移的比例在上升，更多比例的中老年群体随子女迁移到流入地。

图3 迁出地—迁入地交互分量ODij演变趋势

以上三个主效应的分析比较好理解，他们是基于独立的比例测算，而在交互分量中，各交互分量是通过各主效应的综合比例测算得到，表示的是观察值与期望值的偏离，一定程度上也可以理解为两者之间的“联系强度”。迁出地—迁入地交互分量ODij参数结果如图3所示，各分量在时间趋势上相对较为稳定，但空间差异较大，前者东部—中部、东部—西部和东部—东北有最为明显的强度，ODij均在2以上，尤其前者超过4，即实际观察到从东部流入中部的人口是期望的4倍。而东北—中部、东北—西部和中部—东北ODij均低于1，即观测迁移人口要低于期望迁移人口。剩下的几个分量则基本趋近于1，即观测迁移人口与期望迁移人口相当。

迁出地—年龄交互分量OAix和迁入地—年龄交互分量DAjx参数结果如图4所示，该分量在四大区域的基本特征有明显的差异，均与图2中的年龄主效应分量的倒“U”型特征存在较大差异。总体上2011—2017年的交互分量OAix三条曲线和交互分量DAjx在每个区域的基本波动趋势是相似的，尤其是在15—59岁的年龄段，即说明该分量特征的稳定，也说明抽样保持了较为良好的连续性。60岁以后变化较大，可能是受样本限制的影响，仅2017年有数据，但这不影响基本特征分析。

在东部地区，OAix的走势基本是随着年龄上升迁出规模上升，而DAjx走势大致随着年龄上升迁入规模下降。可能是由于东部对于年轻人口的吸引力更大，对于中老年群体表现出一定的排斥，而且年轻群体对于东部大城市的适应力要强于中老年群体[30]，因此中老年群体迁出比例大而迁入比例小，青年群体则相反。

在中部地区，OAix与DAjx趋势也大致相反，前者随着年龄缓慢下降，后者随着年龄缓慢上升。具体来说，中部作为全国主要流出群体来源地，在50岁以前各年龄段比例基本相当，外出的年龄选择效应较弱，到了50岁之后，同样因老化导致的就业匹配下降使得外出比例下降，而迁入的比例上升。这里的“迁入”其实可能是“被迫回流”[31]，中老年群体选择就近迁移。

在西部地区，OAix与DAjx趋势同东部相似，但趋势曲线幅度更大。事实上，同中部一样，西部是全国主要流出群体另一来源地，外出各年龄群体比例相当，走势比较稳定。不过在15—19岁年龄段，其迁出比例明显更高，可能的原因是西部该年龄段(大致是高中阶段)就学率不高，远低于东部高中普及率[32]，直接外出务工比例较大。DAjx陡峭的趋势说明，对于西部中老年群体，迁入或回流表现出非常显著的动力。

在东北地区，OAix与DAjx均表现出随着年龄增加而上升的趋势，而且两者在前期都比较稳定地上升，但前者在中老年阶段有非常显著的提升，尤其是老年阶段迁出东北的比例较大。这可能是“候鸟迁移”的表现，老年群体冬季避寒迁出、夏季返回避暑成为东北的典型特征[33]，因此东北中老年群体的迁移力表现出比其他年龄段更显著的特征。

1.对数线性模型表达的基本原理

乘法分量模型的结构是乘积形式，如果取对数则可以变换为对数线性模型(Log-linear model)表达形式，因此，实际上乘法分量模型和对数线性模型在本质上是一致的。将式(2)取对数得到：

(13)

其中,参数λ上标O和D分别指示迁出地i和迁入地j，显然模型(2)和(13)是一致的，都为对数线性模型或其变形，前述以乘法分量模型开始分析是为了方便理解并引入对数线性模型。当分解测算参数和描述空间结构特征时用乘法形式较为合适，当拟合模型参数并表达空间结构时用对数线性模型形式较为妥当。对数线性模型有一套完备的统计建模框架，可归属于广义线性回归类型[27]。对数线性模型的参数与前述乘法分量模型的各分量基本有一致的含义和解释，不再赘述。

图4 迁出地—年龄交互分量OAix、迁入地—年龄交互分量DAjx演变趋势

模型(13)包含了全部八个参数，称为饱和模型，模型(13)的简化形式称为不饱和模型，比如不考虑最后三项(其他形式同理)，可得到如下模型：

(14)

简化形式的模型主要目的在于以更少的参数来拟合和表达区域人口迁移流，通过各种简化形式的模型拟合与比较找出相对简单的形式来表达人口流动的空间结构，同时也能找出最为关键的参数或分量。不过任何形式的简化模型都是非饱和的，即参数有所缩减，因此，通常会增加一个补偿量(偏移量，offset)到非饱和模型中，因此模型(14)通常为：

(15)

需要指出的是，人口迁移流量是非负的计数数据，通常用泊松分布、二项分布等，它们比正态分布能更好拟合人口迁移流数据，这在人口迁移的重心模型实证中有很多文献做了充分的应用[17-19]，本文以泊松分布进行实证拟合。同时模型(15)属于广义线性回归模型范畴，最小二乘法估计存在偏差，一般用极大似然估计能得到无偏估计。本文将拟合饱和模型及各类组合的非饱和模型来识别主要参数，找出既相对简化又能最大限度拟合人口迁移流矩阵的模型及结构。其中模型的拟合优度可以通过极大似然比统计量来判定：

(16)

该统计量越小拟合越好。模型的拟合优度还可以通过伪R2(pseudoR2)进行判定，该值越大则拟合越好，本文同时给出两种结果。

2.实证分析：对数线性模型拟合、比较与关键分量表达

本文以最近的第七次全国人口普查省际之间的人口迁移流重新整理得到中国四大区域迁移流作为补偿量进行计算，并放弃人口迁移流正态分布的假定，采用泊松分布进行拟合。由于各个分量的组合类型多达数十种，限于篇幅，选择六个代表性的拟合模型进行分析，结果如表4所示(2)限于篇幅，没有报告每个模型拟合系数、标准差等参数，有需要可联系作者索取。。拟合模型(1)—(6)分别为[ODOD]、[A]、[ODA]、[ODAOA]、[ODODOADAODA]、[ODAODOADAODA]六个组合模型估计结果。从拟合系数来看，除了模型(5)的ODA分量不显著外其他所有模型参数均显著通过1%统计检验，应该说通过数据自生过程得到的分量在拟合人口迁移流量时能得到比较好的效果。不过，从拟合优度来看，六个模型的伪R2差距比较大，最差的为0.0752，最优的为0.8189，通过比较，说明有影响拟合优度的关键参数。为此，本文给出更多模型的拟合优度伪R2，并与G2一起来分析影响拟合优度的主要分量，结果报告于表4。

表4 人口迁移流量拟合的代表性模型

表5 多元分量组合模型的拟合优度统计量

同样，限于篇幅仅给出部分拟合优度结果，尽管未穷尽所有参数可能的组合模型，但是表5给出了14个主要的组合模型拟合优度，不影响分析和基本结论。通过比较14个模型的极大似然比统计量G2和伪R2，发现年龄主效应或者说人口迁移的年龄结构是中国跨区域人口迁移流的最大影响因素(3)该结论是基于仅考虑迁出地、迁入地和年龄三个因素的情形下，如果进一步考虑出生地、性别、户籍等可能结论有所变化，前面已述，鉴于篇幅和描述的复杂性暂未考虑其他因素。，仅考虑年龄结构主效应时G2/df为77.2，伪R2为0.728。同时，其他模型中，当加入年龄主效应时G2/df越来越小，伪R2越来越大，当不加入时则相反，因此年龄主效应应该是影响拟合优度的最关键因素。比较时还发现，OA也是一个较为重要的影响参数，在保持A的情形下，叠加OA也对拟合优度有较为明显的影响。通过拟合优度可知，表中[ODAODOADAODA]为最优组合，但比较发现，[ODA]、[ODAOA]、[ODADA]、[ODAOD]组合与最优相差甚微，因此可用简化的但拟合优度高的模型来指征中国跨区域人口流动的空间特征，比如[ODAOA]四个参数基本可以刻画中国人口迁移结构。

1.预测方法介绍：RAS预测模型

前面已述，关于人口议题相关的预测大多是围绕总量或趋势视角，比如人口总量、城镇化或老龄化等，而关于人口迁移流矩阵预测在国内还比较罕见。既有研究中，基于双边比例调整方法的人口迁移流矩阵预测有较多的成功尝试，也有国内学者预测了国外人口迁移流。鉴于此，本文结合国内外学者成果，以双边比例调整方法来预测我国跨区域人口迁移流矩阵，并以长江经济带11省份进行实证分析来说明该方法的应用。

依据奈尔(Nair)的研究[22]人口迁移流的双边比例调整基本方程是：

N(t)=ri·N(t-1)·sj

(17)

其中，N(t)为预测期的人口迁移流矩阵，N(t-1)为基期的人口迁移流矩阵。设nij(t)是N(t)中的元素，表示从区域i到j的人口迁移量；
nij(t-1)为基期N(t-1)矩阵中人口迁移量元素。ri和sj为行、列的平衡因子，因此该方法习惯称为RAS法，其核心问题是寻找合适的ri和sj即可作出预测。根据乘法分量模型(1)相关边际总量的定义可知：

∑inij(t)=n+j(t)=sj∑iri·nij(t-1)

(18)

∑jnij(t)=ni+(t)=ri∑jsj·nij(t-1)

(19)

变换即可得到：

sj=n+j(t)/∑iri·nij(t-1)

(20)

ri=ni+(t)/∑jsj·nij(t-1)

(21)

因此，如果能先期给定或预测边际总量n+j(t)和ni+(t)的值，则通过迭代方法使上面两式收敛即可解得ri和sj，也即能预测出nij(t)。因此,当前问题已转换为边际总量的预测，而该预测可借鉴拉莫的处理[14]，比如：

(22)

其中，n+j(t-2)、n+j(t-3)为前两期、前三期的列边际总量值，行边际总量值预测同理。如果考虑年龄，只需对每个年龄段的迁移矩阵做预测，原理是一致的。依此基于RAS方法的人口迁移流矩阵预测即可实现。

2.实证分析：长江经济带省际间人口迁移流预测

本文以长江经济带11省份进行实证分析，其中2020年为基期，2010年为前两期，2000年为前三期，要预测的是2030年长江经济带11省份之间的人口迁移流矩阵。2020年人口迁移流量矩阵见表2和表3，限于篇幅2010和2000年人口迁移流量未给出。不过预测2030年数据之前，先给以上预测模型做检验，看是否能有效作出预测。这里以2010年的迁移流矩阵预测2020年迁移流矩阵作为检验，此时预测年(2020年)的观测值及行、列边际总量值是已知的，因此，可用RAS方法直接预测，并进行观测值与预测值的比较，结果报告于表6。表6中的Panel A部分是2020年长江经济带跨省人口迁移流矩阵预测值，Panel B部分是实际值与预测值之比，比值趋近1则说明实际值与预测值较为吻合，即预测较为准确。从该比值来看，大部分预测比较准确，其中江苏—上海、江苏—四川、湖北—江苏、四川—湖南等区域间迁移流量预测几乎完全一致。当然也有差距较大的预测值，比如重庆—湖南迁移流的实际值是预测值的1.37倍，上海—安徽迁移流的实际值是预测值的0.61倍，但这种情况并不多。

表6 长江经济带2020年跨省人口迁移流矩阵预测检验及2030年预测矩阵

总体上看，RAS方法能较为准确地预测区域间人口迁移流矩阵。因此，本文用中国人口普查2000、2010和2020年三期数据预测2030年人口迁移流矩阵，其中基期迁移流矩阵为2020年人口迁移流矩阵，得到长江经济带2030年跨省迁移总规模约为4526.8万人。通过总规模与预测得到的每个省份迁入比和迁出比测算即可得到11个省份的行、列边际总量，然后基于RAS方法即可预测得到2030年长江经济带跨省人口迁移流矩阵，结果报告于表6的Panel C部分。比如预计2030年江西到上海的人口迁移流量约为63.6万人，而上海到江西的人口迁移流量约为1.8万人。通过RAS预测，能够预知未来区域间人口迁移流的交互情况，比起传统的区域人口迁移总量预测有更加丰富的意义，深化了区域人口结构变化、空间交互联系研究的范畴。

人口迁移流动是规范人口学研究的重要组成部分，但在中国生育制度的政策影响、老龄化及健康中国建设背景下，对生育、死亡(健康)的研究比人口迁移的影响要更深远。不过在中国即将进入人口负增长时期，人口迁移流动却表现出更加剧烈的脉动。流动人口规模急剧增长、空间结构日益复杂、跨区域交互流动剧增，已成为我国人口形势中最引人注目的特点之一。不过，关于中国的人口迁移流动研究更多地是作为经济社会运行中的一个外生因素，对其本身运行过程的分析还不足，因此，抛开相关性或因果关系的视角，从人口统计学的角度来研究人口迁移流动的内生规律依然有很大价值空间。

本文从人口统计学视角着手，基于人口迁移流量自我数据生成过程来研究我国跨区域人口迁移流的空间结构议题，重点在于分解人口迁移矩阵的主要成分并进行模型表达，基于功能选择性较强的广义线性模型进行模型拟合并寻找关键人口迁移的结构要素，同时跳出人口总量预测等传统视角，对我国人口迁移流矩阵或者说空间结构进行了预测。研究将人口迁移流空间结构的描述、模型表达和拟合预测纳入一个框架体系，通过整合三阶段统一框架的全景式刻画研究，形成了该议题分析的“基本程式”。应该说，本文深化了中国人口迁移研究的范畴，在研究视角和人口统计应用研究上有一定的创新性和拓展性。基于实证研究内容，得到的结论和讨论主要有以下三方面。

首先，列联表是人口迁移流空间结构的良好描述方式，对乘法分量模型的解释具有很好的作用，更重要的是能表达相关乘法分量的数据生成过程。乘法分量模型有很好的包容性，能将空间结构(迁出地、迁入地，甚至出生地等)、年龄结构、性别结构等均纳入分析框架，尽管增加分量类型会提升模型表达复杂程度，但其意义依然相对简单而丰富，尤其是交互效应分量对理解区域人口迁移流的内在结构非常有效。比如迁出地—迁入地交互效应分量所表征的区域间联系强度、迁出地—年龄交互效应分量和迁入地—年龄交互效应分量所反映的空间—年龄差异等，更加深化了对于实证中长江经济带11省份和中国东部、中部、西部和东北四大区域的迁移流空间结构，也对于解释现实问题提供了新的有效视角。

其次，对数线性模型与乘法分量模型本质上是一致的，其中对数线性结构能基于功能选择性较强的广义线性模型原理进行模型拟合，对于寻找影响人口迁移流量的内生关键分量具有重要意义。结合人口迁移流量数据更加符合泊松分布、二项分布等而非正态分布的事实，本文实证分析发现中国四大区域人口迁移流的关键分量是年龄主效应A，其次迁出地年龄交互效应OA的影响也较为明显。综合比较，可用[ODAOA]的简化模型来指征中国跨区域人口流动的空间特征，这四个参数基本可以刻画中国人口迁移结构，拟合程度达到82%。

最后，关于人口迁移流矩阵预测在国内还比较罕见，本文基于国外较为成熟的双边比例调整法(又称RAS法)首次应用人口普查数据对我国长江经济带11省份之间的跨区域人口迁移流进行了预测检验，发现RAS法在人口迁移流矩阵预测上效果较好，并对2030年该区域内人口迁移流矩阵进行了预测。相比于传统人口总量的预测，通过RAS预测，能够预知未来区域间人口迁移流的交互情况，比起传统总量预测有更加丰富的意义，深化了区域人口结构变化、空间交互联系研究的范畴。

综合以上研究结论，人口迁移流的空间结构描述、数据内生过程和模型表达能丰富人口统计学理论，其基本原理能够进行延展分析，不局限于区域层级和人口学属性特征，比如大区级、省级、地市级之间的人口迁移流，年龄、性别甚至婚姻、户籍等也均可纳入分析。本文的实证分析主要是案例解释，相关研究过程完全可以移植、延展。本文研究也有一定的政策意义，比如人口迁移流矩阵预测对于流动人口的数量分析、区域治理、协调发展、资源配置和规划提供一定参考。总之，人口迁移流的深化研究还有广阔空间，人口空间统计或空间人口学等理论、实证和政策研究还任重道远。

猜你喜欢人口迁移空间结构分量象山港内湾潮汐应变对横向流及其余环流垂向空间结构的调控研究海洋通报(2022年6期)2023-01-07基于角尺度模型的林业样地空间结构分析新农业(2020年18期)2021-01-07格绒追美小说叙事的空间结构阿来研究(2020年1期)2020-10-28——评《多中心城市空间结构：概念、案例与优化策略》">21世纪城市规划的新思维
——评《多中心城市空间结构：概念、案例与优化策略》浙江工业大学学报(社会科学版)(2020年2期)2020-07-17一斤生漆的“分量”——“漆农”刘照元的平常生活当代陕西(2019年19期)2019-11-23一物千斤智族GQ(2019年9期)2019-10-28《人口迁移》教学设计中学课程辅导·教育科研(2019年21期)2019-09-10论《哈姆雷特》中良心的分量英美文学研究论丛(2018年1期)2018-08-16“人口的空间变化”教学设计地理教育(2014年2期)2014-01-21基于FFT的航空发动机整机振动分量实时跟踪监视燃气涡轮试验与研究(2011年1期)2011-04-16

推荐访问:空间结构跨区迁移