双重差分模型介绍入门

双重差分模型介绍入门

1.实验与数据

在社会科学的学术研究中,根据数据集的不同收集过程,实验可分为:

  • 理想实验
  • 准实验
  • 自然实验

​ 在现代金融学学术研究中,通过仔细设计与收集,许多商业活动的数据可以被运用为“准实验”。当选取自然状态下发生的事件作为研究样本时,由于这些数据在形成过程中较少受到人为设计的实验因素的干扰,其结果往往会更具说服力。而且,由于能够妥善解决金融学研究所涉及的复杂情况,“准实验”在金融中有更广泛的应用。

​ “准实验”下的数据模型通常呈现混合截面的形态,十分适用于综列数据模型。双重差分模型常规使用“准实验”数据集,因此可以减小内生性问题带来的影响。“实验组”通常为受政策或事件影响的样本集,而相应的“对照组”则为没有受到政策和事件影响的样本集。对这两个数据集之间的表现差异进行经济学测量之后,可以得出显著或不显著的结论,进一步分析则得到研究结果。简单明了,操作容易,在金融学领域内大受欢迎,使用非常广泛。

源•起

​ 双重差分模型最初为英国医学界的研究模型,在1855年被J•S用于研究霍乱。通过绘制传播人数地图,发现水井周围死亡人数众多,而城市中其他水源周围则几乎没有死亡病例。因此,解开了霍乱传播方式的秘密,并最终控制了霍乱。

​ 在后续几十年的发展过程中,陆续演变出多期双重差分三重差分(DDD)双重差分倾向得分匹配(PSM-DID)等模型。

​ 根据政策影响时间是否一致,实验组与对照组的时间变化趋势是否相同等两个因素,在不同的研究问题中适用不同的模型。


1.基础的双重差分模型(DID)用于测量两个数据集在相同的时间点,受单一政策或事件的冲击下,实验组与对照组之间表现的差异,从而检验政策或事件的影响。

2.多期双重差分在基础的双重差分模型的理论基础上,增加关于多时点的变量,以便能够对发生在不同时间段的政策的平均处理效应进行检验。

3.三重差分则是在双重差分的基础上又进行一次差分,因此能够对实验组和对照组的不同趋势进行控制,达到均衡对比差异的目的。

4.双重差分倾向得分匹配模型增加了实验组和对照组样本的经济学匹配过程,通过控制变量的匹配保持实验组和对照组的平行趋势,为双重差分模型的使用创造条件,并减少在测算政策和事件差异时受到其他极端因素的影响。

2.模型原理与变型模型

1)基础双重差分模型(DID)

​ 双重差分模型,又称之为倍差法,是差分模型的基础方程。其基本思路是对实验组和对照组的差异进行测算。在差分模型中,双重差分模型的运用是最为简单和广泛的。其他差分模型均建立在双重差分的基础上,因此双重差分模型的学习和推导是其他更复杂差分模型的基础。

这里有一个例子:

​ Z国的S省推行了一项绿色金融政策,如何才能知道这项政策是否有效呢?为了衡量政策的有效性,选取S省的对照样本G省数据,将绿色金融政策(Policy)的实验组S省记为did=1;将没有推行绿色金融政策的对照组G省记为did=0

​ 我们知道,成功的绿色金融政策可以减小这些企业的融资压力,促进企业的技术创新和绿色转型。那么,企业的技术专利将会显著增加。这样S省和G省的技术专利差值就会包含绿色金融政策带来的影响。但同时也要考虑到这种差异也有可能是S省和G省的其他区位因素带来的,比如一个在沿海地区,人才济济,另一个位于偏远的内陆地区,环境恶劣、人才青黄不接。为了减少其他因素的影响,我们首先就需要计算出在没有绿色金融政策时,S省和G省的技术专利差值,在排除这个差异后,就能得到绿色金融政策的影响。我们需要观察两期数据(Time),即:

​ t=0,实验组与对照组都没有绿色金融政策扶持的阶段

​ t=1,实验组实行绿色金融政策扶持而对照组没有实行绿色金融政策的阶段

​ 在方程中取交互项Treatment=Time * Policy衡量样本所处的阶段。综合两个维度,我们可以根据是否实施绿色金融政策以及不同的阶段产生四个分类。

交互项Treatment S省 G省
政策实施前 0 0
政策实施后 1 0

​ 先对t=0时的实验组和对照组的技术专利数进行第一次差分,公式为: \[ Y_{it}=lnPat \]

\[ \Delta Y_{it}=\Sigma(Y_{i0}^S-Y_{i0}^G) \]

​ 其中\(\Delta Y_{it}\)衡量两省专利数的差值,\(Y_{i0}^S\)是S省在政策实施前的专利数,\(Y_{i0}^G\)是G省在政策实施前的专利数。我们用各省的专利数衡量绿色金融政策对于技术创新是否有用,并通过求对数减小研究误差,在这一步中可以计算出各省专利数的变化增长率,即各省创新能力的自然增长趋势。此外,我们通过上述方程可得知当没有政策影响时,S、G两省技术创新之间的差距。这是第一次差分的过程,同时,这次差分也用于检验两个组别的样本之间是否具有相同趋势,也就是对照组的选择是否合适。

​ 通过上述思考可知,技术创新的增长包含自然增长趋势和受到绿色金融政策影响两部分,再考虑其他可能的突发情况作为残差项,可以列出以下方程:

\[ Y_{it}=\alpha * Time+\beta*Policy+\gamma*Time*Policy+\epsilon \]

​ 其中,\(\alpha\)为不同时期的影响程度,\(\beta\)为政策的影响,\(\gamma\)为处理效应,\(\epsilon\)为残差项。

​ 将上述进行推广,可以得到通常表达形式: \[ Y_{it}=\alpha * d_t+\beta*d_u+\gamma*d_t*d_u+\epsilon \] ​ 其中,\(d_t\)为政策实施前后的分组虚拟变量,\(d_u\)为是否受政策影响的分组虚拟变量。

2)多期双重差分模型(异时DID)

​ 多重差分模型又称之为异时DID,在学术研究中,尤其是政策研究中十分常用。双重差分模型适用于所有样本开始受到政策影响的时间相同的情况,但是在现实经济活动中,会出现各样本接受处理时间点不一致的情况。沿用上述案例,如果绿色金融政策在各省份的推出时间不同,对企业开始产生影响的时间不一致,那么则需要加入关于不同时间样本的区分项,将\(d_t\)变为\(d_{i,t}\) \[ Y_{it}=\alpha * d_{i,t}+\beta*d_u+\gamma*d_{i,t}*d_u+\epsilon \] ​ 同时,我们不再关注单独的虚拟变量系数,而应该关注平均处理效应。对于样本\(i\),在时间序列\(\{t-a,t+b\}\)中,受政策冲击的情况只有一次,则处理效应矩阵如下: \[ n_j=\{d_{i,t-a},..,d_{i,t-1},d_{i,t},...,d_{i,t+b}\}=\begin{bmatrix} n_{-a} \\ n_{-1}\\ n_0 \\ n_b\\ \end{bmatrix} \] ​ 那么,\(\gamma\)则为平均处理效应,而且受政策冲击前,各个样本的处理效应为0,因此 \[ 那么,\gamma=(\gamma_{-a}+\gamma_{-2}+\gamma_{-1})/n \] 即,每期的平均处理效应等于交互项乘数减去政策前各期系数的算术平均数

3)倾向匹配双重差分模型(PSM-DID)

​ 在学术研究的样本选择中,由于日常经济的复杂性、选择样本的局限性等原因,学者们不得不对样本进行手动筛选或增加主观因素,因此难以达到完全随机选择,而且该过程会对样本和实验数据造成选择性偏差。除此之外,当庞杂的样本之间缺乏平行趋势时,就无法使用双重差分模型。针对这种情况,计量经济学常用的方法是先对样本进行倾向匹配,使得样本在选中的变量中具有平行趋势,避免个体的极端性差异影响实验结果,同时,也能确保选中的样本具有代表性。然后,将与实验组形成对照的样本进行组合,生产经过计量经济学筛选的对照样本集。倾向匹配的衡量维度一般需要通过文献综述和反复尝试决定,避免随意设置筛选变量的情况。

​ 倾向匹配在构建本文第一个方程之前需要完成,对于实验组的样本\(a\),找到\(b\)放入对照组,使得样本\(a\)和样本\(b\)在影响处理效应的其他观测值尽可能具有平行趋势,同时要确保样本\(a\)与样本\(b\)进入样本集的概率相近,避免人为因素的选择性因素干扰。通常情况下,我们几乎找不到100%匹配的实验组和对照组,因此要选取适当维度来设定最可能影响处理效应的变量。

Contents
  1. 1. 双重差分模型介绍入门
    1. 1.1. 1.实验与数据
      1. 1.1.0.0.0.1. 源•起
  • 1.2. 2.模型原理与变型模型
    1. 1.2.1. 1)基础双重差分模型(DID)
    2. 1.2.2. 2)多期双重差分模型(异时DID)
    3. 1.2.3. 3)倾向匹配双重差分模型(PSM-DID)
  • ,