【Stata】 一周一北核 DDL远离我 —— 数据篇
数据基本功
数据结果是一篇实证论文的支撑条件,本文将详细梳理实证论文中必不可少的回归步骤,以实现提速增效,当然,前提是对逻辑、代码、数据已做好准备工作。
1 基准回归
- 描述性统计
- 皮尔森相关性分析(可选)
1 | pwcorr_a Y X $control |
- 基准回归
1 | reghdfe Y X , a( stkcd year ) vce( cluster stkcd ) |
2 稳健性分析
- 工具变量⭐
- 更换变量定义
- 改变样本
- 增加宏观控制变量
- 剔除特殊事件影响
- 剔除直辖市(北京、天津、重庆、上海)
- 增加固定效应
- Oster检验
- PSM检验
- Heckman检验(需要增加外生变量)
- 平行趋势检验(基准为DID)
- 安慰剂检验(基准为DID)
- Bacon分解(多期DID)
- X滞后一期
- 改变模型
3 机制分析
后面的做不出来可以调整,基准和机制必须首先完成
中介
❌
- 争议太多了,不要选
直接回归
- 中文期刊不考虑此方法,X→M用回归做,M→Y用论文证明
1 | reghdfe M X $control , a( stkcd year ) vce( cluster stkcd ) |
分组
- 为和异质性区别,尽量不用全样本分组,考虑事前一年、期初,并在此基础上考虑分年份、行业
1 | reghdfe Y X $control , a( stkcd year ) vce( cluster stkcd ) , if M == 1 |
系数差异检验
1、似无相关检验
- 下载第三方的ado文件并替换原文件,此命令支持xtreg固定效应和聚类标准误https://gitee.com/arlionn/suest_panel/
1 | xtreg Y X $control i.year if M==1 ,fe |
2、邹检验
- 本质上是交乘,分组变量与X、Controls、固定效应交乘
1 | //M被omitted了不用管 |
3、费舍尔组合检验⭐
- 支持reghdfe和聚类,记得设置随机种子,reps代表抽样次数,一般用500或1000,次数越多越精准
1 | bdiff, group( M ) model(reghdfe Y X $control ,a(stkcd year) cluster (stkcd)) reps(1000) bdec(4) pdec(4) bsample seed(123456) |
交乘
- 先将M按中位数或其他方式分成0和1两组
- 离散变量前都要加 i. 前缀,连续变量则需加 c. 前缀,对于取值为0/1的虚拟变量可以省略前缀
- 仅看交乘项是否显著
- 1组系数=交乘项系数+X单独项系数,0组系数=X单独项系数,若X单独项不显著则认为系数是0
- 将两组系数与基准回归系数相比较,优先看哪组系数方向相同,若均相同则绝对值较大的一组影响更大
1 | reghdfe Y c.X##c.M $controls , a( stkcd year ) vce( cluster stkcd ) |
4 异质性分析
在尝试常用变量后,用选题中特有的相关变量进行结果补充
注意:机制和异质性的方法不要混用,交乘与分组二选一
微观层面
要求4个及以上
- 产权性质
- 融资约束
- 信息不对称
- 企业规模
- 企业年龄
- 分析师关注度
- 媒体关注度
- 内部控制
- 高管特征
- 政治关联
- 资本密集度、劳动密集度
宏观层面
要求2个及以上
- 行业集中度
- 政府干预
- 政府补贴
- 市场化程度
- 中东西部
- 是否重污染行业
- 是否高科技行业
- 沿海城市(GDP发达城市)
5 经济后果
- TFP
- TBQ
- ROA
- ROE
- 经营困境
- 融资约束
- EVA
- 营业收入增长率
- 技术创新
- 股价崩盘
换Y
- Y’指前滞(F.)一期或多期的经济后果变量,当期不是最优选
1 | reghdfe Y' X , a( stkcd year ) vce( cluster stkcd ) |
交乘
- 仅关注交乘项结果,直接判断显著性和正负方向,X和Y的其中之一需要01变量分组
1 | reghdfe Y' c.X##c.Y , a( stkcd year ) vce( cluster stkcd ) |
差分
Kim, Y., Su, L. (Nancy), Wang, Z., and Wu, H. 2021. The Effect of Trade Secrets Law on Stock Price Synchronicity: Evidence from the Inevitable Disclosure Doctrine.The Accounting Review , 96(1), pp. 325–348.
- 样本量减少是正常的
1 | //生成所有变量的差分项,包括X、Y和控制变量 |
- 第二阶段回归结果表明,X对Y的影响,显著增加(减少)了Z
作话:梳理实证步骤,对基础知识查漏补缺,整理这个帖子的时候学到一些没做过的东西…
【Stata】 一周一北核 DDL远离我 —— 数据篇