工具变量,因果关系 笔记

工具变量(Instrumental Variables)
  • 某一个变量与模型中随机解释变量高度相关,但却不与随机误差项相关,那么就可以用此变量与模型中相应回归系数得到一个一致估计量,这个变量就称为工具变量
  • 工具变量(英语:instrumental variable,简称“IV”)也称为“仪器变量”或“辅助变量”,是经济学、计量经济学、流行病学和相关学科中无法实现可控实验的时,用于估计模型因果关系的方法。
  • 在回归模型中,当解释变量与误差项存在相关性(内生性问题),使用工具变量法能够得到一致的估计量。内生性问题一般产生于被忽略变量问题或者测量误差问题。当内生性问题出现时,常见的线性回归模型会出现不一致的估计量。此时,如果存在工具变量,那么人们仍然可以得到一致的估计量。根据定义,工具变量应该是一个不属于原解释方程并且与内生解释变量相关的变量。在线性模型中,一个有效的工具变量应该满足以下两点:
      • 此变量和内生解释变量存在相关性;
      • 此变量和误差项不相关,也就是说工具变量严格外生。
  • 产权保护的分数→回归系数→GDP;GDP(pc)=α+β(产权)+……+E
  • 找一件1919年发生的事件,同GDP(pc)有关,同β有关,而和E完全没有关系,1919年的这个变量就是工具变量,Y=β(YV)+E(YV)
  • β=Cov(Y,V)/Cov(X,V)
  • 工具变量是用来剔除无关变量的。
因果关系:
  • 辛普森悖论,每个系的录取比例,女生都更有优势,而总的来看,男生的录取率要高于女生,
    • 如果对照组和实验组组成的结果不同,效应可能来自于组成结构而不是实验处理
    • 数据分布的描述不等于因果
      • 男生现实的录取率-女生现实的录取率
    • 基于数据分布描述的预测不等于因果
    • 因果需要反事实的观测(或者共识)
主成分分析法:
  • 成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。
  • 在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。
  • 人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
  • 设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
  • 主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
  • 通过相关系数矩阵和平均数来模拟原始数据只有R可以做到,R中,MASS:: mvrnorm ( ..., empirical = T )

Class exercise

>Dataset=read.csv('http://fudan.lxxm.com/wpcontent/uploads/2012/12/Prac.csv',encoding='GBK')

> summary(Dataset);

#问题:

# ① 用log_GDP_pc预测well-being,在各个Region上
     a. 统一截距,斜率
     b. 只统一斜率
     c. 截距斜率各组都不同
#② log_GDP_pc, Life Ex 预测well being,各Region仅有截距不同
     a. log_GDP_pc与LifeEx无交互
     b. log_GDP_pc与LifeEx有交互
代码:
Dataset = read.csv('http://fudan.lxxm.com/wp-content/uploads/2012/12/Prac.csv',encoding='GBK');
summary(Dataset);
attach(Dataset);
(col.11 <- rainbow(11));#对每个地区的点赋予颜色
col.11[4] <- "black";#对东亚地区的颜色不感兴趣,把他换成黑色
col <- col.11[Region];
plot(log_GDP_pc,Well.Being,cex=2,pch=16,col=col);#以GDP为横轴,wellbeing为纵轴做散点图
Dataset[idx <- identify(log_GDP_pc,Well.Being,labels = Country),] #为每个点标上名字,并存到idx这个数据文件中。并读取之前点取的几个点的数据

lm11<- lm(Well.Being~log_GDP_pc);#模型11

(lm12 <- lm(Well.Being~Region + log_GDP_pc));#模型12的回归系数

(lm13 <- lm(Well.Being~Region + log_GDP_pc));#模型13的回归系数
anova(lm11,lm12);#比较这两个模型哪个更好
anova(lm12,lm13);

plot(log_GDP_pc,Well.Being,pch=16,cex=2,col=col);#以GDP为横轴,wellbeing为纵轴做散点图

lines(log_GDP_pc,lm11$fitted.values) # 横轴是GDP,纵轴是回归的预测值,画lm11回归线
lm21 <- lm(Well.Being~Region + log_GDP_pc + Life.Expectancy);#没有交互作用
lm22 <- lm(Well.Being~Region + log_GDP_pc * Life.Expectancy);#有交互作用
anova(lm21,lm22)

 
Analysis of Variance Table

Model 1: Well.Being ~ Region + log_GDP_pc + Life.Expectancy
Model 2: Well.Being ~ Region + log_GDP_pc * Life.Expectancy
Res.Df    RSS Df Sum of Sq      F    Pr(>F)
1    138 59.578
2    137 51.454  1    8.1244 21.632 7.693e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 
得到的结果我们可以看,RSS,回归系数,指能够解释因变量变异的1-%多少。显著性并不重要,重要的是自己的标准是什么。