个人认为,数据分析目前有两个发展方向。
课程改革前学生的数学平均成绩是65分,抽取15人接受课程改革,之后的数学平均分为75分,
问:课改是否真的有效?使用单样本的t检验。这类问题还是有很强的生命力的。
如药厂,研发的新药,就要随机抽样,问新药是否比现在的药物更有效?
如互联网企业,改版后的页面是否比老页面更能吸引顾客?
如农业,新种植方法是否比老种植方法更有效?
这些主要讨论,采取某个策略后,是否有变化?是真实的改变,还是运气好?
这些主要涉及统计检验,置信区间等等
涉及的模型,以线性回归为主,使用的软件以SAS为主,尤其药厂,貌似美国药监局指定认可SAS的统计结果。
这些主要在有数据的前提下,砸各种模型,哪个准确率高,用哪个,当然,想要砸出一个准确率高的,也是需要各种知识和经验的,典型的就是kaggle竞赛,给你数据,大家比拼,谁的模型最好,最好的不仅有奖金,这个光环也是换工作的大杀器,现在的各种图片识别模型,还要比拼硬件,没GPU机器,不能跑神经网络模型啊。
这些涉及对各种模型的了解,优缺点,适用场景等等。
使用的软件以R和python为主。
附:线性回归模型整理
系数估计方法:普通最小二乘法 ordinary least squares,即残差平方和最小。
具体方法:对两个系数求导,令结果为0,推导出两个系数的数值。
回归模型的基本假定:
A0 模型设定假定(线性假定)。用散点图检查X和Y的关系
A1 正交假定:
误差项e和X不相关,两者的协方差=0;误差项的期望值为0。为了保证参数的估计是无偏的。
如果忽略重要变量,忽略的变量与模型中的其他变量相关,被忽略的自变量成了误差项的一部分,违反该假定,估计值有偏。
如果添加无关自变量,容易导致多重共线性。
A2 独立同分布假定:误差项相互独立,且属于同一个分布。
即:任何两个误差项之间的协方差为0;所有误差项的方差都相等。
为了保证参数估计的有效性efficiency, 最有效的,即方差最小。
方差不等,导致残差异方差问题。
A3 正态分布假定。小样本时,假定误差项服从正态分布,才能使用t检验。
流程汇总:
常见问题1: 多重共线性
自变量共线性是指自变量之间存在线性相关,如果存在多个自变量线性相关,则称为多重共线性(multicolinearity)。
判断是否存在严重近似共线性的原则:自变量中最大的方差膨胀因子大于10;平均方差膨胀因子明显大于1。
影响参数估计、扩大模型误差、破坏模型稳定性
解决:
删除不重要的共线性变量。一个重要的原则是不能忽略和X、Y都显著相关的变量(可以通过该变量加入模型与否会明显改善参数显著性检验来判断)。只有在该变量和X、Y无明显相关性时,我们才能考虑去掉这个变量。
增加样本容量
变量转换1)构造一个新变量,是多重共线性变量的函数,用新变量来替代那些具有多重共线性的旧变量,但新变量必须有意义
变量转换2)把方程或方程中的几个变量,转换为一阶差分形式
哪个变量VIF值大,就把它中心化
因为高次项导致的多重共线性,对二次多项式回归,用变量对中,二次以上用正交多项式解决。
如果交互项与其低次项之间的共线性,对低次项先对中,再构造交互项。
岭回归ridge regression、lasso
主成分回归principal component regression、
偏最小二乘回归partial least square regression
常见问题2: 残差中的异方差性的分析和处理
问题:影响参数估计,导致参数不是最有效的,即不是方差最小的。
原因1:Y和X本身存在非线性关系;
原因2:Y本身存在显著的自相关性;如:股票的波动率的聚合(volatility cluster)
原因3:残差中包含和因变量X线性相关,但未被模型考虑的变量,导致残差和X相关; 如果存在混淆变量,即和Y及X都显著相关的变量进入残差中,将会导致忽略变量偏差(omiited variable bias),造成系数和模型的估计有偏,模型的预测能力将会被大大影响。 混淆变量进入残差项中,通常是因为建模时对自变量共线性(colinearity)处理不当(因为共线性被删掉了)。
解决4:稳健回归(robust regression)和广义最小二乘法 (generalized least square)
备注:转移自新浪博客,截至2021年11月,原阅读数110,评论0个。