个人认为,数据分析目前有两个发展方向。

课程改革前学生的数学平均成绩是65分,抽取15人接受课程改革,之后的数学平均分为75分,

问:课改是否真的有效?使用单样本的t检验。这类问题还是有很强的生命力的。

如药厂,研发的新药,就要随机抽样,问新药是否比现在的药物更有效?

如互联网企业,改版后的页面是否比老页面更能吸引顾客?

如农业,新种植方法是否比老种植方法更有效?

这些主要讨论,采取某个策略后,是否有变化?是真实的改变,还是运气好?

这些主要涉及统计检验,置信区间等等

涉及的模型,以线性回归为主,使用的软件以SAS为主,尤其药厂,貌似美国药监局指定认可SAS的统计结果。

这些主要在有数据的前提下,砸各种模型,哪个准确率高,用哪个,当然,想要砸出一个准确率高的,也是需要各种知识和经验的,典型的就是kaggle竞赛,给你数据,大家比拼,谁的模型最好,最好的不仅有奖金,这个光环也是换工作的大杀器,现在的各种图片识别模型,还要比拼硬件,没GPU机器,不能跑神经网络模型啊。

这些涉及对各种模型的了解,优缺点,适用场景等等。

使用的软件以R和python为主。

附:线性回归模型整理

系数估计方法:普通最小二乘法 ordinary least squares,即残差平方和最小。

具体方法:对两个系数求导,令结果为0,推导出两个系数的数值。

回归模型的基本假定:

流程汇总:

  1. 建立模型前,检验因变量是否符合正态分布,如果有偏,取对数。
  2. 检查因变量和自变量之间是否存在线性关系。
  3. 确定自变量
  4. 检查误差项是否与自变量相关,如果相关,估计值有偏,有可能忽略重要变量,重新确定自变量。如果无关自变量x3与自变量x1、x2相关,导致回归系数(b1、b2)的标准误增大。 检查自变量之间是否存在多重共线性,如果存在,可能加入了不相关的变量,要么删除变量,要么增加样本容量,要么哪个变量vif大,中心化,要么用岭回归、lasso、主成分回归、偏最小二乘回归。
  5. 自变量中是否需要交互项,如果交互项保留,对应的低次项也要保留,即使不显著。如果交互项与其低次项之间的共线性,对低次项先对中,再构造交互项。
  6. 自变量中是否需要高次项,如果高次项保留,对应的低次项均保留,即使不显著。因为高次项导致的多重共线性,对二次多项式回归,用变量对中,二次以上用正交多项式解决。
  7. 自变量中虚拟变量的处理,K个类别,只转换为K-1个变量,或转换为连续变量。
  8. 建立模型后,检验误差项是否符合正态分布,用分位数-分位数图、残差-拟合值图。
  9. 检验误差项是否方差齐性,如果不齐,存在异方差,转用广义最小二乘法、分层线性模型。
  10. 检查R方,判断该直线与样本各观测点之间的接近程度,测量自变量X对因变量Y的解释程度。R方 = 相关系数的平方 = 回归平方和 / (回归平方和+残差平方和)
  11. 检验回归系数,用t检验,不单看显著性水平0.05或0.01,也要检查标准误和t值。
  12. 检验模型整体,用F检验。
  13. 模型之间的比较,如果两者为嵌套模型,用F值,F>临界值,模型整体存在显著的线性关系。F = 回归均方MSR/残差均方MSE

常见问题1: 多重共线性

自变量共线性是指自变量之间存在线性相关,如果存在多个自变量线性相关,则称为多重共线性(multicolinearity)。

判断是否存在严重近似共线性的原则:自变量中最大的方差膨胀因子大于10;平均方差膨胀因子明显大于1。

影响参数估计、扩大模型误差、破坏模型稳定性

常见问题2: 残差中的异方差性的分析和处理

备注:转移自新浪博客,截至2021年11月,原阅读数110,评论0个。