第一回合:“孤陋寡闻” pk “见多识广”
sales ~ 9.312 + 0.203*radio 显著
sales ~ 12.351 + 0.055*newspaper 显著
多变量时newspaper不显著
sales ~ 2.93 + 0.189*radio -0.001*newspaper + 0.046*tv
cor(newspaper, radio) = 0.35
一元线性回归中 代表报纸增加1单位后的平均效应,多元线性回归中代表当tv和radio保持不变时,报纸增加1单位后的平均效益
一元模型中 报纸的显著,因为radio增加所导致的,多元模型中控制radio不变,就暴露出newspaper其实对sales无影响
类似于鲨鱼袭击人类 ~ 冰激凌的销售量
伪相关,与两者均相关的是”天气炎热、气温高”
在多变量逻辑回归中,离散变量学生显著,系数为负,表明学生不易拖欠信用卡,与单变量逻辑回归的結果刚好相反。
单变量回归时考虑的是学生和非学生的整体拖欠水平,学生较高;多变量中考虑的是同样的balance值,非学生的拖欠更高。
原因在于:学生因素和变量balance相关。
因此,单变量回归很危险,当单变量可能与其他变量相关时,即伪相关,鲨鱼袭击人与冰激凌销售量,都与夏季温度相关。
逻辑回归和线性回归都存在这个问题,因此变量越多越好,真实相关变量会自动剔除伪相关变量的影响。
这里,侧面验证了,应该“见多识广”和避免“孤陋寡闻”
引申到生活中,对不怎么看书的人,要说,多看书啊,借鉴他人的经验教训。
格言警句如下,聊以自勉。
一日不读书,尘生其中;两日不读书,言语乏味;三日不读书,面目可憎.
往俗了讲就是:一日不读书,无人看得出,一月不读书,开始会爆粗,一年不读书,智商输给猪
第二回合:“见多识广” pk “信息爆炸”
变量太多,类似信息爆炸,如生物学中的DNA分析,维度相当高,如何去粗取精,去伪存真?——> 正则化,如lasso, 岭回归。
引申到生活中,要看好书,有选择性的读书。多不如精。
格言警句有
温故而知新,可以为师矣。
参考书籍:
备注:转移自新浪博客,截至2021年11月,原阅读数39,评论0个。