第一回合:“孤陋寡闻” pk “见多识广”

sales ~ 9.312 + 0.203*radio 显著

sales ~ 12.351 + 0.055*newspaper 显著

多变量时newspaper不显著

sales ~ 2.93 + 0.189*radio -0.001*newspaper + 0.046*tv

cor(newspaper, radio) = 0.35

一元线性回归中 代表报纸增加1单位后的平均效应,多元线性回归中代表当tv和radio保持不变时,报纸增加1单位后的平均效益

一元模型中 报纸的显著,因为radio增加所导致的,多元模型中控制radio不变,就暴露出newspaper其实对sales无影响

类似于鲨鱼袭击人类 ~ 冰激凌的销售量伪相关,与两者均相关的是”天气炎热、气温高”

在多变量逻辑回归中,离散变量学生显著,系数为负,表明学生不易拖欠信用卡,与单变量逻辑回归的結果刚好相反。

单变量回归时考虑的是学生和非学生的整体拖欠水平,学生较高;多变量中考虑的是同样的balance值,非学生的拖欠更高。

原因在于:学生因素和变量balance相关。

因此,单变量回归很危险,当单变量可能与其他变量相关时,即伪相关,鲨鱼袭击人与冰激凌销售量,都与夏季温度相关。

逻辑回归和线性回归都存在这个问题,因此变量越多越好,真实相关变量会自动剔除伪相关变量的影响。

这里,侧面验证了,应该“见多识广”和避免“孤陋寡闻”

引申到生活中,对不怎么看书的人,要说,多看书啊,借鉴他人的经验教训。

格言警句如下,聊以自勉。

一日不读书,尘生其中;两日不读书,言语乏味;三日不读书,面目可憎.

往俗了讲就是:一日不读书,无人看得出,一月不读书,开始会爆粗,一年不读书,智商输给猪

第二回合:“见多识广” pk “信息爆炸”

变量太多,类似信息爆炸,如生物学中的DNA分析,维度相当高,如何去粗取精,去伪存真?——> 正则化,如lasso, 岭回归。

引申到生活中,要看好书,有选择性的读书。多不如精。

格言警句有

温故而知新,可以为师矣。

参考书籍:

备注:转移自新浪博客,截至2021年11月,原阅读数39,评论0个。