首发于统计学的工具箱

R语言(3)-四张图检验线性回归模型

R语言(3)-四张图检验线性回归模型

还没找到工作所以无法毕业的phd

好久不见，之前期中考然后生病然后出去旅游所以断更了一个星期。

话说上期简单线性回归的结尾提到了，有模型是件很简单的事情，但是模型可不可靠就是另一回事了。线性回归模型会出哪些问题呢？

有人肯定觉得，那我画个散点图不就好了吗？

是，很多时候画个散点图用眼睛就能看出来是不是线性关系，有没有极端样本点。但是，第一，这是二维的情况，如果高维连图都没法画；第二，眼睛看并不准确，比如极端样本点到底多极端才会影响模型？误差到底是不是正态分布？

这时候就需要R的帮助了，有了一个拟合fit之后：

fit <- lm(y~x)
par(mfrow=c(2,2)) #用来把四张图同屏显示
plot(fit)

锵锵锵锵！

R产生了四幅图片，它们分别是做什么的呢？我们来一张一张看一下。

Residuals vs Fitted

这张图中横轴是y值（Fitted value），纵轴是残差（Residuals）。在这幅图中，我们希望看到残差的分布是比较均匀的，这样就代表误差分布符合Guaasian-Markov Condition。如果残差随着y值的增大而有增大或减小的趋势，或者残差的分布更近似于一个二次曲线，那么就意味着可能原本的数据并不是线性关系。这时候可以做一些求对数、求指数、求平方根等变换，然后再进行线性回归。

明显的非线性关系

Normal Q-Q

Q-Q图，全程Quantile-Quantile图，是把两个分布的quantile放在一起进行比较，来判断这两个分布是不是相似的。这幅图的作用就是检验误差是不是服从正态分布。如果是，这张图上的点将会贴近 y=x 这条直线。

从qq图上可以得到的信息

Scale-Location

这张图的作用基本和Residuals vs Fitted差不多，只不过换成了standardized residuals。可以更方便地看出误差分布的范围。

随着y的增加，误差分布得更广了

Residuals vs Leverage

这张图就是判断极端样本点最有用的图了。

首先讲一讲极端样本点的三个分类：

USA样本点把直线向下“拉扯”

在这张图上，横轴是leverage。通常大于 \frac{4}{n} （n是样本点的数目）的就算leverage points。

纵轴是residuals，通常小样本大于2，大样本大于4的算作outliers。

合起来，既有很高的leverage，又有很高的residual的就是influential points。用图上的Cook‘s distance来判定。小样本大于1，大样本大于 \frac{4}{n} 。

图上的49就是一个influential point

最近确实写专栏的新鲜劲逐渐消退，不知道有什么有趣的东西可以写。大家想看什么留个言叭，我也可以去学习一波。

编辑于 2018-11-11 22:45

R（编程语言）

文章被以下专栏收录

统计学的工具箱

想到什么写什么的不定期更新专栏

深圳SEO优化公司日照网站推广系统报价兰州网站优化按天计费报价临猗企业网站制作公司白银seo排名推荐九江网站搭建白城seo网站优化丹东建设网站报价松岗外贸网站建设公司德宏网站推广报价宜春网站开发多少钱南平阿里店铺运营多少钱襄樊设计网站哪家好漳州百度爱采购推荐松原关键词按天收费多少钱广安百度爱采购报价吴忠网站改版多少钱安康网站搜索优化推荐抚顺百度爱采购多少钱武威网站优化按天计费哪家好南京网站制作设计多少钱乌海网站搭建公司厦门企业网站设计价格滁州seo优化价格长沙百姓网标王多少钱双龙关键词按天收费公司长治品牌网站设计平顶山网站关键词优化哪家好榆林网站制作设计公司河源企业网站设计价格大丰SEO按效果付费歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化