Statistic Learning 1

1. RSS, RSE, TSS等

RSS(Residual Sum of Squares)

RSS定义了,在进行了回归之后,模型未能解释的变量。

RSE(Residual Standard Error)

RSE说明了,即使再好的回归模型也存在着RSE置信区间之内的误差,即模型对于数据的欠拟合程度。

TSS(Total Sum of Squares)

其中$\overline{y} = \frac{1}{n}y_i$。TSS定义了$y$自身的方差,即衡量了$Y$中$y$固有的变化程度。

$R^2$

  • $TSS$:衡量了$Y$中$y$固有的变化程度。
  • $RSS$:进行回归之后,模型未能解释的变量值
  • $TSS-RSS$:固有的变化程度 - 未能解释的变量值 = 能解释的变量值
  • $\frac{TSS-RSS}{TSS}$:已经解释的变量值占所有固有变化的比例

$R^2$的变化区间为$(0, 1)$,与$y$的尺度无关。所以,理论上$R^2$越大应该越好,即大量的变量可以被回归所解释。但实际场景中,$R^2$的值要看应用。

$F-statistic$用于估计$H_0$

其中,$n$为样本个数,$p$为多项式回归中的回归系数的个数

  • $TSS$:$y$固有的方差,及固有的变量
  • $RSS$:回归后,未能解释的变量
  • $TSS - RSS$:回归后,能够解释的变量
  • $\frac{TSS-RSS}{p}$:回归后,每个$predictor$所占的解释比例(1)
  • $\frac{RSS}{n-p+1}$:回归后,每个样本未能被解释的比例 (2)
  • $\sigma=RSE=\sqrt{\frac{RSS}{n-2}}$:每个样本的未能被解释的占比(3)

若对于上述的(1),(2),(3)

  • (1)=(3),意味着每个$predictor$能解释的占比很低

  • (2)=(3),意味着每个样本能比解释的占比很低

  • 可以推出$F-statistic=1$,即

    说明各个$predictor$对预测$y$都是没有帮助的。

若对于上述的(1),(2),(3)

  • (1)>(3),意味着每个$predictor$能解释的占比很高

  • (2)=(3),意味着每个样本能比解释的占比很低

  • 可以推出可以推出$F-statistic>1$,可以推出

    $至少有一\beta_i,i\in\{1,2,…,p\}不为0$

$F-statistic$,用于检验部分predictors是否为0

  • $RSS_0$:省略了$q$个$predictors$的模型的$RSS$
  • $RSS_0 - RSS$:即这$q$个$predictor$能够解释的变量
  • $\frac{(RSS_0 - RSS)}{q}$:平均每个$q$能解释的变量的比例
  • $\frac{RSS}{n-p-1}$:平均每个样本未能被解释的比例

如果使用个体的$t-statistic$和相关的$p-value$来衡量变量和响应之间的关系,很可能会得到错误的结论。

2. Variable selection

在一个多元回归式中,究竟哪些变量是和$y$有关系的?将没有关系的找出来

  • 若是$p=2$,即有两个$predictor$,那么需要设计4个模型

    • No variable
    • 只包含$X_1$
    • 只包含$X_2$
    • 包含了$X_1,X_2$

    然后对每个模型,可用如下指标进行检验:$R^2, BIC, AIC, C_p$。但是当$p$特别打的时候,如$p=20$,那么就需要$2^{20}$个子集,这样做效率过低。故需要其他的手段

  • Forward Selection

    先假设一个参数为空的模型,只有截距$\beta_0$。此外,有训练好了的$p$个$variable$。一个个往模型中加$variable$,并保证最低的$RSS$。满足某个条件的时候停止

  • Backward Selection

    先假设所有的$variable$都要。然后,选择$p-value$最大的删除。不断地重复,直到满足某条件;如设定好$p-value$的阈值。

  • Mixed Selection

    先假设一个参数为空的模型。然后,不断地加$Variable$进去,且保证加进去的使$p-value$最小,一旦超过了某个阈值,该$variable$就先放在一旁。最后,$p-value$分成两份,一份使得整个模型的$p-value$都较小,另一份使得$p-value$都较大。

3. Model Fit

两个衡量指标:$R^2,RSE$

  • 对于$RSE$来说,具有较多变量的模型都有更大的$RSE$,只要$RSS$增长的幅度比$p$小,如下公式:

4. Prediction

  • 两个error

    • Random Error $\epsilon$不可控错误。即其他不明的错误未考虑进来,完美的变量是不可能被找到的,只能被估计。
    • Model Bias是可控变量。可以通过不断地做实验,或训练模型来减少它。
  • 两个interval

    • Confidence interval。针对大部分城市的销售量区间,$95\%$的区间内包含了真实的值。
    • Prediction interval。针对某个特定城市的销售量区间,$95\%$的区间包含了真实的值。
    • 两个interval拥有相同的中心,但是prediction interval的范围比confidence interval的更加广。

5. 两个强假设

Predictors and Responses are additive and linear

  1. Additive

    Predictor $x_i$的改变,那么$y$也相应的改变$\beta_i$的大小,和其他的predictors无关。即$x_i$造成的影响和其他的predictors相互独立。

  1. Linear

    Predictor$x_i$每次的改变$1-unit$对于$y$来说效果是一致的,无任何叠加的变化。

移除Additive假设,扩展线性回归

  • 当为线性回归的时候,

    此时$x_1$的变化,会使得$Y$的变化只和$\beta_1x_1$相关,未考虑到$x_2$对于$x_1$的影响,可能也会对$Y$造成影响。

  • 对线性回归进行扩展,如下:

    此时,$x_1$的变化会有$x_2$的参与,$x_1$和$x_2$的$interaction$被考虑了进来。举个例子:流水线个数和员工人数,决定了生产量。现在增加流水线,提升了生产量;但生产量的提升,不仅仅是流水线的功劳,还有员工的功劳,即员工和流水线的相互作用$interaction$。

  • Hierarchical Principle(层次性原则)

    若是一个模型中包含了$interaction$,那么这个模型也必须包含主要的影响因子$x_1, ~x_2$,即使$x_1, ~ x_2$相关系数的$p-value$很大。也就是说,当$x_1, ~x_2$的$interaction$很重要的时候,$x_1,~x_2$造成的影响也没多少人感兴趣了。但是它们得包含在模型中,否则会违背$x_1,~x_2$相关这件事。

移除Linear假设,扩展到Non-linear Relationship

上述式子将$mpg$与$horsepower$的关系变为了非线性,可以看出来是一个二次的曲线。但需要注意的是,这仍是一个线性表达式,可以用线性回归的方法求解相关系数。因为改变的只是式子中的$predictor$而已,并不是相关系数。

6. Potential Problems

Non-linearity of the response-predictor relationships

  • 残差$e_i = y_i - \hat{y_i}$

    残差图($Residual ~ Plot$)最好是橄榄球状,否则说明response和predictors是非线性关系

Correlation of Error Terms

$Linear ~ Regression Model$的$\epsilon_i, i\in\{1,2,…\}$应该是故不相关的。

  • 现有计算$regression coefficients$的方法都是基于$\epsilon_i$互不相关的假设。即当前数据的$\epsilon$不会影响到下一数据的$\epsilon$。否则当前计算出的$standard ~ error$将低估了正确的SD,因为没考虑到这种相关性,导致错的离谱。预测的区间和真实的比将会更宽,如$95\%$的置信区间其实并没有0.95这么高
  • 举个例子
    • 假设将已有的$n$数据复制了一份,共有$2n$份数据用于训练模型
    • 虽然标准差是$2n$个样本的,但其实真实有效的数据只有$n$份。两份数据存在了相关性
    • 训练得到的$coefficient$是针对$2n$份数据的,导致真实的置信区间缩小了$\sqrt2$倍。
  • 在$time ~ series ~ data(时序序列数据)$中经常会出现$correlation$的问题。比如说,邻近时间点采集的数据,都会有相关的$\epsilon$。如果存在相关性,那么在残差图中就会发现追踪现象,即临近残差将会有相近的值。
  • $Correlation$对于$Linear ~ Regression$很重要。若是数据来自同一个家庭,一样的吃饭习惯,都会使得数据存在相关性。若是线性回归中,各个样本之间能够独立,将会有更大的意义。

Non-constant variance of error terms(误差项的不恒定方差)

  • 一般来说,线性回归模型满足该假设

    误差项有恒定的方差$var(\epsilon_i) = \sigma^2$

  • 但如果$response$的值不断地增加,该方差就会越来越大。当面对这个问题的时候,一个可行的方法就是对$response$进行$\sqrt y$或者$logY$。

Outliers(离群点)

  • 虽然离群点对于回归线的影响可能不大,但对于$RSE$,$R^2$指标都有着极大的影响,这导致对模型的分析出现严重的错误。比如说,$confidence ~ interval$,$p-value$的计算都出现问题。

  • 可以通过

    来计算,如果该值大于3,则该点为离群点

高杠杆点

  • 高杠杆点势必离群点更危险的点,因为它容易带偏回归线。

  • 对于高杠杆点的判断可通过如下公式

    若是$(x_i - \overline{x})$越大,则$h_i$越大,说明了该点更可能为高杠杆点。通常$h_i > \frac{P+1}{n}$的点都是高杠杆点。

Collinearity(共线性)

  • 两个$predictors$过于相关了,可以通过$VIF$指标来检测

  • 共线性使得各个变量之间互相关。而$Linear ~ Regression$假设各个边缘之间独立,否则对预测会造成影响。但在现实生活中,数据间往往存在着相关性,但机器学习侧重于预测的准确率。若准确率很高,则不用过于关注。

7. 几个问题总结

sales和budget之间是否存在关系?

  • 通过多元回归将sale和TV,Radio,Newspaper联系起来
  • 测试$H_0,\beta_i=0,i\in\{1,2,3,…\}$是否成立,使用$F-statistic$作为指标,$p-value$越低,说明存在关系的可能性越大。

Relationship有多强?

  • $RSE$估计了标准误差
  • $R^2$记录了$Response$中可以通过$Predictor$解释的变量占比

哪个媒体对sales有贡献?

  • 检查每个$predictor$的$t-statistic$相关的$p-value$
  • $p-value$越低,说明贡献越大

每个媒体在$sales$上的影响有多大?

  • $\hat{\beta_j}$的标准差可用来构建置信区间。若置信区间内不包含$0$且远离$0$,那么说明response和该predictor占一定关系。

  • 此外,共线性会导致标准差变大。故需要检测共线性是某predictor置信区间出现0的原因,通过$VIF$来检测。

  • 若想检验单个变量对sale的影响,可以各自做线性回归。

预测能力有多强?

  • 若使用预测区间

  • 若使用置信区间

预测区间比置信区间更加广阔,因为预测区间加入了不可控变量$\epsilon$。

是否为线性关系?

$residual ~ plot$可用来检测非线性

广告数据存在协同性吗?

  • 标准的线性回归模型假设$predictors$和$response$之间存在加性关系,即各个prediction互相独立。
  • 每个predictor造成的影响不依赖其他的predictors

线性回归与K-NN Regression比较

  • 线性回归是基于$parametric$类方法,有很好的优点

    • 仅需估计有限个$\beta$
    • 可以用统计方法进行分析

    但也有缺点

    • 有$F(X)$的强假设,若数据和假设无关,造成准确率很低
  • 这时候就需要$non-parametric$的方法了,如$KNN ~ Regression$,如下

    • 当K很大时,以$MSE$为衡量指标不会比$Linear ~ Regression$差多少。但是当$k$很小的时候,$K-NN ~ Regerssion$就很差了。
    • 在现实生活中,当predictors的个数很多的时候,对于$KNN ~ Regression$就会有维度灾难,其$MSE$很大。故大多是场合还是基于$Linear ~ Regression$。