Statistic Learning 2

Logistic Regression

三种常用的分类方法

  • Logistic Regression
  • Linear Discriminant Analysis
  • K-NN Negihbor

为什么不用Linear Regression建模分类模型?

  • 若使用Linear Regression来建模

  • 上述模型存在两个问题

    • 概率可能为负
    • 概率可能超过1

Logistic Regression建模

  • 上述的模型是一根曲线,且范围在$(0, ~ 1)$

  • 此外,可以得到

  • 由此可以推出

  • 在上面的式子中,$logit$关于$x$是线性的;若是$x$增加$1-unit$,那么$logit$平均增加$\beta_1x$。但是$P(x)$和$x$不是线性关系的,若是$x$增加$1-unit$,$P(x)$改变的值根据当前值决定。若是忽略$x$的值,只要$\beta_1$为正数,那么增加$x$值会增加$P(x)$的概率。

Estimating the Regression Coefficients

  • 可用最大似然的方法估计$\beta_0,\beta_1$的值

  • 如何验证相关系数的有效性

    $z-statistic$的值越大,说明$SE(\hat{\beta_1})$的值越小;这将成为拒绝$H_0$的主要原因。

Confounding现象

  • 在估计拖欠率的时候,只有$student$作为$predictor$。此时,若身份是学生,那么拖欠率会降低
  • 但,增加了$balance, income$这两个$predictor$后,此时若身份是一个学生,那么拖欠率会变高。为什么呢?这是因为$balance$和$student$之间存在相关性。$balance$越大,会导致身份为$student$的拖欠率会升高。就像$Linear ~ Regression$中,一旦$predictor$间存在了相关性,$Y$的增长不仅会和一个$predictor$增长一个$1-unit$相关。

2. Linear Discriminant Analysis

$Logistic ~ Regression$建立了$Response ~ Y$的条件分布;而在给定$predictor$的时候,$LDA$根据不同的类别,对$predictor$的分布进行建模。

为什么有了Logistic Regression,还需要LDA?

  • 当各类之间的边缘明确时,$LDA$比$Logistic ~ Regression$更加的稳定
  • 当$n$较小时,$x$基本成正态分布,此时$LDA$更为稳定
  • 当分类类别在$2$类之上时,$LDA$更加流行。

分类中的贝叶斯理论

  • 定义符号

    • $\pi_k$:随机选中一个样本属于第$k$类别的先验概率
    • $f_k(x) \equiv Pr(X=x|Y=k)$:类别$k$下样本分布的概率密度函数
  • 贝叶斯理论

    • 可用缩写$p_k(x)$代表当$X=x$时,$Y=k$的概率
    • 根据公式,若要估计$p_k(x)$,可以先估计$\pi_k,f_k(x)$再带入贝叶斯公式
    • $\pi_k$比较容易估计,可以通过计算训练集中各类别数据的占比;但$f_k(x)$的计算比较有挑战性。
  • $p_k(x)$被称之为$X=x$属于第$k$个类别的后验概率;如果能找一种方法估计$p_k(x)$,就可以得到一个近似贝叶斯分类器的分类器。

Linear Discriminant Analysis for p=1

  • 假设此时只有一个$predictor$,$p=1$;我们需要获得$f_k(x)$的估计,来计算$p_k(x)$。那么对于一个样本而言,$p_k(x)$最大的那个$k$就是它所属的类别。

  • 为了估计$f_k(x)$,需要做一些假设

    • 假设$f_k(x)$服从正态分布,一维正太分布的概率密度函数如下:

      其中,$\mu_k,\sigma_k$是第$k$个类别的均值和方差

    • 此外,假设所有$k$个类别共享相同的方差,统称为$\sigma^2$

  • 将$f_k(x)$代入$p_k(x)$中,得到如下式子:

    其中,$\pi_k$声明了一个样本属于第$k$个类别的先验概率

  • 若是对$公式(1)$取$log()$,可以得到以下式子:

  • 对于公式$2$,当$k=2, \pi_1=\pi_2$时,计算如下式子:

    此时可以得到得到一个决策边界,如下:

  • 在上面的例子中,我们假设$x$来自正态分布,所以我们知道$f_k(x)$,但需要估计$\mu,\sigma$;此外,我们还假设了$\pi_1=\pi_2$。那在实践中,我们依然假设每个类别中的$x$来自正态分布,但需要估计$\mu_1,\mu_2,…,\mu_k$,以及$\pi_1,\pi_2,…,\pi_k$和$\sigma^2$。

  • $LDA$通过估计$\pi_k,\mu_k,\sigma^2$来近似贝叶斯分类器。在实践中,当$p=1$时,可以估计出

    其中,$n$为训练样本总量;$n_k$为类别$k$的样本总量;可以看出

    • $\hat{\mu}$仅仅是第$k$个类别中所有样本的均值
    • $\hat{\sigma}^2$是每$k$个类别样本方差的加权平均
  • 如何计算$\pi_k$?

    • 有的时候该项已知,直接用

    • 当缺少$\pi_k$时,$LDA$使用训练集中某类样本占总样本量的比例来估计$\pi_k$

    • 最终可以判别$X=x$属于不同类别的概率,式子如下

    • LDA中的”Linear”就源于判别方法$\hat{\delta}_k$是x的线性方法。

最后,重申以下:当$p=1$时,$LDA$假设每个类别都来自正态分布,均值不同,但共享同一个方差;估计$\pi,\mu,\sigma$后,带入到贝叶斯分类器中即可。